手语数字人让听障人士“看见”声音
12345政务服务便民热线,一根小小的电话线,畅通民意、联动民生,但听障人士如何拨打12345政务热线,反映自身诉求呢?6月17日,在合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)内,机器博弈关键技术及应用项目团队正在与合肥市12345政务服务便民热线开展对接,筹建面向政务问询的视频手语系统。很快,手语数字人即将在合肥上岗。
听障人士面临着电话语音无法交流的情况。“如何帮助听障人士更好地融入社会,实现无障碍的交流沟通,让人工智能技术为他们的生活带来温度,这是我们团队开展研究的初衷之一。”合肥综合性国家科学中心人工智能研究院研究员周文罡说。自2012年起,他所在的科研团队开始专注计算机视觉中的手语识别、合成的方向。
经过10余年技术攻关,团队在视频手语理解方面的相关工作形成了一系列关键核心技术,在领域重要国际期刊和会议上共发表学术论文40余篇,申请专利20余项,并于2021年提出了手语识别领域的首个预训练模型。该模型也是国际上首个专业视频手语预训练模型。
“我们建立了基于视觉-语言大模型的视频手语问答原型系统,能够实现视频手语识别、自然语音问答、视频手语合成等。”周文罡介绍说,通过形成手语识别—自然语音问答—手语合成闭环系统,让听障人士真正实现无障碍交流。
“虽然技术在手,但是需要进行场景的应用,我们也一直在考虑能够应用在哪些关键领域,是否可以先找一个垂直应用领域作为切入点。”科技攻关是周文罡的强项,可在发展战略、市场研究等方面存在不足。
2019年12月31日,合肥综合性国家科学中心人工智能研究院正式成立,这带给周文罡团队新的机遇。
研究院不仅提供了场地应用和资金扶持,还在科研攻关方面采用PI项目制的方式,在项目经费支配、成果使用等方面给予高端人才更大自主权。同时为每个团队配备专职科研秘书和工程、实验人员,将科研人员从日常性事务中解放,帮助他们更专心开展科研工作。
最终,周文罡和团队决定首先在政务问询领域检验这项科研成果,为听障人士这一特殊群体提供更便捷、更人性化的城市公共服务,让他们体验既富“科技感”又有“人情味”的问询系统。
在周文罡的演示下,可以看到听障人士拨打政务服务热线时,先通过视频通话的方式与手语数字人进行互动,再由手语数字人将手语转化为文字或语音,并传达给政务服务热线的客服人员。同时,它也能将客服人员的回答或指导转化为手语,让听障人士能够清晰地理解和接收。
“未来,我们希望依托人工智能研究院的平台,将成果进行产业化应用,在政务服务窗口、政策宣讲会、在线政务服务等更多的场景中发光发热,帮助听障人士传递心声、解决困难,搭建起安全可靠的沟通桥梁,共享美好生活。”周文罡充满信心地说。