北京冬奥会正在如火如荼地进行着。
从冬奥会开始至今,“冬奥手语播报数字人”每天在北京卫视《北京您早》节目中对“冬奥赛事集锦”和“一起看冬奥”进行手语播报,便捷听障人士收看赛事专题报道,提升他们的社会参与度和幸福感。
“冬奥手语播报数字人”采用我国首个超大规模智能信息模型和虚拟数字人技术,是由北京市科委、中关村管委会和北京市残联发起,科技冬奥专项支持,由智谱AI、凌云光和北京广播电视台联合打造。
2月9日,由北京市委宣传部,北京市科委、中关村管委会等单位组织的“科技冬奥企业行”大型主题采访活动第四站,前往北京冬奥会“手语播报数字人系统”研发企业之一的智谱AI,探秘虚拟手语播报主持人亮相荧幕背后的智能科技。
虚拟手语主播“很有价值”
对于普通观众来说,通过影像、解说甚至是字幕都能欣赏到一场高水平的冬奥赛事直播。但对于听障人士而言,仅看字幕和画面是远远不够的。
这是因为,对于听障人士而言,手语才是获取信息的“工具”,传递的信息更加亲切、准确。所以在冬奥赛事转播,配备一名手语播报员是很有必要的。
以往受制于成本和技术,听障人士难以淋漓尽致的感受体育赛事的精彩。但从今年北京冬奥会开始,融合人工智能、深度学习、智能捕捉等诸多先进技术的“手语数字人主播”正式上线,为听障人士提供不间断的赛事手语服务。
“国内听障人群数量已经达到2700万,比整个吉林省的人口还要多,规模是相当庞大的。”智谱AI合伙人及高级副总裁左家平在采访中介绍。
与巨大的需求相悖的情况是,专业场景手语服务资源相对匮乏,至于体育赛事解说领域,因为成本和专业性,满足需求的真人手语主播数量就更少了。
在人工智能技术不断发展的当下,具备手语播报功能的“虚拟主播”就有了很高的价值。
“一方面,这可以降低赛事运营成本,体现了科技和人文的完美结合;另一方面也可避免‘千人千面’,始终保持统一,根据收听到的语音,自动实时生成手语手势,提供精确的播报服务。”左家平表示。
手语播报数字人背后的智能科技
“冬奥手语播报数字人系统”由北京市科委、中关村管委会支持,智谱AI、凌云光和北京广播电视台联合打造,清华大学贾珈教授团队和中科院计算所陈益强研究员团队也积极参与了相关关键技术的研究和开发,也得到了北京市残疾人联合会和市残联聋人协会的帮助和支持。
要打造这样一个系统有许多的难题需要攻关。
“首先要解决的就是语料库问题,这是构建虚拟手语播报人的基础。”左家平介绍。
多模态动作捕捉数据的采集现场
在北京市残疾人联合会和市聋人协会的支持下,技术团队做了大量工作。最终构建了符合国家通用手语规范的、国内最大规模多模态手语语料库,词汇及语句总规模超10万,不仅满足冬奥会词汇需求,也涵盖了大多数日常生活用词用语。
有了丰富的语料库,下一步就是研发AI手语数字脑,它包括高精度语义蒸馏模型和文本转手语模型,通过计算机模仿听障人士的大脑,将看到的中文文本信息转换成手语词汇序列。
虚拟手语播报数字人
但这项技术的最终目标,是虚拟人不仅“听得清”更要“会表达”,无限接近甚至超越真人播报员。
所以研发团队运用多模态同步肢体、表情采集系统构建了大规模手语语料库,实现新闻内容到手语数字人肢体及表情动作的生成。
并非传统产品 未来前景广阔
随着元宇宙概念兴起,虚拟数字人正越来越频繁地出现在公共视野。数字员工、虚拟偶像、虚拟代言人、虚拟主播……在社交、媒体传播、营销、传统产业中展现出巨大的价值。
此次亮相冬奥的AI手语主播,是否就是传统虚拟数字人的“手势升级版”呢?
中科院计算所泛在中心主任陈益强接受媒体采访
参与AI手语主播研发的中科院计算所泛在中心主任陈益强认为,两者追求的方向是不一样的,是不同的技术路线。前者主要是语音与视觉之间的转换,后者不仅要“听得懂”更要“做得对”,背后的技术细节更复杂。
“类似的虚拟人手语主播,无论在国内还是国外,都没有成熟的技术方案,尤其是对于汉语这种复杂程度较高的语言来说,这是一次全新的尝试,也是一次高水平的挑战。”陈益强表示。
AI做诗展示
可聊天AI机器人
借助冬奥会契机,在AI技术不断进步的当下,手语播报数字人也有了更加广阔的发展空间。智谱AI CTO张鹏表示,未来这款产品有望对公益部门免费开放,公益领域以外的商业市场,也有很好的发展前景,为满足多样化观众的多样化需求,创造更多可能。
本次活动是“科技冬奥企业行”大型主题采访活动的第四站,后续还将组织媒体记者走近更多“科技冬奥”项目,了解科技支撑冬奥背后的故事。
相关人物