该成果属于自然语言处理领域。知识图谱是人工智能的基础设施,对于语义内容理解,特别是下一代人工智能所需的深度推理具有关键支撑作用。成果以构建大规模知识图谱与知识应用引擎为目标,针对互联网环境下文本领域开放、类型开放等特点,率先提出基于弱监督卷积神经网络的大规模文本知识获取系列方法,实现了千万级规模的多领域知识自动抽取;在此基础上,创新性地提出面向异构海量知识图谱的深度学习问答方法,为知识匹配、推理等深层应用提供有效技术支撑。主要创新如下:
1.针对知识获取过程中的文本语义表示问题,创新性地提出基于卷积深层神经网络的知识抽取方法,极大减少传统方法对自然语言处理工具的过分依赖以及误差累积问题,突破了领域、语言的约束和限制,显著拓展知识抽取应用范围。
2.针对大规模知识获取时的训练标注数据不足问题,发明基于远距离监督卷积深度神经网络的知识抽取方法,有效解决开放域环境下训练语料自动生成和数据噪音问题,为大规模知识图谱构建提供了一种实际可行的解决方案。
3.针对大规模知识图谱应用中的知识匹配困难与知识稀疏问题,发明基于深度学习的端到端知识库问答与推理方法,创新性地将传统基于符号表示的问答、推理过程转变成基于语义数值计算的可学习问题,实现大规模、开放域环境下的知识图谱有效利用。
4.研发了具有完全自主知识产权的大规模知识图谱构建关键技术与应用的工具和平台,提供实体识别、关系抽取、事件抽取、知识问答等关键技术与功能,在医疗、电商、教育等多个领域及场景实际落地。
该成果获授权发明专利15项,发表论文100余篇。成果在教育、家具、金融、司法、电商等多个领域应用,服务中国大百科全书编纂、智慧医疗、智慧教育等民生工程,五年累计实现产品销量超360万套,服务峰值日调用量1000万次以上,扩宽了人工智能应用场景,对占领下一代人工智能技术和知识服务的科技制高点具有重要战略意义。
相关人物