基本信息
所属科技项目名称:基于人工智能的高清视频画面场景分析与物体检测技术研发
项目主管部门:北京市科学技术委员会、中关村科技园区管理委员会
科技成果信息
科技成果名称:基于人工智能的高清视频画面场景分析与物体检测技术研发
关键词:场景分类;目标检测;互联网视频
科技成果类型:其他
科技成果所处阶段:中试放大
科技成果应用领域:科学研究和技术服务业
科技成果简介:
用户在观看电视节目或者通过互联网观看视频时,会对视频中的场景会产生不同兴趣,同时也会对场景中种类繁多的物品产生衍生购买诉求。伴随着传统媒体广告份额下降,新媒体广告需求不断增长,电视广告急需新的模式介入。同时国家政策导向支持通过技术创新发展新业态新模式。
本课题运用最新的人工智能技术和深度学习网络模型,深度挖掘海量互联网和电视视频内容中蕴含的目标对象信息,实现对视频内容中场景和物体的精准识别。解决在海量的电视或互联网视频中识别出场景和物体,再进一步解读出场景和物品所关联的信息等问题。
研究的具体实现如下:1.构建 1000类场景和物体的图像数据集。针对场景分类算法,我们共构建了训练和验证数据集共 70万张图像,共 365种分类场景,每类的图像从 1800到 2000张不等。针对目标检测算法,训练和测试数据集共 100万张图像左右,共 635 类检测目标。测试数据集共 14000 图像。数据集针对互联网电视广告需求构建,包含了大量的广告商品分类。能够分别适应广告商品搜索和广告商品识别的训练及测试需求。2.场景识别与目标检测技术的研发。课题组结合现有主流的场景分类和目标检测算法,实现了支持大规模场景的分类算法和大规模目标检测算法。
在算法研发过程中,课题组集合现有主流的分类和检测网络结构,分别在多尺度网络训练、大规模分类知识引导消歧、大规模检测超类设计、RPN网络设计、损失函数改进等不同方面对分类和检测的网络进行了调优和创新。
我们基于互联网电视的平台,利用人工智能图像和视频分析技术,实现了视频场景精确识别以及物体的检索分析的基础算法研发、构建了百万规模的数据集并对外提供了相关算法的调用引擎。
本课题成功运用人工智能图像识别技术,对海量视频数据内容的充分挖掘,实现对海量视频内容的管理和评估,大大降低了新媒体消费服务平台的人工管理数据的人力成本投入,预计每年可节支人力成本 500 万元。另一方面,基于海量场景物体的挖掘,可实现视频内容关联信息的精准对接,提升新媒体消费服务平台整体的运营服务能力。
相关人物