基本信息
所属科技项目名称:基于自动机器学习技术的通用人工智能应用平台
项目主管部门:北京市科学技术委员会、中关村科技园区管理委员会
科技成果信息
科技成果名称:基于自动机器学习技术的通用人工智能应用平台
关键词:人工智能通用平台、自动机器学习、小样本学习、超大规模分布式
科技成果类型:原始创新
科技成果所处阶段:其他
科技成果应用领域:金融业
科技成果简介:
一、主要研发内容
课题主要基于传统机器学习技术、小样本学习、超参数搜索、基于采样的优化等技术,开展适用于实际业务数据的深度学习、自动数据预处理、自动特征提取、高效可扩展的自动算法选择和配置以及动态环境自动机器学习技术的应用研究,研发支持行为数据收集、反馈数据收集、模型学习、模型应用一站式全流程应用的人工智能平台,将除了物理世界和数学问题之间转换之外的机器学习核心步骤自动化,降低人工智能技术应用门槛,有效解决当前人工智能专业性人才缺乏的问题,使各行业用户能够基于该平台实现数据驱动增长的新模式。
二、关键技术
(1) 适用于高维抽象数据的深度学习技术 该技术与传统的图像处理领域以图像像素作为输入深度学习技术不同,其利用复杂的自适应结构,解决实际业务中输入类型为高层抽象概念的问题。
(2) 自适应数据预处理技术
该技术通过数据自动清洗、自动填补缺失值、数据自动增强、自动样本采样等手段 提升数据质量,为机器学习后续流程做准备。
(3) 有效特征的自动生成技术
该技术通过特征的自动生成(包括特征自动组合等),特征的自动选择两个技术手 段迭代进行,增强对原始数据的特征表达,该表达更适用于后续的模型训练。
(4) 高效可扩展性自动算法选择和配置技术
该技术通过优化机器学习算法的自动化选择,对算法超参数的自动化配置调优等手段,实现高效可扩展的模型训练过程。
(5) 动态环境自适应机器学习技术
该技术综合利用迁移学习、在线学习、自动算法选择和配置等多种技术解决机器学习面对真实业务场景中比如概念漂移等的动态环境问题,同时,多种任务之间互相迁移帮助提升效果,实现人工智能在实际业务的高效落地。
(6) 超大规模分布式计算技术
该技术利用分布式计算资源,完成万亿级参数以上的超大规模复杂任务的计算过程 为解决人工智能实际业务落地中涉及到的大数据数据预处理、特征提取、机器学习模型训练等任务提供底层技术支撑。
三、预期成果形式
(1)平台:研发基于自动机器学习技术的人工智能应用通用平台 1 套;
(2)论文:发表 2 篇高质量学术论文;
(3)专利:申请 20 件中国发明专利,4 件外观专利,申请 4 件海外专利(以美国或欧洲 为主);
(4)软著:取得 1 项软件著作权。
四、课题成果推广方案
18 年 7 月至 2019 年上半年,将进行产品研发,我们会在算法的通用性、算法的高 效性、产品的普适性、产品的易用性等当面全面打磨产品,已达到降低 AI 应用门槛和 降低门槛的目的;
2019 年下半年,课题的部分研究成果会率先应用于数据基础良好,希望应用自主 AI,但不知如何落地的客户:包括金融、医疗、能源、新零售、智能制造等企业,直接 赋能这些有 AI 需求的企业;
2020 年,在奠定了一定的客户积累后,我们会把课题的研究成果推广到有软件课题 经验,希望转型 AI 的客户,完成渠道合作伙伴赋能,并进一步放大研究成果对于经济 社会的意义;最后,我们会把课题的应用成果推广到已经应用 AI,但希望降低成本规模 化落地的客户,进而降低整个行业的 AI 应用成本,提升整体经济效益。
本课题完成后,其成果将会以金融、医疗、智能制造、新零售、互联网等行业为核 心进行产业化布局。在课题实施过程中,部分阶段性成果可在平台研发完成前形成独立 产品提前进入市场产生部分收入,2020 年预计可实现收入 4500 万;平台建设后即可实 现规模化生产与应用。
相关人物