研究课题

研究院课题:通用特征工程与人工智能模型训练平台的建设

项目背景

研究内容

  • 药物信息数据处理与特征工程部分各项功能,支持绝大部分特征工程方法;支持医药数据的自动化建模;
  • 智能医药平台部分:包括数据管理、医药专利管理、医药市场分析、人工智能模型搭建等;
  • 工程化管理:权限、角色、医药数据管理、模型生命周期管理等适合企业项目管理的功能;
  • 可视化界面:通过 web 界面的方式实现 1~3 各项功能。

 

研究结果

根据项目的主要内容,已完成2个平台的建设,包括人工智能建模平台和特征工程平台的系统定制化开发、安装部署和测试。基于开发的产品平台,利用药物和靶点数据,完成了药物靶点预测模型。已完成CTC登记测试报告。

项目进行期间,完成专利申请一项并获得授权,完成软件著作权申请2项,项目达到预期的目标。 

 

创新内容

  • 项目创新研发了基于分布式存储架构的平台,对大量复杂多样性的药物研发数据进行实时、准实时建模;
  • 创新平台支持可视化药物研发及临床数据自动化机器学习建模、优化,支持免代码建模,降低使用门槛;
  • 创新平台弹性可扩展,可应用大规模节点处理超大规模数据。

 

 

    • 特征工程平台主要功能包括数据预处理功能,满足对于结构化数据、非结构化文本数据、图数据等多种数据类型的导入及处理;实现特征提取、特征选择、特征缩放、特征变换、用户自定义变换功能模块;

 

    • 人工智能建模平台主要功能包括主流的机器学习算法免代码式建模,实现导入数据集选择预置算法或自动机器学习算法建模,实现模型评估和测试;

 

    • 人工智能建模平台包含工程化管理平台,实现了对各数据建模整个生命周期的可视化和模块化管理,并以友好的用户界面整合用户管理、任务管理、数据管理和模型管理等业务级管理任务;

 

    • 人工智能建模平台支持可视化界面Web GUI,可通过交互式web界面呈现机器学习建模功能。