6月20日至21日,《中国企业家》杂志社在2020(第二十届)中国企业未来之星年会暨中国企业家生态大会上公布了2020年度“中国科创企业百强”(简称“科创百强”)评选结果。作为国内领先的HTAP国产数据库与人工智能底层软件提供商,天云数据从众多企业中脱颖而出,荣登榜单。

本届大会聚焦“共享数智化红利”,挖掘推动人类社会生产生活新一轮变革的创新科技。新技术的聚变,加速了以数字化和智能化为主要特征的产业转型,一场影响深远的变革正在发生。

回顾数据科学的发展历史,重新审视一下数据科学的现状及未来,尝试发现数据科学成功在工业界应用的银色子弹。2015年,斯坦福大学统计学教授David Donoho在普林斯顿大学举办的John Tukey百年纪念大会上做了《数据科学50年》的报告。该文回顾了数据科学50年来的发展历史,并对数据科学的现状做了总结,报告指出:数据科学包括六个重大分支:数据探索和准备、数据表示与转换、数据计算、数据建模、数据可视化与表示以及数据科学的科学性。数据科学家往往会发现,他们工作的一个中心步骤是通过适当的转换,将原始的数据表示重构成新的,更具有启发性的形式。而完成这一中心步骤,需要数据科学家发展两种能力:

NewSQL:当今数据表示的方式非常多样,从文本文件、电子表格到SQL、NoSQL数据库、分布式数据库、流式数据库等,数据科学家需要熟悉使用所有这些数据表示形式相关的数据结构、转换和算法

特征工程:对于特定类型的数据,如声音、图像、传感器和网络数据,采用特定的数学表示形式将会对数据分析非常有益。如,为了获取声音数据特征,往往需要对其进行同态滤波或进行傅里叶变换;为了获取图像数据特征,往往进行小波变换或其他多尺度变换(例如,深度学习中的图像金字塔等)。数据科学家研究出了各种成熟的算法以及相关的评价准则。

天云数据的AI系列产品,完美的满足了报告指出的数据科学家必须发展的两种能力 :

HTAP混布数据库充当AI应用的底座,完美满足各种不同格式、不同规模的数据存储与查询的需求,使得数据科学家无需掌握多种数据库的使用,即可满足工作需求。

 

天云特征工程平台,将学术界数十年来开发的特征加工算法固化为可高效运行,满足海量数据处理需求的算子,使得数据科学家无需重复造轮子,将更多时间与经历聚焦于数据探索、数据理解以及数据科学的其他环节,大幅逼近模型效果的上限。除此之外,天云的推理服务平台Sail帮助数据科学家将AI模型容器化部署,快速,安全,有较强的可移植性和灵活性,大大降低了虚拟机的管理运行成本,既满足了企业级的快速灵活安全部署,降低了部署成本,又使AI模型在企业快速上线,在真实的生产环境中检验模型效果,具备了快速迭代模型的能力,打通了企业级应用的最后一公里。天云AI产品生态的理念是:AI平民化。将企业级的海量数据通过分布式的特征工程平台和分布式AI建模平台来计算,利用特征工程平台Kaleido降低数据科学家的学习成本。如特征表达,新型分布式环境的运用能力,再加上一定的行业背景知识以及自动化机器学习及深度学习,在天云的全生命周期的AI产品生产线上,即可实现企业级的AI模型快速落地。数据科学平台具备了模型管理能力,沉淀了业务和技术经验,构建了标准化的建模流程。此外,还便于图形化的二次开发,大大优化提升了AI产业化能力。利用HTAP混布数据库做底座,AI才能形成算力和数据闭环,这是天云深度下沉去做Hubble数据库的原因;天云的Kaleido特征工程平台面向大数据生产环境的数据描述、MaximAI的AutoML调参能够动态响应数据集变化,支撑生成式模型或判别式预测模型;这些产品无一不在践行天云赋能数据科学人才的理念:获取机器智能像读书一样简单。作为国内最早一批进入大数据、人工智能行业的硬科技创业先驱者、天云数据创始人,雷涛带领的天云数据,从2013年创始以来,押宝在新型数据库与AI特征工程平台,多年来在金融、能源、军工、医药等多领域成功进行了产业化落地。

HTAP数据库Hubble,完成了去IOE中最困难的部分,替代金融A类核心系统惯用的西方IOE架构,在银行的联机事务中解决A类核心系统减负问题; AI特征工程平台支撑实现数据仓库消费化,BI向AI升级,关键数据驱动的转型,替代西方核心的SAS建模平台,构建了新一代人工智能基础设施,支撑大型银行扩建百亿级利润。

天云依靠新型分布式数据库与特征工程平台,这两个平台引擎的巨大动能,正在帮助这些企业实现知识再生产的规模性变革,创造出多元机会;同时,天云也在和这些积极利用AI的企业并驾齐驱,好风凭借力,双双实现弯道超车。