2023年10月21日,作为“全球资产管理中心 上海国际活动周2023”最后一场(第十天)重要活动,“第四届1024资管科技开发者大会(ITDC 2023)——资产管理垂直领域大模型开发与应用”(智能投研技术联盟ITL成员机构发展年会),在上海临港的“世界顶尖科学家论坛永久会场”(临港中心)圆满举行。

这是一个首创的集聚当今国内有影响力的通用大模型和资产管理垂直领域大模型开发应用的数智金融前沿技术发展大会,也是一个在上海国际金融中心城市集聚当今金融资管领域有影响力数智技术专家学者的大会,强烈吸引了业内外、海内外专业技术人士。全天大会历时9个多小时,线上参会约230万人次、现场参会近500人。

大会集中创新优势,突出数智科技前沿性和垂直领域应用性。ChatGLM(智谱AI)、文心一言(百度云)、讯飞星火认知大模型(科大讯飞)、书生·浦语大模型(上海AI Lab)、盘古大模型(华为云)、孟子大模型(澜舟科技)、百川大模型(百川智能)等国内主要通用大模型以及LightGPT(恒生电子)、文因大模型(文因互联)和天云Elpis(天云数据)等金融资管垂直领域大模型在大会上分别作技术、功能与金融应用等交流。来自银行、保险、券商、资管、科技企业、高校、专业技术社团等数智科学专家结合自身开发实践作研讨分享。
集聚通用大模型与资管垂直大模型

ITDC 2023现场检验大模型回答资管行业问题的能力

会上,中国计算机学会(CCF)上海分部主席、智能投研技术联盟(ITL)首席高级技术顾问、恒生电子股份有限公司首席科学家、研究院院长白做了技术报告分享,并在现场随便抛出一个问题:“中国有几个证券交易所?”邀请各家大模型厂商现场回答。

提问完,白院长也做了总结:定式回答是2家;但是比较新的回答是3家,还需要加上北交所;但是加上北交所就完事了吗?还有港交所、台交所,港台也是中国的一部分。

天云数据专注私域大模型,支撑证监会全部法规(不含更新数据),针对证券行业问题回答正确且有完整溯源。

(天云数据的回答)

为什么天云数据大模型能精准回答且做到溯源?

Elpis已经从Training 步入Serving实现大模型2.0阶段

如今,国内已进入百模大战阶段。通用模型和私域模型一直是行业热门探讨的问题。那么试问,什么是私域模型?

私域模型不是小模型,不是通用模型版的裁剪版,从通用模型到私域模型,是从“造轮子”到“造车”的过程。天云数据大模型已经实现从1.0的造轮子(Training)2.0的Serving(造车)阶段,结合企业自己的私域数据、算力,保障行业数据的安全性,完成行业大模型实现大模型的新阶段。

天云数据私域大模型Elpis基于迁移学习对大语言模型进行微调,使模型语境更适用于当前私域数据场景,并且做到答案可精确溯源,最后通过模型管理进行服务的发布供用户使用。在生成时可以引用原有法条做准确严谨回答,对比通用大模型,更适合机构私有数据。

为什么大模型火爆之后资本将重点都转向了向量数据库?为什么云原生越来越重要?为什么OpenAI做大模型要外采Ray和Wandb,自动化机器学习对大模型有什么价值?通过一体机训练的逻辑能不能走向大模型的未来?针对这一系列问题,天云数据CEO雷涛会上分享的《去除幻像的大模型落地路径》给了我们答案。

1、为什么大模型火爆之后资本将重点都转向了向量数据库?

大模型的语料需要预处理转化为向量数据,向量化数据的存储还需要一个分布式向量数据库进行支撑,这也是非结构化数据大模型场景工程化落地必然路径。

那么到底是做向量数据库还是在现有数据库中加上向量引擎?北美的向量数据库创业公司Chroma,底层使用是实时分析数据库ClickHouse。“仅仅”是在著名实时分析数据库ClickHouse上封装了一层而已,Chroma便一跃成为新晋向量数据库,由此可见一斑。与其投资新的向量数据库项目,还不如关注现有数据库中哪些加上向量引擎可以变得更加强大。

2、为什么云原生越来越重要?

AI原生数据库在实现数据库的向量化有先发优势。以天云数据Hubble为例,向量化Retrieve是Hubble数据库和Kaleido特征工程的一个组合,也就特征工程产品里的十几种的向量方法,比如高斯距离、最短近邻的算法,将这十几种的向量方法封装在Hubble数据库的解析层,实现数据库的向量化能力构建。

这也是Databricks用AI释放数据潜力的方法。因为Databricks历来都有自研的AI产品,具备技术能力发布大模型产品释放数据价值。

3、为什么OpenAI做大模型要外采Ray和Wandb,自动化机器学习对大模型有什么价值?

在国内大谈大模型的时候,硅谷资本已经开始热追向量数据库、强化学习平台、机器学习平台,因为OpenAI ChatGPT模型迭代训练用的技术栈唯一依赖第三方开源的技术框架Ray/Wandb就是两个机器学习框架,这也是LLM生态的必不可少的技术。

天云数据在行业率先发布了私域数据大模型Elpis,其背后的技术支持框架是天云数据AI-PaaS平台除了自身的机器学习平台套件外,还兼容集成开源机器学习框架,Pytorch/TensorFlow/ Ray/Wandb/MXnet/Padddle等, 可以快速训练及发布推理服务。强化学习完成大模型的有监督学习,实现大模型正确理解人类意图。

4、通过一体机训练的逻辑能不能走向大模型的未来?

今年第一季度,“LLaMA 7B/13B+指令=GPT 3.5Level”是否过度炒作?从其结果来看,OpenLLaMA-7B和LLaMA-7B得分都是0.55,主打一个势均力敌。如此可见,OpenLLaMa 7B和13B的分工展现出开源社区在核心项目突破上正在变得更团结。而且从全链路来看,开源社区已经发展到了全覆盖的阶段,每个环节都有头部的开源项目可用。

大模型行业将整个注意力转向了Pre-Train环节,但试问,用预训练模型finetune能不能走出大模型的未来?目前国内市场上的大模型大多通过微调finetune的方式实现,也就是依靠一众的开源小模型。预训练模型主导的“百模大战”,天花板非常低,因为微调的方法只是决定了让语言模型更适合于人类意图,但是它不能够决定模型的正确逻辑,因此同质化严重。

5、“百模大战”的终点是“造车”核心看产业侧谁能提供完整的生态服务!

“百模大战”都是在造轮子,但最后谁家的“轮子”能够成为基础设施?事实上,我们都知道,无论“轮子”多好,但只有“轮子”是肯定不行的。产业侧的企业需要理性看待市场并合理分工,LLM需要组建自己的生态环境,这样才能最快的呈现Agent服务。

能提供Agent服务一定会有一个前提,就是产业有完善的AI Infra。近期人工智能的热点主要体现在生成式模型上,但无论是将私域数据迁移,还是需要一些向量化的数据库支撑还是Generative Agents以及强化学习RLHF都需要借助传统机器学习的方法和流水线来完成。甚至在BERT小模型阶段还依赖于知识图谱KG的严谨推理方式的工程组合,这些都需要科创公司就绪全栈AI的能力。

面向大模型的训练和开发部署,一定是更强的Base Model和比SFT指令数据更进一步反馈的数据是突破瓶颈的方向。开源社区模型不具备真正智能,更好的小模型来自大模型的Scale Down。

在中国的市场,一个新事物落地要想完成最小级闭环很难通过生态的之间的合作来完成,因此需要一个全栈技术的持续投入,尤其是LLM之上的AI Infra,没有所谓秘方和捷径。