2024年10月18日,作为“全球资产管理中心 上海国际活动周2024”压台活动,“第五届1024资管科技开发者大会”在上海·临港中心圆满举行。在媒体采访环节中,天云数据CEO雷涛针对财联社、上海证券报、21世纪经济报道等媒体提问,核心谈了对大模型和数据的连接问题。

在过去一年您的机构的实践中,大语言模型在哪些场景上落地取得了成功?

您问题的核心在大语言模型,其实在基模(基础模型)上,市场已经在第二代视觉多模态大模型和第三代空间认知大模型上取得了非常大的成果和突破。

当然,大语言模型是知识的容器,在整个流水线中扮演非常关键的位置,可以有效地处理视觉和空间感知的多维信号扩展人类的融合认知。

咱们现场举例,就今天的采访视频,我们要如何去编辑处理?还是传统的定位到每一帧每一秒去剪辑?大语言模型在多模态在空间认知上取得了非常大的一个成果,已经可以基于语言模型抽象出每一个嘉宾的核心观点,还可以基于内容选择,所见、所选及所得,把劳动力从重复性的工作中解放出来,实现场景式理解视频内容。

Agent、RAG、GraphRAG,新大模型生态链技术层出不穷,在未来发展中,您看好哪些新的发展方向?它们会如何在资管领域取得应用?

针对这个问题,我想先谈一下大模型和数据的关系。因为我们天云数据本身就同时做数据供给侧的混合负载数据库和数据消费侧的机器学习平台。

那么,为什么我们要关注大模型和数据?

这个可以从存量和增量两个方向上去看:存量是这两年的主流,就是把已有的知识做知识封装和知识移动,一种端到端的训练方法;增量是用RAG、用向量数据库外挂在模型之上,将增量的信息全部训练进去,我们去年在ITL发布的证券法规助手就是这种方法。现在的企业数据,不仅仅只有文档、手册这些静态的科技文献内容,更多的是流动的、数据价值密度更高的信息,这些是存在数据库里的。

针对存量的一个核心关键词就是大模型to DB,也就是我们怎么对高价值密度的数据,在不用精密地组织语言的同时,还能作出准确数字类问题的回答,比如客服里的定价问题、价格交易等问题。

我们服务于券商的数字人,播报的内容是来自于实时交易系统的数据和研报文本内容的结合。针对这样的场景,就需要把大模型的模糊意图匹配和精确的SQL操作形成连接。这种连接不是一对一的,面涉及到非常复杂的工程技术。如何保证像ASR语音识别这些机器学习模型回答一个准确的答案?比如现在的销量是多少,是产品的销量还是区域的销量。像这样模糊的意图匹配,怎么和数据库里精确的字段完成匹配?在后台,需要准备大量的密集计算操作。传统的MPP数据库是没有并发能力的,可能只能支撑一句话十几个token的内容。但高并发任务,成百上千个宽表的OLAP执行对数据基础设施的要求非常高,只有HTAP数据库能胜任这种大模型的高并发AP类业务的底座。

存量突出解决的场景就是针对密集计算的跟数据相关的大语言模型的交互。

第二个方向就是增量,这里面一个核心关键词是合成数据。供给大模型的数据资源从哪里来?这里面涉及到非常多的场景,最早我们使用合同数据更多地是面向专业领域的大模型微调,需要有非常精准的且合适的数据才能提供准确的大模型服务。

Lora是一种常见的微调方法,它对输入给模型的数据的要求也非常高。

我们如何获取这种数据?比如做一个客服系统,每家企业都有各自的产品手册、规章制度,但是客户会提什么样的问题呢?传统的方法是用人工标注采集的方式去获取这些Q&A,现在我们可以针对产品手册的大模型来生成Q&A,这就是典型业务场景的合成数据。

那么lora的数据生成从哪里来?我们用不同版本的大模型去完成同样问题的回答,他们的差异性就是权重分布,可以用来做精确的模型训练数据生成。

合成数据已经开始从模型训练数据的生成到直接场景数据生成,大模型进入到了数据飞轮效应,就像Robot让我们看到的里程碑式技术是机器在供给自己,可以简单类比理解一下,就是供给给机器训练所需要的数据就像汽车要加的油一样,开始变成是自己生产出来的。

客观说针对驾驶而言,一些极端灾害、路况交通事故是不可能通过大规模的路面采集获取的。我们管它叫CoreData,CoreData是可以通过模型来生产的。现在我们在项目上就已经开始交付合成数据数据集。

总结一下大模型和数据之间的关系,一个是在存量上,一个是在增量上。关于存量,我们关注到的核心技术是大模型to DB,它来解决如何跟上万张表的、高价值密度的企业数据库里的数据发生关系的问题;第二个是增量,他来解决如何持续的供给大模型,大模型的真正的算力出口在哪里,是提供一个服务还是提供一种新兴的生产资料,供给我们更多的数据资源,也就是合成数据的概念。