9月7日,2023 Cloud 100 China 榜单于上海中心正式发布,这是靖亚资本和崔牛会联合推出的第二届榜单,天云数据凭借数据库和AI基础平台及服务能力再度登榜。据悉,本届调整了 Top 100 公司的数据指标的权重因子,基于过去一年资本市场融资环境的起伏,降低估值权重因子(从 35% 降到 20%),相应地增加对企业运营指标的关注,更多地考察 Cloud 企业的业务增长能力和盈利能力,从而呈现出一份能代表2023年最优秀的中国 Cloud 企业的榜单。

数据库基础平台Hubble 逻辑计划融合Vector支撑大模型服务

从年初ChatGPT的火爆,到如今的百模大战,尽管热点还在大模型,但媒体和公众似乎不再像几个月前那般对大模型产品“上头”,注意力开始关注到底层技术。目前大模型主要基于的语料数据主要是非结构化数据,各种类型的文档、图片、音视频等训练出来多模态模型,对于训练模型本身,这些非结构化数据就需要预处理转化为向量数据。此外,向量化数据的存储,需要一个分布式向量数据库进行支撑,这是非结构化数据大模型场景工程化落地必然路径。

那么到底是做向量数据库还是在现有数据库中加上向量引擎?向量数据库厂商Zilliz在自己的官方账号中对向量数据库的2023做了8 个预测,第3点便是:向量数据库与传统数据库的进一步融合。当一家公司拥有强大的技术基础和需要先进的向量搜索功能的大量工作负载时,他们真正需要的是一款特化的向量数据库,所以行业媒体InfoQ发文:与其投资新的向量数据库项目,还不如关注现有数据库中哪些加上向量引擎可以变得更加强大。

事实上,很多数据库都可以直接添加索引模块来实现高效向量搜索。这个可以对标北美的向量数据库创业公司Chroma,底层使用是实时分析数据库 ClickHouse。“仅仅”是在著名实时分析数据库 ClickHouse 上封装了一层而已, Chroma便一跃成为新晋向量数据库。由此可见一斑,要想使现有数据库支持向量搜索功能并非很难实现,而大量现有数据库很有可能已经实现或在在不久的未来实现数据库的向量搜索功能。

天云数据AI原生数据库Hubble 有先发优势,向量化Retrieve是天云Hubble 数据库和Kaleido特征工程的一个组合,也就特征工程产品里的十几种的向量方法,比如高斯距离、最短近邻的算法,将这十几种的向量方法封装在Hubble数据库的解析层,实现数据库的向量化能力构建。

这也是Databricks用AI释放数据潜力的方法。因为Databricks历来都有自研的AI产品,具备技术能力发布大模型产品释放数据价值。

天云数据AI Infra基础平台 提供完整的生态服务

以大模型为例,当大模型回归理性,市场必然要经历一场大浪淘沙。关乎技术,更关乎商业模式。

行业已关注到:目前几乎所有的大模型预训练都基于Transformer架构,虽是“百模大战”,但各家大模型之间同质化严重,实质性的创新相对较少。同时,训练大模型所耗费的计算资源非常庞大,需要超级算力的支撑,很多公司没有过往的研究履历,发布的产品多是“套壳”或者接入其他研发机构的模型,投机现象泛滥。

当下的大模型竞争早已超过了技术的范畴,更多是一种生态层面的比拼,如果没有良好的可循环生态,那么无论在模型的持续迭代,抑或变现摊薄巨额研发成本方面,都会面临可预见的重大困境,对于创业型公司来说更是如此。

很多AI技术因为LLM变得炙手可热,但这些技术本身并不是新兴事物。国内起家的自研技术厂商天云数据,一直坚持数据供给与数据消费双轮驱动。大模型面向工程领域的落地,去除预训练模型的同质化,迁移学习和强化学习缺一不可。预训练模型依靠强大的数据工程完成,模型即数据,数据即模型。迁移学习和强化学习是AI Infra技术工程架构,依靠向量化数据库实现私域数据的工程落地。强化学习需要继承依赖有监督学习的模型训练流水线,天云数据作为MLops厂商有强大优势。 MaximAI-PaaS机器学习强化平台稳居全球资讯机构Forrester魔力象限图“认知层”第一象限公司,IDC技术图谱“递增型”、“变革型”产品提供商。此外,天云数据私域大模型Elips成为入围中国信通院白名单,入选2023可信AI案例;作为新产品荣获新2023全球数字经济大会“产业创新成果”。

越是面对如大模型落地这种复杂的问题,就越是要回归更本质的层面去思考,考验的不仅是技术力,更重要的还是要落实在“服务”二字上,更高效、更便捷、更人性化将会是未来可持续探索的重要方向。