近日,石油行业某集团某油田企业信息化技术服务中心发布《油田数据治理及数据湖建设项目》招标,项目内容包含集团油田板块的数据资源梳理及数据湖建设,数据服务体系完善提升等,五季数据科技(北京)有限公司(以下简称 “五季”)中标。

 

五季专注运用人工智能技术致力于服务石油行业,用AI解决业务问题,高效开发应用模型,助力石油企业提高效率降低成本,开拓新思路解决实际问题。

 

五季数据湖方案解决企业数字化转型的焦虑

 

企业现在普遍处于大数据的“焦虑期”:

 

一是数字化转型需求与数据管理现状的不匹配。例如高层对现场实时运行情况掌控不足,无法通过现有业务报表在关注的点去穿透,无法实时看到施工状态和特点,无法进行科学决策和快速决策。

 

二是大数据和跨专业应用需求越来越强烈、服务要求越来越紧迫。在油藏勘探开发、生产运行、综合研究等业务中,机器学习、图形识别、自然语言处理等新技术应用已试点摸索并逐步转向推广普及,而这些新技术无一不要求跨单位、跨专业的数据汇聚融合。例如从石油勘探研究层面而言,跨专业、跨部门、跨单位的多维度数据分析挖掘需求日益增长,但目前用户无法方便、低成本地收集和分析数据,比如一个区块的管理人员可能只能看本区块的数据,而通过对相似区块的、相似设备的、相似底层特征的、相似工艺特征的、相似状态的数据进行数据分析挖掘,可以获得更科学、更合理的理论研究成果。

 

三是企业数据资源总量和数据类型快速增长和当前数据处理能力的不匹配。例如油田企业除结构化数据外,还有实时数据、图形文档数据、音视频数据、GIS数据、专业格式体数据等多种类型数据;在数据量方面,近年来以设备实时数据、音视频数据以及图形文档数据的总量增长速度较快,而以人工为主的传统方式管理越来越难。

 

某集团油田企业日前发布的《油田数据治理及数据湖建设项目》招投标项目,也是意在打造了一个现代化、数字化的新型智能油田的数据基座

 

如何获取、处理和使用数据来创造效益,借助数据探索引领企业发展?如何“管理数据”和“使用数据”,实现业务自驱动?

 

五季认为:非数字原生企业的要进行数字化转型,必须实现“业务数据化”及“数据业务化”,这需要以规模化数据和智能技术为核心的知识加工的数据智能直接驱动业务。

 

一方面,随着更多企业数据将进入数据湖,来自传统系统的数据和传感器等新型数据资源不断汇聚,“数据格式与存储的孤岛”将持续被打破。
另一方面,随着大数据分析能力的不断提高,人工智能的重要性被逐步提升。当今最先进的机器学习和人工智能系统正在超越传统的基于规则的算法,创建出能够理解、学习、预测、适应,甚至可以自助操作的系统。智能技术除了直接服务于业务系统外,还可以用于数据处理的过程,协助管理数据和跨专业、跨单位的数据融合,打破“数据的专业类型孤岛”

数据湖开“湖”融“数”人工智能加速产业落地

 

Pentaho的CTO James Dixon在2011年提出了“数据湖”这个术语,核心定义为:把不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便链接,真正决绝数据集成问题。

 

数据湖的核心思想是全部采集、随处研究、灵活访问。

 

某能源企业以现在的物联网技术做过统计:2个足球场大小的油田平台上安装400余个智能摄像头、26000多个数据自动采集点,24小时实时获取生产数据,每秒钟可采集10万余条数据信息,每年将产生6TB的数据量。

 

如此大的数据体量,传统数据库无法横向水平扩展技术瓶颈难以突破的问题。通用的数据湖技术可以保存长期沉淀下来的海量数据,而且能从多个数据源获取原始数据,并且针对不同的业务,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。从而实现预警诊断、主动优化和辅助决策等智能化管理。

 

另一方面,在通用的数据湖技术基础上,对于非原生数字企业而言,跨专业的数据融合处理是大数据挖掘和AI技术应用落地的瓶颈。五季基于大数据治理平台及AI技术建立配套一系列工具,基于数据湖的形态,通过数据治理体系实现了数据的汇聚、融合,使得数据治理模式得以从“先治再用”向“边用边治、治用融合”转变,形成“业务驱动+数据驱动”的双轮驱动。创新性地通过复杂网络技术处理数据关系,通过工具自动从数据源抽取、解析元数据及其关系,以人机交互方式对所有入湖数据源进行关联分析和业务意义处理,实现多种类型数据的关系融合和数据融合,从而便于业务人员可以脱离IT技术掣肘、IT人员可以脱离业务知识掣肘进行数据组织和分析。数据入湖更加快速,分析更加智能,应用更加多样,服务更加开放;一次梳理(知识沉淀),永久应用。
Gartner将数据湖定义为“作为企业级数据管理平台进行营销,用于以原生格式分析不同的数据源”。

Pentaho 的首席技术官 James Dixon 认为之所以将其称为湖,是因为这种数据库可以在自然状态下存储大量数据,就像一片未经过滤或包装的水体。数据从多种来源流入湖中,然后以原始格式存储。

毫无疑问,数字经济时代,数据已成为企业的核心资产。数据湖(已经成为继数据库、数据仓库之后敏捷处理数据、提升数据洞察力的又一标志性的技术。