61

8月31日,天云融创数据科技(北京)有限公司的数据应用专家马敬涛在“数据猿”进行了公开课讲座,课程内容讲述了关于复杂网络的概念、关键技术及应用价值。
复杂网络科学是研究复杂系统的一门学科,也是科学领域未来发展的一个重要方向,它通过将客观复杂系统抽象成为网络,以矩阵或邻接表的结构形态进行数据表达,利用相关算法和技术对网络数据进行分析,从而挖掘出事物或现象在网络中的潜在特征并预测其变化规律。马敬涛从概念理论、关键技术和应用价值三个方面介绍了复杂网络。

62

课程开始先从还原论(或称还原主义)的介绍入手,内容主要讲的是还原论是一种哲学思想,作为一种经典研究思路统治科学界已发展很久。基于还原论的思想,人们认为复杂的系统、事物以及现象可以化解为各个部分并分别加以理解和描述,换句话来讲,我们现实世界中,每一种现象或事物都可以看成是更低级、更基本的集合体或组成物,人们通过研究简单的组成来理解复杂的个体。但是当人们完全了解事物的各个组成部分之后,发现对于自然界整体的理解仍停留在过去的水平,因为,自然界是个复杂系统,并不是一个设计良好、只有唯一答案的谜题。必须要承认当人们对自然界拆解之后再重新组装起来就不是自然事物本身的样子了,因此可以说还原论对于科学的发展来说是有一定局限性的,并在课程中引入了“蜂群智慧”和“癌症基因”这两个例子加以论证。还原论的局限性主要原因就在于“没有什么事情是孤立发生的”这一客观规律,大多数事件和现象都与复杂宇宙之谜的其他组成部分或相互关联、或互为因果、或相互作用。我们生活的世界里,万事万物都是相互关联的。科学界已经发现了复杂性背后的严格架构,我们见证一个正在酝酿的变革,网络将以前所未有的程度主宰这个新世纪。

对复杂网络的研究将会对科学的发展起到非常大的作用。著名的科学家钱学森,给了复杂网络一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。复杂网络会呈现出结构复杂、网络进化、连接多样性、动力学复杂性、多重复杂性融合、节点多样性,并适用于众多领域,例如社会关系网、通讯网、经济贸易网、企业关联关系网等。

通过复杂网络的分析能够帮助人们从新的视角来理解客观事物,因为,客观事物比我们想象的要更复杂,个体与个体之间会有差别,通过一些简单的描述,很难去理解事物的本质,通过对事物个体的关系属性加以分析,能够帮助我们在一个更深层次的角度去理解和分析事物及现象。

63

接下来,马敬涛从复杂网络关键技术的角度谈到了应用复杂网络的两项关键技术点,一项关键技术点是在数据结构方面;另一项关键技术点是在处理技术上,即大数据技术。在数据结构方面,他主张采用邻接矩阵以及连接表的结构形态来表达和存储网络数据,数据结构在做网络分析和计算方面能够比使用传统的关系型数据库性能高出数十倍之多。

64

在数据处理技术方面,由于我们身处信息高度发达的时代,捕获并分析客观世界的网络节点以及关系的数量都非常庞大,使用传统的技术,已无法支撑如此庞大的数据量的分析,大数据分布式技术的诞生为复杂网络应用分析的发展带来了契机,为了能够有效的基于分布式技术,课程内容介绍了网络数据的三种分区方式,包括按点切分、边切分和随机分布。通过这三种分区方式,能够达到集群各服务器处理的负载均衡,从而很大程度提升复杂网络的分析处理性能。

65

在第三部分,马敬涛谈到了复杂网络的应用价值,第一项应用价值是社团发现类的分析,根据“物以类聚、人以群分”的原则,在庞大的复杂网络中,会出现多节点关系稠密的编织在一起,会形成社群子网,社群子网的节点相似性会极高。通过复杂网络的社团分析可以帮助我们分析并找出这些社群子网,利用社群子网的节点之间的相似性发现潜在价值节点,通过此分析方法可用于营销业务的潜在客户挖掘、以及风控方面关联风险群的分析等场景。

使用复杂网络技术可以帮助我们找到网络的中心性和重要性非常高的节点,通过使用网络的中心性算法分析,例如,在微博传播网络中发现“意见领袖”,在实际的业务场景中可以帮助分析人员在供应链中发现核心企业,传播网络中的枢纽节点识别以及搜索引擎中网页重要程度的排名等应用。

复杂网络技术还可以应用于网络传播分析,根据节点之间关系的属性类别及属性值,进行数值量化,并抽像建立影响传播网络,通过传播分析计算,实现对未来现象的发展进行模拟预测。在实际的应用场景中,可以应用于流行性传染疾病、舆论的传播、金融风险传播分析等场景。复杂网络根据事物的关联特性还可以用于网络关系的穿透识别,查找节点背后的相关性。还可以通过闭环的查找实现识别金融领域的担保圈现象等场景应用。

66

最后,马敬涛谈到,为了便于用户对复杂网络的分析使用,以及开发相关的应用系统,同时还能满足在海量数据下提供高性能的支撑,天云大数据公司基于Hadoop大数据技术研发了复杂网络平台,简称BDCN(全称Beagle Data Complex NetworkPlatform)。BDCN是一套完整支持海量“网络拓扑结构数据”存储和管理的集群平台系统,底层采用分布式存储和处理技术,可以根据增加的数据集大小和用户访问量弹性扩展,支持国际主流语言的开发接口和丰富的字符集、事务处理以及对数据在线实时操作,该平台运行在X86架构的Linux服务器上。

67