当前位置:技术分享 > 技术参考 > 正文

传统企业的数据分析能力金字塔解析2016-03-31 14:57:07 | 编辑:hely | 查看: | 评论:0

数据分析到底都包括些什么?从完成数据采集到做出数据产品,到底有多远的路程要走?

写在前面:

初衷源于两个故事:

故事一:一位在互联网行业做数据库架构多年的同事一起吃饭,问起我现在在说什么,我说自己在做医疗方面的数据分析,同事笑,说:你有很多资源啊,只要你能拿到电子病例的数据,就能分析很多东西了……我脸上的微笑表情瞬间僵化!

故事二:当时为内蒙一个企业做上游原材料供应商的数据管理项目,当时我们拿到的只是该企业小部分供应商的数据,下一阶段计划拿到其全国供应商的相关数据给该企业进行管理支持。有一天,我们的项目负责人很兴奋,高兴地对我说:后面我们拿到所有供应商的数据后,我们做的就是“真正的大数据”了,你要考虑一下后面的大数据分析如何做啊……我脸上的微笑再一次僵化!

大家觉得以上两个故事如何?我当时内心是有一万头羊驼奔腾而过的~~

写这篇文章的目的很简单,就是希望向不了解数据分析体系建设的朋友们解释一下:数据分析到底都包括些什么?从完成数据采集到做出数据产品,到底有多远的路程要走?我在工作的过程中碰到过很多企业老板、客户以及我的领导,他们对数据分析的理解之浅薄,让我觉得难以置信。和他们交流之后的感触,促使我写了这篇文章。

正文

1.数据分析本身是一个过程

数据分析是企业的一种能力;数据分析本身是一个过程;数据分析的本质是一种思想。

数据分析是一个过程——企业利用这一过程将数据中的信息提取出来,进行处理、识别、加工、呈现,最后成为指导企业经营管理的知识和智慧。因而,企业利用这一过程的成熟程度,决定了企业使用数据的有效程度。

影响这一过程的因素有四个:

1、技术和方法:我们的信息采集技术、数据库架构、数据处理技术、算法、可视化等都会在很大程度上对这一过程产生根本性的限制或改变,这就是为什么分布式存储、运算等技术成熟后,大数据这一概念被热捧的一个原因;

2、数据的应用:更准确的说数据应用在一个企业、一个行业甚至全社会中被理解的程度有多深、使用范围有多广,决定了你的数据影响力能够达到的程度;

3、商务模式:这是一个当数据能力在市场中体现时才会发挥作用的因素,好的商务模式可以为行业内、跨行业的数据应用、数据产品提供好的商业环境,帮助其成长;而坏的商务模式也可能毁掉一个好的数据产品;

4、制度和规则:制度和规则既有国家层面的,例如数据安全保障方面的法规;也有行规、企业内部制度等。这些制度和规则保障了数据能够被人们用在需要且正确的地方,而不是被滥用(某种程度上,制度和规则的缺失也是造成数据安全问题、行业数据标准混乱的主要原因)。

 

 

在我看来,从拿到数据到将数据中的知识提炼成人类的智慧,这是一个很长的过程,有可能一年甚至几年(但是很多人把这个过程想得太短了)。

首先,想要分析数据你要获取数据。获取数据这个过程如果是线上还相对容易,如果是线下就非常复杂,这也是为什么现在实体行业推进“互联网+”如此缓慢的一个原因。

其次,得到数据之后,如何整理才能让数据变成信息,也是个“技术活”。这里涉及到数据的清洗、整理、关联等等问题,最麻烦的还不是做这些工作,而是随着我们对数据认识的加深,这些工作总是不定时地就要返工修缮一遍——这也是没有办法的事情!

再次,数据整理得到的信息是海量的,需要经过加工、提取、抽象等操作,提炼成为各项知识被人脑理解、吸收,这个过程就涉及到各种分析方法的使用,而且这也是个随着对业务认识的加深而逐渐复杂的过程,金融领域的风控模型、宏观经济领域的福利模型等等,都是发展多年并逐步演进的例子。

最后,人们在各个业务领域通过数据得到知识,在很多情况下可以重复应用在不同的领域,并与其他领域的知识相融合,形成新的生产生活方式。每个领域的知识内容如何相互融合,也是一个需要长期实践和探索的过程,“产品”这一概念从诞生到现在的发展过程,就是一个很好的例子。

我把上述过程做了一个简单的比喻帮助大家理解:

采集到的原始数据就像是一个一个的沙砾,在没有任何整合的情况下都是“一堆一堆的”;
数据处理的过程就是把沙堆中的杂质去掉,把每种颜色的沙砾区分开,再通过不同的工艺使其成为不同的砖块;
每个砖块在建造数据大厦的过程中都有不同的用处,我们会按照图纸(就是数据分析体系)将不同的砖块用在适当的建筑位置上;
数据大厦构建完成后,每个房间里面要完成的工作都各不相同,到底如何运用,就要看大厦使用者的安排了。

那么,我们就来看看企业到底要做些什么,才能完成从数据采集到智慧积累的这一过程。

2.企业的数据能力层级

个人认为,企业的数据分析能力层级大概可以分为七级(这里列出七个能力层级是强调底层基础数据采集的意思):基础IT系统的搭建、数据集中与标准化处理、数据报表及可视化的实现、日常产品和运营分析、精细化运营管理的实现、数据产品的输出和变现、数据战略的形成。

个人水平有限,最后的数据战略从没接触过,所以这里不做阐述。

 

 

可能有同行会对这个金字塔的层级不认同,而且大部分专家也认为这几个部分是平级关系,不存在高低关系……我这里这样列出来只是为了说明“要做到每个层级的水平,该层级以下的内容都是支撑这些层级的必要条件”而已,实际中的确是存在诸如“数据产品已经完成上线,但是数据可视化还停留在需要人工完成报表的阶段”这样的情况。(在互联网行业中,往往数据产品是最先出现的,而后才产生数据采集及后续内容,因为有了产品之后才会有业务流程;但是在实体行业中,线下业务流程是已有的,不需要等数据产品产生后才有业务流程,所以二者的数据分析构建过程完全不同。我这里对互联网产品领域不做考虑。)

下面我们就来详细说说每个层级的具体内容。

2.1.基础IT系统

最底层的“基础IT系统”是一切数据分析的基础,因为它最重要的作用就是完成“数据采集”。

“基础IT系统”,这里主要指的就是我们各个企业在实际生产中使用的软件系统及其配套的硬件设备,如:网络世界中的一串串抓取代码,真实世界中的诸如医院里的医学影像设备和其他传感器、探测器,财务使用的财务管理软件等等,这些系统解决了我们口中的“数据采集”问题,正是因为有了这些基础的IT系统(包括软件和硬件),我们才能将生活中的所有一切数字化、可度量。

 

 

解决了最基本的“数据采集”问题之后,是不是意味这我们就有数据了呢?NO!从数据采集系统中拿到的信息有这样几个特点:割裂的、碎片化的、无序的,它们必须经过处理之后才能用于使用,因而我们需要进入到下一个阶段“数据集中与标准化”。

上一篇:大数据分析平台(mmTrix)构建实录 机器学习——海量数据挖掘解决方案下一篇:

公众平台

搜索"raincent"或扫描下面的二维码