当前位置:首页 > 新闻资讯 > 正文

隐私不是问题,不开放才是大数据最大的问题2014-11-06 15:05:20 | 编辑:hely | 查看: | 评论:0

其实做大数据也好,数据挖掘也好,最核心的是对潜在用户的理解,这个都是依靠数据整合的。
一个伟大的时代,伟大的技术就能够有伟大的市场,大数据就是目前时代中伟大的技术,那么它就必定会有伟大的市场吗?本文将讲述大数据的理想和现实的差距?10年前中国移动讲理想,然后移动业务就走下坡路了,然后三年前新浪讲理想,后来微信就把微博的风头抢走了了,所以今天不讲理想了,讲讲现实。


\

不过现实还是要从理想说起,【理想】经常都会和一些时髦的东西沾边,就像10年前无线热的时候,我就在做无线。【其实我们所说的大数据,就是公众数据分析,拥有最大的公众行为数据的公司就是中国移动】。我发现问题都是一样的,历史就是不断的重演,当时中国移动碰到的问题跟今天我们做大数据碰到的问题一模一样,因为能够对用户的行为做很细跟踪和分析了,以前做不到的现在能做到了,那么我们就有了一个理想,就是我们对一个用户的理解比用户自己都深入,他自己都不知道他的需求是什么,我们能告诉他有这样的需求,让他恍然大悟,我果然想要这个。

移动当时就是这样的梦想,但是很快大家知道这个梦想不真实。不是因为技术做不到,而是因为这些数据根本没有整合。我给大家举个例子,大家学市场【营销】或者说企业经营的时候一定会读故过一本书,叫《引爆流行》,我们现在做市场不是靠过去的八十二十法则了,不是20%的人贡献80%的收益,现在是社会化时代,我们人群当中有高影响力人群,这些人只占整个人群的1%,但如果能让这1%的人说你的好话,剩下的99%都会跟随,都会来买你的东西。

但是怎么找到这个1%?《引爆流行》书里面没讲,但我们研究了。我们当时跟移动谈,我们一起来设计一个方案,首先我们研究有没有这1%。我们设立了一个很有趣的指标,我们都知道虽然未来很多电话可能是跟机器人通话,但今天打电话还基本是跟真人的通话。所以我们当时就取了一个数据来研究:即每个人每个月和多少个不同的电话号码通话,什么意思呢,一个号码后面是一个人,通过号码就可以了解一个人每个月跟多少人有实际的接触。

移动从来没有去计算这个数,世界最顶尖的咨询公司、营销公司、IT公司也好等等都没有这个参数。我们拿了一批移动的全球通用户数据做研究,结果我们发现,绝大多数手机用户没有想象的这么活跃, 50%的左右的用户每月只跟少于20个号码接触,说明他每月通过电话接触的少于20人;80%左右的用户每月和少于50个手机号码沟通,这还算符合80/20定律。但是很有趣的现象出现了,就是确实有这个1%存在,有少于1%的人每月和多于150个电话号码通话,意思就是说我们当中确实存在一些高影响力的人,他们不停的接触别人、联系别人。

你再深入的想一下,就会发现这些人是宝贝,这些人如果你抓到了,你就做好营销了。他是影响力高端,他说好,剩下的99%都会说好。(当然天天往外打电话推销的人肯定是除外的,从技术上通过分析打入和打出的差异也很好识别)

既然确实有这些人存在,如果能利用好这些人的话,假如中移动把这些人哄的开心了,他们天天说中国移动好,移动每年给中央电视台多少亿的广告费都可以省了。进而,还可以再从这1%里面挑出他联系的150个人每个人都和150以上的人有联系的,也就是高端中的高端,这样的人你抓住一个,第一轮他就能够影响150人,第二轮这150个人再影响150个,可见影响力有多么巨大。

但这个只是我们当初的设想,因为当时我是用了很多关系来挖数据、做分析的,真到中国移动去实施这个系统的时候,遭到了他们中移动后台运营者的抵制,说我不可能为了你的一个应用而改变我的整个数据结构。

其实做大数据也好,数据挖掘也好,最核心的是对潜在用户的理解,这个都是依靠数据整合的。过去我们就是看这个用户到底想说什么,做什么,你对这个用户的理解。我们当初提了一个方案,建议说我们应该去收集异地开关机的数据,如果你在本地关机了,过一阵再打开如果是异地这个就叫异地开关机,如果你现在在杭州关机,然后你在北京开了机,这个数据我就要收集了,为什么?很显然你不可能像哈利波特一样一下子就飞过去了,你肯定是用某种交通工具过去的,而去我可以知道你在什么时间用什么工具过去的。

当然问题还是在于中国移动的体制问题,后台部门会说,我为什么因为你前台部门想出成绩而来改变我这个部门的设计结构呢。其实在类似事情也同样存在于其它公司,我们当时在产业里面做演讲比较多,多年以后我在一个互联网公司内部做讲座,又讲到这个事,结果下来以后他们公司的一个员工跟我谈,他说我们当初试过了,我们发现我们公司里有这个数据,就做了一个提案报上去,想用这个数据做差旅项目,结果被另一个部门否定了,这个部门说什么呢,他说涉及到个人隐私和信息安全了。

个人隐私这个问题看似严重,但往往拥有大数据的都是大公司,大公司对数据的态度很有趣,没人在乎的时候他们也不在乎,但大数据热了,他们不知道能拿大数据做什么,却知道把着自己的数据不放,不和别人共享。比如说新浪微博没热的时候,利用新浪数据做分析、做业务还比较方便,一热了以后,他们自己也意识到了这个数据是好的,不能让人家用,所以现在大家都知道在新浪上爬数据越来越难。

为什么,你天天喊大数据重要,现在所有的公司的老总都被灌输了数据重要,而且我自己是一个大平台,我的数据自己用,如果我不给别人你是拿不走的,这样变成什么情况?就跟当初中国移动一模一样。这个是我们家的自留地,如果这个数据大家都帮着开放,很多应用就出来了,但是如果我不交给你们,我虽然搞不出来,但是你也肯定搞不出来。

所以大数据一点都不开放,公众还天天担心隐私问题,他都不开放你还担心什么隐私啊,所以我不认为数据隐私是最大的问题,我觉得不开放才是最大的问题

另外还有我们的防骚扰的力度不大,目前发现精准营销远不如骚扰营销来的有效而且更低成本。如果你是做公司短信批量购买的话,一条短信成本3分钱,意味如果覆盖100个人,我的成本才3块钱,但是我要精准营销打动这1个人,这100人里假设有一个目标,我要精准营销打中他,3块钱绝对不止。那我这样还不如全都覆盖得了,因为打动这个一个人得罪了另外99个人,那就是反正那个99个不是我的客户,而且又不很多。这样的话谁还会去做精准营销,所以我有很多做精准营销很棒的企业、研究人员,但是活得很艰难,为什么呢,因为没有需求。所以不要以为说数据整合理解就好了,我们为客户提供服务就好了,现实不是这样的。

我们天天讲大数据的思维,甚至上升到思想的高度。在这里我想提”海妖服务器”,我们老说互联网好,但是不好的地方是什么,就是人人知道大数据很强、很重要、很有用,所以人人都做,但是做到最后就变成一个像核武器的竞赛,这个大数据是不是对用户有好处可能就慢慢的觉得不重要了。

有一个很著名的笑话,在森林里面两个人碰到了一个熊,一个人拼命的跑,另一个蹲下来系鞋带。那个人就问你跑得比熊还快吗,这个系鞋带人就说我的目的是超过你。所以你发现没有,现在最热的高频交易导致很多在整个市场上没有任何负面的消息情况下,股市会出现大幅度波动,他们会大量的抛售或者买进,为什么?因为他们盯的目标并不是市场,而是盯着别人的服务器,你的服务器如果有波动,他就把这个波动加倍了再还回来,所以你看市场的波动其实跟市场本身没有关系,你发现是这两个人在互相比赛,至于熊在哪儿根本不重要。

所以这种情况下,会造成一个CEO对大数据产生非常复杂的心情,就是我不得不上,因为我不上了别人上了我就会处于劣势,但是上的也不见得有优势,甚至是没有优势,而且大数据的成本是很高的,变成了一个很大的负担。至于说有多少人真正利用好大数据做了更加理性的决策,坦白讲真的没看到多少。

包括我们自己,我原来做研究出身的,市场分析,当时我们做市场咨询的时候,最恨的就是客户对我们不理解,你看这个市场决策者对市场这么不了解,我给你提供了这么多复杂的信息,你千万不能在没看清这个市场的情况下做决策,那样简直太不负责了;可是现在这几年我转行做投资,当我做了投资之后我也经常对市场数据不屑一顾。

最近我们想投一个美国非常棒的能源企业,很多数据证明他的经营情况不是很好,但是我不是很相信,因为我们都知道大数据在整个趋势出现拐点的时候,是没有办法去预测未来的,而所有的企业如果是匀速增长的话,一定长不太大,就像阿里一样,回顾这十几年艰苦创业过程一定不是每年晋升30%,一定在某个时间点实现了爆发性增长,而这个时点是没有办法预测到的。

那我根据什么预测,其实很简单,这个CEO是个连续创业者,他前面创了两个公司,但是他还愿意创第三个公司,说明他觉得这个业务机会非常棒,另外一个创始人是MIT的教授,他把教授辞了,到这个公司做CTO,说明他对自己的技术非常的有信心,要不然就可以直接挂个首席科学家,不需要跳槽做CTO的。所以基于这两个人这样的背景,他们决定要联手做一个事情,肯定能做好的。因为今天财务很差,明天可能就到了拐点。所以你会看到说我们在现实生活中如果我们只是根据一些数据做决策的话,你永远是个参谋。

再说一个很著名的笑话,有一个在岁数大了准备谈恋爱了,准备选女朋友了,因为身价巨富所以有权力去挑选别人,然后若干个女孩来应征,有一个女孩特别会照顾家,有一个女孩特别会做饭,有一个女孩特别会理财,他做了综合评价了以后选了胸最大的一个,所以大家发现了没有,其实我们做半天大数据分析,综合评价了以后,决策者还是用自己的规律做的决定。

回到大数据上来,移动业务走下坡路以后,社交网络热起来了,这个理想就更高大上了,因为移动的业务还只是对个人进行持续的数据跟踪、分析、积累来确定这个人到底是什么特征,有什么需求。社会化就不一样了,可以从A了解B的需求,我们基于新浪数据做了很多的实验,一些初步实验也验证了,就是你的一度强关系对你的影响能够达到50%,因此可以把你的某些特性50%赋予到你的一度强关系身上,比如说你喜欢某种音乐,你的一度强关系有50%的可能性喜欢这种音乐。

50%影响力的规律能够在社交网络里做大范围的应用,可以弥补传统的个人数据跟踪分析的样本不够的问题。因为在传统分析里,一个人没有某种行为就没法分析他的特征和喜好,而利用影响力法则,知道这个人的一度强关系的行为或特征,就可以给这个人打上50%可能性的标签了。

为了更深入地研究社交网络,我们还在网络上做了很多社会实验,当然我们只能做小范围的事情,一到大范围,没有新浪的支持,数据和实验需要的支持就都跟不上了。社会网络上的行为本质上还是真实社会行为的反应,所以我们还对社会做跟踪分析,希望把社会行为放到社交网络里来研究。

其中有一个角度就是从线上数据分析个人行为,看是否能够体现线下看到的行为规律,每个人都是有身份地位的,而社会地位可以换来某种利益,根据传统的行为学研究,性别不同,社会地位换取的利益是不同的,对于一个女性而言,如果她的社会地位较高,利益就是她会认识更多的同样社会地位比较高的人,往往是岁数比较大的男性,但是对于男性来说不是这样的,一个社会地位高的男性,其利益不是认识更多的社会地位也高的女性,而是更多漂亮、年轻的女性。当然,我们只是做了小范围的验证,还没有办法做大范围、全网的验证。

另外,传统社会学研究发现,如果一个人更友善、更乐于助人,那么这个人在社交圈子里面容易处于中心地位,因为他会有更多的连接;如果一个人容易对别人产生敌对情绪,就会因为冲突多而丢掉很多现有连接,从而处于社交网络的边缘。

我们想在社交网络上验证这个理论,首先要确定网络上一个人到底是更友善还是更敌对,因为你直接观测是测不到的,所以我们用了一个办法去替换,就是分析他的微博里面的话的褒义词跟贬义词分别是多少,根据国外的分析,在英文字典里面褒义词和贬义词的比例大约是1:2,字典收录的褒义词少贬义词多。我们都知道语言是用来对别人的,贬义词更多,可见我们多数时间是批评别人更多。但是字典是死的,每个人发的微博却是活的。我们确实发现微博里面连接越多的人,他的褒义词使用的比例就越高,我不知道因果关系,但我们知道是有相关性的,就是你的社会地位高低和你说话的友善与否是有相关性的。

我们当时还想要再继续做研究,又提出问题:假设一个人他在网络当中没有处于核心结点,在边缘结点的时候,他就经常说褒义词,经过一段时间,他能否慢慢的变成核心结点?假如不管一个小结点说了褒义词还是贬义词,他未来都不能变成核心结点没有相关性,就说明不是因为你更友善所以进入到了核心结点,而是因为你在核心结点,所以你说话被迫友善。可惜缺少新浪的支持,没法在全网铺开做这个实验。

所以说在理想面前现实还是很残酷的,所以我们认为现实还是拥有海量数据还是不容易的。我们看到很多的数据科学家跳槽到公司里面,比如说前一阵比较出名的事件,著名的社交网络研究学者、密执根大学的Lada Adamic就跳到了Facebook。你要继续去做研究一定要有数据,数据在哪里,数据在公司里面,但是数据又不对外公开怎么办,科学家只好加入公司里去研究了。现在看来,阿里还是不错的,既有很好的跟科学家的合作,又给科学家自由。

还有一个很著名的例子,《奇点临近》的作者,著名的人工智能专家Ray Kurzwell,他也知道未来人工智能需要海量的数据来支持才能有突破,但是他跟谷歌谈合作研发,谷歌的创始人非常的支持,但是坚持谷歌数据不可以对外,劝他加入谷歌。他加入谷歌后只得到了一个Director的头衔,翻译过来才是总监,其实他是非常有名的科学家和成功的企业家,为了得到谷歌的数据完全不在乎头衔。我一度看了非常的好笑,因为这是拿数据做要挟的结果。

《大数据时代》说简单的数据比复杂的算法对我们有用的多,我很认同。很多时候我们过度强调算法了,但是算法远没有比我们想的重要,因为多数人没有办法进入拥有数据的公司,所以没有办法解读,而公司拥有这些人不放心让你解读,我宁留着所以没有办法。

我们都知道开普勒发现行星的运行规律之前,是丹麦天文学家第谷把所有的行星运行数据收集了起来,开普勒只是基于这些数据做了一个解读,就此产生了我们对宇宙的第一次清晰的基于现代物理学的研究。

大数据我们知道原来只能做观测,现在已经进化了到了实验阶段,最著名的就是社交网络上的实验,比如Dancon Wattz做的给音乐网站里的音乐做排名的“平行世界”实验。但是我后来回头想好像不对,后来我看了一下历史,原来开普勒拿到第谷的数据也是偷来的,我觉得历史又在重演了,所以今天你要说科学家要得到开普勒那样的成绩,你还得从像第谷这样的方法把数据偷来,如果拿不来数据怎么研究。

当然还有人说我们有数据可以研究,比如说我们拜访了另外一个人叫彭特兰教授,我看他写的书《社会物理学》,我就感觉回到了20年前上大学的时候,上大学的时候我们大四学细胞生物学,是一个非常复杂的科学,有无数的实验,但是你发现什么问题呢,基本上一堆事实的罗列而对整体的

规律列不出来。

所以你会发现我们可以做很多这样的实验,我们在这个学校里做这个实验是这样的,但是在另外一个学校做这个实验是不是这样的呢就不知道,很多结果是冲突的,大一统的系统理论还很远。

最后给大家留点希望,毕竟我们还要往前走。第一,为什么往前走,因为大数据一定是未来。大数据我们不得不做,它不是一个充分条件,但是一个必要条件,没有大数据不行,但是有了大数据也不必然成功。怎么办呢,还是要继续做啊。

第二,怎么走,我更寄希望于新兴的企业可以重新整合数据,把大数据整合到自己的整个运营系统当中去,从而获取更新的优势,尤其是有了移动应用等等,在数据获取上独立于以前这些更封闭的数据平台,这样会更现实。我们相信现有的数据平台包括腾讯、阿里,他们的大数据是很难开放的,与其等他们开放,不如干脆另起炉灶重新获取大数据,然后再重新分析,更容易成功。

第三,大数据的核心一定是对用户行为的深度掌握,大数据预测专家、《信号与噪声》的作者nate Silver认为大数据出来以后不是要替代这些真正理解用户的专家,而是把专家的知识升华,用大数据验证专家到底是对的还是错的,到底可以不可以把专家的经验复制到系统里面去,所以专家反而更被需要,他们和我们做数据的人是互补的,如果我们做数据的人不懂市场、不懂用户,被淘汰的一定是我们。

最后,对于做数据的人,第一不要看轻自己,未来你是企业成功的必要条件;第二个也别高看自己,光有我们不行,我们要把自己整合到整个生态环境当中去,这样才能够大家都共同发展,谢谢。

上一篇:御膳房:阿里巴巴构建大数据的美食厨房 ​大数据时代——技术人才的黄金时代下一篇:

公众平台

搜索"raincent"或扫描下面的二维码