信息内容
  当前位置: 首页 >> 信息内容 >>
大数据时代正聚集改变的能量
2014-01-14 | 来源:福州市电子商务商会

  大数据时代需要重视统计学

  我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。

  为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。

  所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。

  “大数据”何以成为热门词汇?

  为什么突然之间,大数据变成了一个最热门的词汇?

  首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。

  其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。

  所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。

  大数据时代的三个规律

  规律一:知其然而不必知其所以然外行打败内行

  我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大概是什么庄园的,什么年份的。但是,当品酒师在品新酒时,因为葡萄酒真正的品质还没有形成,所以这个时候,他的鉴定是永远靠不住的。另外,当一个品酒师的声誉越来越高时,由于要照顾到自己声誉,他不敢做大胆的判断。普林斯顿大学有一个经济学家也很喜欢收藏葡萄酒,他就想能不能自己预测出这一年这个地方的葡萄酒的品质如何?然后他就开始去找来很多数据,最后得到了一个秘诀。葡萄酒的品质跟跟冬天的降雨量、生长期的平均气温、收获季节的降雨量、土壤的成分等等这些因素有关。1989年,葡萄酒刚刚下来,他说今年的葡萄酒是世纪佳酿,1990年他又做出预测,说今年的葡萄酒比1989年的更好。连续两年说是世纪佳酿,一般的品酒师都不敢这么评,但是最后事实证明他说的完全正确。

  第二个案例,怎么寻找潜在的棒球球星?著名的财经作家麦克刘易斯写的书《Moneyball》,后来拍成电影叫《点球成金》,讲到一个球队教练遇到了一个经济学家,他们用很另类的办法,实际上就是用数据,把每一个选手的场上记录拿过来,用数据去找,看谁是好的球星,这跟传统的行规完全不一样,但是后来非常成功。

  我们原来讲,要知其然,还要知其所以然。但是现在大数据时代,你可以知其然,不一定非要知其所以然。如果你去问普林斯顿大学的教授,为什么这个酒好?到底是什么香味?酒回甘是什么?他也不知道。但是他能够知其然,他能够做出来判断。为什么呢,很可能是我们原来的认知里头,我们执意去要寻找一些线性的、双边的直接因果关系。但是很可能万物之间的联系比我们想象中的要复杂,他可能是非线性的,可能是多元的。所以出问题的不是数据,出问题的是我们原来的认知模式。怎么办?一个办法,退而求其次,你可能要先去寻找相关关系,然后再去找是否有因果关系。

  规律二:彻底的价格歧视商家比你更了解你自己

  有一个机构,专门做信用卡的刷卡记录。他们攒了大量的数据之后,拿这些数据做分析,最后找到很多很奇怪的规律。比如,你是否离婚与你信用卡上的还款记录和你驾驶车辆出车祸的概率有关系。比如在大数据时代大家可能会听到的一个比较有名的例子,就是沃尔马最早的时候发现很多奇怪的规律,比如尿布和啤酒的销售量是有相关关系的。这俩东西怎么会联在一起?市场调查人员最后发现,往往当有新生的小孩之后,买尿布的任务就给新爸爸。尽管新生的宝贝的出来他的贡献也没有多少,但是他有一种自豪感,他去买了尿布时,为了庆祝,他会顺手去买啤酒。如果你在尿布的旁边就直接摆上啤酒,啤酒的销量就会提高。还有一个店,专门卖母婴用品的部门搜集顾客的信息去研究。比如说研究什么时候你可能会怀孕,你可能会买更多的母婴用品,而营养品会增加,或者一些没有香味的洗发剂,最后就可以预测潜在的客户到底是谁。

  所以大数据时代,动摇了我们原来的方法论。

  有一个赌场,进去之后会刷卡,而你的基本信息全都在这个磁卡上面。包括国籍、性别、年龄等等全就掌握。他有一个庞大的数据库,可以算出每个人的痛苦点,即如果输钱超过了这个痛苦点,从此之后再也不来这个赌场。而赌场最好的办法是在你快要达到痛苦点之前叫你住手。所以当你快要到达那个痛苦点的时候,你的旁边就会突然出现一个年轻貌美的公关经理,说先生玩得很累了吧,要不要休息一下,我们这个赌场刚请了一个法国大厨会做非常好的法国大餐,你很幸运,你被选我们的幸运顾客,请你和太太一起去享用免费的法国大餐!很好,但你不要忘了,当你享受到你觉得物超所值的服务时,往往就是你的最后一分钱被别人榨完了!包括信用卡调整额度,很可能也是在大数据的基础之上自动调整额度。

  那这个带来了一个变化。原来经济学讲到,商家不能搞价格歧视,不是因为道义上不能,而是由于在过去商家很难对不同的顾客,进行价格歧视,你必须要定统一的价格。但这是过去的规律,在大数据的时代,这个规律被彻底颠覆。在大数据的时代,商家可以精准的针对每一个个体的消费者定价,把你最后的一分钱全部榨干,因为他比你自己更了解你的行为。你都不知道你的车可能要去保养了,他就已经给你发消息;你自己都不知道,身体已经处于亚健康状态需要去旅游放松,旅行社马上就会给你打电话。你说它怎么会这么了解我的心,大数据在帮他的忙。会用大数据的商家都是偷心者,都会把你的心偷走,他可以精准的定价。

  规律三:打破专家的信息优势病人给医生解惑

  那我们接着再讲一个案例,电视连续剧《豪斯医生》的医学顾问是纽约时报的一个专栏作家。他是倡导寻证医学的一个代表人物。寻证医学就是根据证据来治病。过去看病时,要先研究病理学,然后再研究治疗办法,而且有很多是一代一代口传下来的。老师告诉,维生素B12口服的效果不好,必须打针。为什么?不知道,反正是老师的老师就这么告诉老师的。所以你的老师也这么告诉你,你就这么再告诉你的学生。但是后来发现,这里头有很多问题。

  为什么现在医患之间的纠纷这么多?实际上医院的误诊比例非常高。美国有一份研究称美国医院误诊比例大概是1/3,有20%的重大疾病的死亡原因是由于误诊。为什么?因为过去完全靠经验,有很多都是主观的。到现在来说,医学不是科学,医学研究的是复杂的生命体,所以它还没有到能够精准治病的程度。后来,大夫开始另辟蹊径,他通过数据最后找出规律。19世纪一个医生发现,如果医生先去了停尸房再回来给妇女接生,产妇的死亡率明显提高,而洗手之后死亡率下降,那个时候还不知道细菌和病菌。所以当时每一个医生都要洗手。没有哪个病理学能够告诉你洗手跟降低死亡率有关系,但是后来死亡率就大幅度下降。所以这就是寻证依据的思路,减少医生的自主权利,也有道理。就如坐飞机时,飞行员能不能想停就停、想起飞就起飞?不行。飞行员其实没有多少自主权,需要严格的按照操作程序一步一步去做。当这些所谓的专业人士的自主权被剥夺之后,你就会发现越来越安全。

  所以按照大数据,医生最后发现他自己被边缘化了。因为有了互联网,有了大数据之后,病人有时候比医生还要精。美国有一个报道,有一个病人被推到病房里头,他有多种免疫功能紊乱,一群大夫会诊,最后都不知道到底这个病是什么。最后,主治医生问这个病人,你觉得这个病大概是什么。病人说我知道,我这个病就是IPEX。你怎么知道的,他说很简单,我把症状在谷歌里一搜,马上就诊断出来了。

  原来医生能够治病,是因为他的专业比你强,他信息比你多,而现在你的信息跟他一样多。你可以拿着谷歌上打印出来的资料跟他说,“你的诊断错了,按照我在谷歌上,我应该是这个病,不是你那个病”,完全颠覆了原来信息不对称的情况,所以大数据时代的第三个规律就是打败、打破了专家的信息优势。为什么我要一开始就跟大家讲不要信专家,因为在大数据的时代没有专家。

  大数据的时代,专家可能反而会误事。比如谷歌有一个机器翻译,一开始可能翻译的很差,但是慢慢发现他的翻译水平越来越好。为什么?谷歌机器团队里头总结出来一个经验,说凡事当小组里解雇了一个语言学家,我们翻译的精确程度就提高了,因为语言学家老在挑毛病,最后剩下来的全部是不懂语言计算机专家和数学家的时候,没有专家在那里指手划脚。

  最后的启示就是我们不能相信,我们也不能相信我们内心中的专家。

  往往我们的认识模式里,对自己的能力盲目信任,往往会过分夸大自己的能力。所以,现在有一个投资的方法,叫量化投资。原来是价值投资:这个东西是不是物有所值,如果说它被价值低估了,你赶紧去买它,以后它价格会起来。现在讲的是,你不用管它到底有价值没有价值,我只看它是涨还是跌。那看什么?看量化投资。量化投资靠什么?靠大数据。但是量化投资到最后是谁来执行,不是靠数学天才。数学天才的贡献是发现了一套投资方法,然后由电脑来执行。为什么要让计算机来执行而不让人?因为一个人哪怕你心理素质再高,哪怕你智商再高,总有无知和贪婪的时候。所以最好的办法就是,放弃自己的主动性。

  大数据带来的风险:用你的隐私去赚钱

  大数据给我们带来的各式各样的好处,但是这里头也有很多风险。你害怕不害怕你的隐私被别人拿走?大数据的前提就是你必须把你的隐私要全部贡献出来。你如果想享受到手机给你带来的好处,那你手机马上会知道你在哪、你干了什么、你每天的生活都是什么,然后当你这些数据被人家拿走之后,人家就会拿你这些数据,去分析你害怕不害怕。有一个电影叫《少数派报告》,有点科幻性质,最后到什么程度,我根据你的数据,我判断你今天出门杀人的概率有90%,所以你出门之前我先把你拘留起来行不行,有很多涉及到法律、伦理的层面,涉及到隐私的层面不太好解决,这种数据时代,这种IT革命并不是高歌猛进的,它已经出现了有一些回潮,就是其实你想想在最早的时候,其实整个互联网的世界都是开放的,但是那个时候很奇怪,那个时候实际上每一个电脑的用户,等于他的房门都是敞开的,但是居然没有黑客进去,因为大家都是黑客,那时候只有技术人员才会用电脑,大家居然互相之间都不侵犯,但是现在你想想网上这种偷你的信息,拿你的数据,对不对,接到很多电话那都是大数据时代,“哥你想买房吗”,你怎么会知道我要买房,我大数据研究出来的,这个时候你为了隐私,为了保护自己的隐私,有很多时候你放弃了这个系统的开放性。

  现在你觉得用苹果的产品很爽、很酷,但是苹果的产品是严重封闭的,你没有办法改它,跟你原来用Windows实际上理念是不一样的,你喜欢你就用,你不喜欢你就不用,你说我有意见,有意见白提,没有用,苹果的整个操作系统是完全封闭的,你爱用不用,不用拉倒。然后还有,你最近发现,原来的时候影响美国政治的往往都是一些金融家,但华尔街现在不行了,在金融危机之后华尔街不行了,现在新崛起的一代富豪,都不住在纽约,他住在加利福尼亚或者住在华盛顿州,他住在西雅图,这些是新崛起的数据资本家,那你如果这些数据资本家到最后对政治的影响力越来越大,你可以想象他想要的是什么,他想要的更多是要求把数据公开,让他能够自由的拿你的隐私去赚他的钱,想想也是蛮可怕的,那还有一个更深层次的原因,就是大数据有可能会给我们带来一个盲目的乐观,我们认为什么东西我只要有数据,我都能够预测出来。你能够预测出来的东西,其实是很少的,就是我们刚刚举的那些例子,为什么能预测出来,因为它不断的发生,它是常态情况下出现的,所以它经过几万个消费者、几十万个消费者、几千万个人到最后总结出来你个人的行为,你总觉得跟别人不一样,大数据告诉你,歇了吧,你跟别人一样。凡是当你认为你自己跟别人不一样的时候,其实是你很幼稚的时候,你想一想你初恋的时候,你都觉得跟别人不一样,那都是很世俗的,我这个是刻骨铭心的,现在呢,都结婚了,孩子都有了,你再回头想一想,有什么不一样的,都一样。

更多阅读:
加载中…
 
 
 

COPYRIGHT © FZECC.COM

福州市电子商务商会版权所有

闽ICP备18028619号-1

地址:福建省福州市五一中路171号新都会花园广场24层

邮箱:fzecc@sina.com

电话:0591-38290739

传真:0591-38290733

邮编:350003