有关商家和平台利用大数据杀熟(指商家对新老客户、不同地区的客户,实行不同的价格,或者利用掌握的大数据,采用十分复杂的计算方法,对消费者进行价格歧视)的消息屡有发生,而更多与大数据有关的新闻也不断挑动着人们的神经,让大家觉得自己在大数据面前似乎“无所遁形“。对于普通人而言,大数据是一个近在眼前,却又不甚了解的事物。大数据究竟是什么?它和我们熟知的数字、数学又有着什么样的联系?大数据究竟给我们的生活带来了哪些改变?作为中国大数据倡始之人,大数据专家涂子沛通过回溯数的发展、数据在中外历史重大事件的全方位应用,清晰、直观地解释了与大数据有关的知识。以下内容节选自《给孩子讲大数据》,已获得出版社授权刊发。《给孩子讲大数据》,涂子沛著,童趣出版有限公司编,人民邮电出版社2020年7月版。作者丨涂子沛摘编丨安也大数据的出现,让统计科学和数据科学重新洗牌这是一个关于零售帝国沃尔玛的故事。沃尔玛,全世界最大的零售商,拥有11000多家分店、200多万名雇员。它的销售收入在2018年突破了5000亿美元,超过了很多国家的GDP(国内生产总值)。沃尔玛的数据库是世界上最庞大的商业数据库之一。沃尔玛也是最早一批大规模使用数据挖掘技术的企业之一。它的首席信息官叫罗林·福特,数据分析是他的核心工作。罗林曾经感叹:“每天早上一醒来,我就要问自己,怎么才能让数据流动得更好、管理得更好、分析得更好?”在一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配卖得最多的商品竟然有啤酒!尿布和啤酒,听起来风马牛不相及啊!任何一个人都很难将两者联系在一起,但这却是对历史数据进行挖掘的结果,反映的是数据层面的规律。这实在令人费解,这是一个真正的规律吗?答案,还是在数据里。经过跟踪调查,研究人员终于发现事出有因:一些年轻的爸爸经常要到超市购买婴儿尿布,有30%~40%的“奶爸”会顺便买点儿啤酒犒劳自己。再有想象力的人恐怕也很难想到,事实的真相居然是这个样子的。沃尔玛随即对尿布和啤酒进行了捆绑销售。果然,销量双双增长。这是数据科学应用的经典案例。电影《白金数据》(2013)剧照。沃尔玛到底是怎样发现这个规律的呢?这就要进入数据科学的核心:数据挖掘。数据挖掘,是指通过特定的算法对大量的数据进行分析,在大量的数据当中发现新知识,供人参考。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就像开矿凿金一样困难。你可以这样理解,数据挖掘是一台由算法控制的挖掘机,而数据库就像是一座矿山。1989年之前,数据挖掘不叫数据挖掘,而是叫一个很长的名字:基于数据库的知识发现。作为挖掘基础的数据库也不是和计算机同步产生的,它是在计算机出现之后,慢慢从软件当中成长、独立出来的。1948年,杜鲁门和杜威竞选美国总统,盖洛普通过抽样调查预测杜威将会当选。新闻界对这个预测深信不疑,《纽约时报》等报纸提前一天印好了杜威当选美国总统的版面,准备抢占先机。结果却令所有的人都大跌眼镜,最后当选的是杜鲁门!那些印有杜威当选消息的报纸只好全部销毁。盖洛普失败的原因就在于,抽样调查需要经过问卷设计、信息收集、数据分析等多个步骤,这导致它掌握的数据有滞后性,而真实的情况是瞬息万变的。在竞选结果出来前的最后的两周里,盖洛普不得不停止调查,而杜鲁门却恰恰在这最后的关头扭转了战局。在大数据时代,对总统竞选的预测出现了新的方法:在投票的前后,对社交媒体上的数据进行观点的挖掘,可以较为准确地预测出谁能当选。2008年和2012年两届美国总统选举,都有人通过挖掘推特、脸书上的数据,准确预测出了结果。这种对互联网数据的挖掘不需要设计问卷,也不需要挨个儿调查,成本很低;这样的数据分析,一个人就可以完成,而不像问卷那样要出动大量的人马;更重要的是,这种分析是实时的,没有滞后性。所以,有越来越多的科学家相信,因为大数据的出现,统计科学和数据科学将重新洗牌,进入一个新的时代。在这个新的时代,数据挖掘将成为越来越重要的分析预测工具;抽样技术的重要性将下降,这种技术将成为辅助工具。虽然数据挖掘如日中天,但也有抢风头的,这就是机器学习。打遍天下无敌手的国际象棋机器人“深蓝”,还有把众多围棋名将下得没有脾气的机器人阿尔法狗(AlphaGo),用的都是机器学习技术。电影《白金数据》(2013)剧照。机器学习凭借的也是计算机算法。和数据挖掘不同的是,其算法并不是固定的,它能够随着计算、挖掘次数的增多,自动调整算法的参数,使挖掘和预测的结果更为准确。大数据刺激了数据可视化专业市场的形成1855年,克里米亚战争爆发了。这场战争导致50多万人死亡,异常惨烈。作为交战一方的英国当然是伤亡惨重。弗罗伦斯·南丁格尔(1820—1910)是英国的一名战地护士,也是一名自学成才的统计学家。她在考察了英国士兵的伤亡情况之后,发现由于医疗卫生条件恶劣而导致的死亡人数,大大超出了在前线直接阵亡的人数。南丁格尔将她的统计结果制成了一张图表。图表清晰地反映了“战斗死亡”和“非战斗死亡”两种情况下死亡人数的悬殊对比。强烈的视觉效果引发了英国整个社会的激烈讨论,促成了英国政府出台成立野战医院的决策。由此,人类历史上第一所正式的野战医院建立起来了。南丁格尔后来被誉为现代护理学之母。她的这张图表更是历史上第一份“极区图”,也是统计学家对利用图形来展示数据进行的早期探索。一张图表改变了一个制度,这并不夸张。人类天生就是感性的生物,视觉冲击对人的震撼要远远强过单纯的联想。南丁格尔的这种做法被称为数据可视化。它是指以图形、图像、地图、动画等更为生动和易于理解的方式,展现数据的大小,诠释数据之间的关系和发展的趋势,以更好地理解并使用数据分析的结果。南丁格尔的事例充分地证明了数据可视化的价值,特别是在公共领域的价值。生理学也证明,人的大脑皮层当中,有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。而且,人的创造力不仅仅取决于逻辑思维,还取决于形象思维。数据可视化的技术,可以通过图像进一步激发人的形象思维和空间想象能力,吸引、帮助用户洞察数据之间隐藏的关系和规律。20世纪70年代,由于计算机技术的兴起,一批有远见卓识的学者看到了这个领域巨大的潜力。有人认为:“未来的计算机不仅要能计算,还要能将计算结果转变为直观的图形。我们应该研究这两种结果,因为每一种都有助于我们理解问题。”1983年,耶鲁大学的教授爱德华·塔夫特成了数据可视化这门学科的掌门人。塔夫特系统考证了人类用“图形”表达“数据”和“思想”的渊源,整理了历史古籍中的图形瑰宝,并结合计算机的发展给统计领域带来的革命,出版了《定量信息的视觉展示》一书。这本书后来被公认为是“数据可视化”作为一门学科的开山之作。塔夫特强调,数据可视化的关键在于“设计”,“信息过载这回事并不存在,问题出在糟糕的设计,如果你用来表达数据的图形让人感觉杂乱不解,那就要修改你的设计”。美国总统每年公布政府预算都是美国的一件大事。在塔夫特的领导下,美国白宫曾经用一张图对奥巴马公布的年度预算进行了可视化处理。如下图,图形以线条的粗细表明各项收支金额的大小,左边是收,右边是支,中间的红色部分是赤字缺口,形象贴切。奥巴马收了多少钱,要办哪些事,各项收入和支出一目了然。奥巴马在2010年预算开支的可视化展示。(数据来源:《华盛顿邮报》,2010年2月1日)进入21世纪之后,大数据的爆炸使人们更加需要展示数据、理解数据、演绎数据的工具。这种需求,刺激了数据可视化专业市场的形成,其产品迅速增多,可谓绚丽多彩、百花齐放。从最早的点线图、直方图、饼图、网状图等简单图形,发展到以监控商务绩效为主的仪表盘、记分板,再到交互式的三维地图、动态模拟、动画技术等。作为一个新兴的行业,数据可视化的发展潜力不容小觑。数据可视化工程师既懂数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,通过把复杂的数据转化为直观的图形,他们把数据分析的结果推向了普通大众,可谓是大数据时代的导航员。“物证云”是大数据在警务系统内的应用大数据之大,不仅在于容量大,其根本还在于潜在的价值大。人类可以迈进大数据时代,最根本的原因,是人类的数据技术取得了重大的突破。通过以数据挖掘为核心的一系列技术,人类在数据当中发现了新的知识、创造了新的价值,从而为社会带来“大知识”“大科技”“大利润”和“大智能”等大机遇。在这个新时代,数据就是财富,数据分析的能力就是核心竞争力,很多行业都要相继跨入一个数据兴则兴、数据强则强的“数据竞争”时代。这也是一场数据科学家之间的竞争,以发现新知识为使命的数据挖掘和机器学习,就是这个时代最为瞩目的竞争利器。我曾旅居杭州4年。这4年中很喜欢看《钱江晚报》。有一天,我看到一个大消息,之江花园案破了!之江花园别墅的这起案件曾经轰动整个杭州市。2003年,有人在一个雨夜潜入之江花园,入室抢劫杀人,随后潜逃,再无音信。这一年,华人神探李昌钰第一次来杭州,有人拿这个案子问他,当时他也拿不出办法,但留下了一句话,“只要时机到来,案子迟早会破”。这个时机,一等就是13年。让人没想到的是,等来的时机竟然是大数据。20世纪90年代,杭州警方开始普及“生物痕迹”的概念,引进了物证管理系统;2008年,标准化采集仪器“搜痕仪”在杭州的派出所得到普及,它可以收集记录人像、DNA(脱氧核糖核酸)、指纹、掌纹、足印以及鞋底式样等数据;2012年,这些数据开始向云端转移,形成“物证云”,任何一个嫌疑人的数据都可以在“物证云”中和其他数据进行大范围的比对。“物证云”正是大数据在警务系统内的应用。它在之江花园案的破案过程中起到了关键作用。2015年9月,一名姓俞的男子在诸暨一家面馆因为争吵而伤人。当地警方把他制伏后,提取了他的DNA等数据,并录入到“物证云”上。没有想到的是,对数据进行跨地区比对已经实现了,警方发现他的各项数据和之江花园案留下的痕迹高度吻合,俞某的身份很快得到确认。为了破之江花园案,杭州警方十多年来踏破铁鞋,但真正破案时却没费多少工夫。这首先要归功于“物证云”的强大覆盖能力,“物证云”让一些零散的数据形成了联系,破案时机就在这种比对中出现了。1975年至1986年间,美国出现了一起连环案,犯罪嫌疑人被称为“金州杀手”。办案人员追踪他20多年,查对过数千名嫌疑人,但都没能抓到他。电影《源代码》(2011)剧照。2017年12月,一名探员突然想到了一个应用大数据的新办法。他把已经掌握的嫌疑人的DNA上传到一个寻亲网站,这个网站能够分析上传的基因数据,为人们寻亲溯祖提供线索。结果,真的找到了一个和嫌疑人DNA部分匹配的人。凭借这个重要的发现,警方将嫌疑人的范围从上百万人缩小至一个家族。在排查之后,警方抓到了案犯迪安杰洛。此时,这位“金州杀手”已经72岁了。正义虽然姗姗来迟,却没有缺席,这里面最大的功臣也是大数据。我的警察朋友这样告诉我:“大数据和新技术太厉害了,我们现在是有案必破,破积案、等案破、没案破。”“今天你要是做了坏事,就别跑,因为你根本跑不掉,你就坐在家里,等着警察来找就没错了。”这说的可能有些夸张,但也正说明警方如今的底气不是一般的足。为什么底气能这么足?正是因为有了大数据的分析。今天,几乎人类所有的行为都在留下数据。凡走过的,必留下痕迹。通过对痕迹的分析,一个人几乎没有秘密。普通人是这样,犯罪分子也是这样,除非他一直躲在深山老林里不出来,显然,这在现代社会几乎是不可能的。用数据和“云”解决“空巢”老人的救助问题大自然中没有两片相同的叶子。因为,纹理可以将一片叶子与另一片叶子区分开来。也没有两个人的声纹或指纹是相同的。同样,在数据空间里,一个人或一个物体就是一个独特的“数体”,它可以被无数数据定义、支撑、背书。每一组、每一条数据又都有自己的特征,就像声纹和指纹,它们是数据纹理,简称“数纹”。每个人的脸型、指纹、心跳和血压等生理数据不一样,每个人的社会活动也不一样,不断地收集、整合一个人的数据,一个独特的数纹就出现了。凭借这些数纹,就可以清晰地定义一个人,区分这个人和另一个人。这种个体区分力,在人类的历史上还从没有过。但今天的政府正在拥有,我叫它“单粒度治理”的能力,意思是,人正在成为显微镜下的一粒原子。打个比方,就像漫天飞雪,虽然每片雪花高度相似,但它们在形成过程中,由于水蒸气条件的不同,形成了各自的独特构造,再受气流的影响,纷纷扬扬下落的路径充满变数,每一片都不一样。今天的技术就好比上苍之眼,可以在空中锁定、跟踪、分辨每一片雪花的轨迹。电影《白金数据》(2013)剧照。2018年8月,南方的一个花园小区里,一对老人倒在家中,被发现时已死亡多日。新闻报道说:二老都是退休教师,老爷子70多岁了,患有阿尔茨海默病,老太太也患有多种疾病。两位老人平常和蔼可亲,没有想到说走就走了,多日后才被邻居发现,实在可怜。老人有一个儿子,就住在隔一条马路的小区。小区里人来人往,儿子就住在隔壁的小区,可这样的事还是发生在了眼皮子底下,到底出了什么问题?大家可能会想到邻里关系的冷漠,儿子对老人疏于照顾,老人即使身处闹市,又与独居有什么区别?每家都有老人。当今中国,独居老人或者叫“空巢”老人的问题已经非常严重。据统计,截止到2018年年底,我国60周岁以上的人口大约有2.5亿,占人口总数的18%,其中65周岁以上的人口约1.7亿,占人口总数的12%。中国即将进入人口老龄化的高峰阶段。我曾经还看过一个报道,有一个在外地打工的游子打电话回家,连打了几天都没人接听。他非常担心,放下工作直奔家中,推开门就发现惨剧已经发生了。几天之前,他父亲因为心脏病发作死在浴室,母亲瘫痪在床,因为没有人照顾饿死了。不断看到这样的悲剧,真是令人难受。我想,今天有那么多的传感器、智能手环,用好了一定可以解决这个问题。移动技术已经让人类永不下线,传感器普及的浪潮正在到来。智能手环收集到的数据如果可以和医院实时联通,那么被监控者的心跳、体温等数据就可以源源不断地传送到医院的数据库中。当被监控者的心跳出现异常时,算法就可以把数据推送给医生,提醒其注意及时救治。目前,江苏省扬州市的个园社区正在尝试为老人安装“智能看护”传感器,主要包括:床垫传感器、马桶传感器、煤气泄漏报警器和室内红外线传感器等。这些传感器每天会按时将收集的数据发送到系统终端,社区负责人员和子女只要打开手机,就可以了解到老人当天的生活情况。日本社会也存在老龄化的问题,比中国更严重。据统计,日本的独居老人约600万,每年有4万人孤独离世。为了关注他们,日本人也用上了大数据,他们通过能源提供商监测这一家住户的水龙头几天没被使用了,灯有没有被打开,燃气一直在被使用或者没被关掉等。日本家庭的水表一般安装在住所外面,因此,改造水表很方便。通过安装一个可以实时记录用水量的电子指示器,关注独居老人的想法就可以实现。远方的子女每天都可以看到老人的能源使用数据,从这些数据推测老人做饭、洗澡所需的时间。当发现数值异常时,可以立即与当地社区联系,请社区工作人员到家中查看。这样一来,日本独居老人在家中死亡若干天后才被发现的事件减少了30%。把数据用好,把“云”用好,“空巢”老人的救助问题将发生极大的变革。知冷知热知心,是大数据的终极追求2013年7月,华东师范大学有一位女生收到校方的短信:同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?这条温暖的短信也要归功于大数据。校方通过挖掘校园饭卡的消费数据,发现这位女生每顿饭的餐费都偏低,于是向这位女生发出关心的询问。电影《点球成金》(2011)剧照。这部电影讲述了球队如何用数据建模的方式,挖掘潜在的明星队员。借助数据分析,华东师范大学把每个月在食堂吃饭超过60顿、总消费不足420元的学生,悄悄列为受资助对象,不用审核、不用公示,学校直接将金额各不相同的补贴款打进这些学生的饭卡。因为校方在长期的管理当中发现,不少家境贫寒的学生,因为面子原因不愿申请贫困生助学金。如果进行公开的评审和公示,难免会伤害一些学生的自尊心。这种方法可以说是用心良苦了。当然,偶尔也会出现美丽的错误!刚才说的那位女生之所以消费低,只是因为正在减肥。误会之所以发生,并不是因为大数据不管用,而是在于数据不够多、不够全面、不够强大。大数据的特点除了“量大”,还有“多源”。如果除了饭卡,还有其他来源的数据作为辅助,判断就会更加准确。我的朋友周涛教授在电子科技大学工作,作为国内知名的大数据专家,他主持过一个课题,叫“寻找校园中最孤独的人”。该课题从3万名在校生中采集到了2亿多条行为数据。这些数据包括学生选课、图书馆刷卡、寝室门禁、食堂消费以及学校超市购物等数据,都是学生在刷一卡通时产生的。通过对不同的卡在不同地点的刷卡数据进行分析,课题组最终发现了电子科技大学有800多名学生,他们在校的大部分时间都是独来独往的。每一次排队,前后都没有同学或好友,他们是“最孤独的人”。这些孤独的人患上心理疾病的可能性很大,家长和学校如果提前予以关注,就会避免悲剧的发生。这也是大数据温暖的一面。知冷知热知心,应该是大数据的终极追求。本文节选自《给孩子讲大数据》,较原文有删节修改,小标题为编者所加,非原文所有,已获得出版社授权刊发。编辑丨刘亚光校对丨吴兴发
72掌纹图解(从救助空巢老人到资助贫困生)
上一篇:72年鼠男与75年兔女的婚姻(京东超市发布“2021中国十大老字号”榜单)
下一篇:没有了