随着计算机和互联网技术的迅速崛起与普及,我们已经离不开手机、电脑、智能电视等智能终端设备,日常生活基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。
总之,在互联网无孔不入的时代,我们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为大数据分析的材料。
“要不和大数据沾上边,除非你把自己完全绝缘起来。比如,不上网、不使用手机、不看电视等,总之不和任何信息设备发生关联,这样大数据使用者在进行数据挖掘时就找不到你的个人信息了。但是在如今这个信息时代,这已经是几乎不可能的了,况且国家对公民实施信息化管理及服务也已经成为一种潮流和趋势。”北京集奥聚合公司首席技术官刘国清说,现在我们千万不要以为自己和大数据没有任何关系,实际上如今我们很多人已经成了大数据关注和分析的对象。
虽然大数据分析基于各人习惯进行预测的准确度确实会因人而异,但总体上其准确度比我们想象的要高。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,大数据时代产生如此多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。
利用大数据买到便宜机票
在大数据的应用中,尽管很多时候我们个人成了大数据分析和应用的对象,但是在将来,我们也可以利用大数据来为自己服务,其中利用大数据购买飞机票就是一个典型的例子。
目前在美国,很多人都知道利用大数据分析的结果购买飞机票可以给自己省钱,而这要归功于美国著名计算机专家奥伦·埃齐奥尼的贡献。
2003 年,奥伦·埃齐奥尼准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼,他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发现大家买的票居然都比他的便宜。对大多数人来说,这种被敲竹杠的感觉也许会随着时间的流逝而消失。
但是奥伦·埃齐奥尼则在这次事件以后开始捉摸如何以合理的价格购买飞机票。他下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理。
埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是分析从一个旅游网站上搜集来的所有特定航线机票的销售价格并确定票价与提前购买天数的关系,而后建立一个系统,预测当前的机票价格在未来一段时间内会上涨还是下降。不久,他就完成了这样一个预测系统,如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。
而后,埃齐奥尼的这个项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。通过预测机票价格的走势以及增降幅度,Farecast 票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。如今,Farecast 已经拥有惊人的约2000 亿条飞行数据记录。利用这种方法,Farecast 为消费者节省了一大笔钱。
2008 年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计划之前,微软公司找上了他并以1.1 亿美元的价格收购了Farecast 公司。而后,这个系统被并入必应搜索引擎。
到 2012 年为止,Farecast 系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。据了解,Farecast 票价预测的准确度已经高达75%,使用Farecast 票价预测工具购买机票的旅客,平均每张机票可节省50 美元。
未来,在国内从事航空、宾馆预订等行业分析的大数据公司成熟以后,个人也可以购买他们的数据服务从而减轻自己的负担。
而在另外一个方面,为我们进行服务的单位则可以基于对你位置的实时定位和数据分享,在你进地库就开始着车,进门前就亮灯,坐到位置前电脑就开启,咖啡就上桌,这些在技术上并不难实现。
“可以设想,在大数据时代,计算将像电力一样成为自由流动并被销售的能源,今天我们为5 度电付费,明天我们会为来自云基地的‘10 度’计算付费。”电子科技大学教授周涛表示。
我们已经在不知不觉中享受大数据服务
实际上,我们已经在不知不觉中享受大数据分析和应用提供的服务。
互联网上流传着这样一个例子:2012 年初,美国的一名男子闯入了他家附近的 Target 店铺(Target:美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼道,“你们竟然给我17 岁的女儿发婴儿尿片和童车的优惠券,她才17 岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理并没有意识到,他们公司正在运行一套数据挖掘系统。
一个月后,这个愤怒的父亲打来电话道歉,因为Target 发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。事实上,Target 创建了一套女性购买行为在怀孕期间产生变化的模型,不仅如此,如果用户从他们的店铺中购买了婴儿用品,Target 在接下来的几年中会根据婴儿的生长情况定期给这些顾客推送相关产品,使这些客户形成长期的购买习惯。
刘国清说,利润仅次于沃尔玛的全球第二大零售商Tesco,从用户行为分析中获得了巨大的利益。据悉,从其会员卡的用户购买记录中,Tesco 可以了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,这样的分类可以帮助Tesco 设计个性化的服务。比如,通过邮件或信件寄给用户的促销广告可以变得十分个性化,店内的上架商品及促销也可以根据周围人群的喜好、消费的时段变得更有针对性,从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助Tesco 每年节省 3.5 亿英镑的费用。
沃尔玛也同样重视与它的顾客进行个性化互动。2011 年底,沃尔玛在Facebook 上发布了一个名叫ShoppyCat 的应用,这个应用的功能是帮助顾客解除为朋友挑选生日礼物的烦恼。当顾客将ShoppyCat 加入她 / 他的 Facebook 中时,应用程序将访问这个顾客所有朋友的信息,如登记信息、行为、状态、Likes、关系圈等等,通过对这些信息的分析挖掘,为每一个朋友的生日都推荐相应的礼物。
而当你进入亚马逊的网站时,它会“猜测”你可能会喜欢什么样的产品,并在首页给你推荐。当你浏览京东或者淘宝网页上的某一产品时,类似的产品链接就在旁边方便你点击、比对。
北京邮电大学信息与通信工程学院副教授郝建军表示,这是因为平时,电商都在不知不觉中对消费者的消费行为和习惯有了记录。在电脑上,你什么时间浏览了什么网站,点击了哪些链接,网上购物时买了什么样的东西,花了多少钱,你中间点击了哪些、什么样、什么价格的产品,最后做出了什么样的选择都有迹可循。大型电商网站会基于这些数据,分析顾客习惯并优化自己的产品结构,变更网页,以达到促进、方便消费的目的。
集奥聚合首席营销官段培力对记者透露,现在百度和新浪微博也在进行基于大数据的分析和应用,比如百度了解你的信息查询需求,新浪微博了解你的朋友圈和你的爱好等等。
现在在美国,社交网站“脸谱”和视频网站“网飞”也是通过搜集、整理用户在网络上留下的“足迹”,分析用户偏好、兴趣和需求,然后向用户推荐联系人信息或者感兴趣的视频内容。
大数据应用可以保障我们的人身和财产安全
另外,大数据分析已经被用在刑事侦破领域,这为破获一些疑难杂案、保障老百姓的人身和财产安全提供了一种新的技术支持。其中,人脸识别技术的应用就是大数据挖掘的一个典型例子。
1989 年,清华大学电子工程系教授苏光大课题组就承担了公安部“GA 计算机人像组合系统”研究项目。这套人像组合系统的基本要件就是利用计算机进行画像,只要在计算机中建立储存有各种眼睛、鼻子、嘴巴、眉毛、脸型等信息的信息库,在受害人凭记忆描述犯罪嫌疑人的各种相貌特征时,操作人员在信息库调取与之相应的眼睛、鼻子、嘴巴⋯⋯直到组合成一个与犯罪嫌疑人特征相像的人像。
近些年,通过计算机画像自动在目标人员数据库中搜索犯罪嫌疑人也成为公安机关在侦破案件时常常采用的手段。不过苏光大表示,人脸识别技术要高效发挥破案的作用,前提就是要建立有大级别的人像数据库系统。
根据公安部门提供的身份信息,2008 年1 月,苏光大课题组建立了国内首套千万级数据库的人脸识别系统,这也是目前中国最大的人脸识别系统。在进行一些案件侦破时,通过电脑画像,而后经识别系统和数据库的人像资料进行对比,就可以迅速查找犯罪嫌疑人的真实身份。
苏光大告诉记者,在未来随着大数据应用的深入,人脸识别所能够得到的原始人脸数据将会越来越丰富。另外,各个省、市、自治区也可以建立本地区的人脸识别系统,在遇到一些疑难案件时,该系统的数据挖掘和分析将会提供极大的帮助。
而目前,美国中央情报局甚至已经开始利用大数据技术追踪恐怖分子和监控社会情绪。就像可口可乐等消费公司借助数据分析掌握消费者习惯一样,中情局也通过大数据技术来寻找恐怖分子的踪迹。此外,大数据分析可以了解多少人和哪些人正在从温和立场变得更为激进,并“算出”谁可能会采取对某些人有害的行动。