大数据的价值毋庸置疑,但是,我们要如何利用大数据呢?在真实的案例中,大数据是如何被获取、挖掘和分析的?
编者按:大数据正在越来越为人们所用。成立于1999年的海量信息技术有限公司,就是一家基于大数据的行业情报服务商,于2007年开始采用云服务模式。海量以大数据技术、智能计算技术为基础,从海量的互联网信息中,与行业独立数据增值服务商(IDV)一起为用户加工和挖掘有价值的知识和情报,辅助用户进行跨尺度态势感知、复杂关联挖掘、事件发展预测等认知和决策。本文为海量信息技术有限公司战略合作部总监卫明在T行神州7月长春站上的演讲,由车云菌编辑整理。
海量信息技术有限公司战略合作部总监 卫明
海量大数据能够为汽车行业做些什么?
我们会持续监测消费者关注的是什么,他们更喜欢什么,主要通过对文本数据的挖掘,来看数据背后的更真实的信息反映了什么,最后更精准地刻画出消费者是什么样的一个群体,特征和分布在哪里。
在这里,跟大家分享一个案例,分析的对象是荣威550和奔腾的B70两款车型,所有的数据源来自于汽车之家。数据的来源有两个部分,一个是汽车之家的论坛,一个是汽车之家的口碑频道。我们对数据的分析包括三个部分:论坛的数据分析、口碑的数据分析和人物信息分析。
论坛的数据分析
数据的时间段为2013年的7月1日到今年的7月3号。在这一年时间里,奔腾和荣威的发帖和回帖总量分别是28万和37万,经过筛选和分类,最终对17万数据进行了两方面的分析:活跃度和正、负面指标数据。
活跃度数据对比
活跃度的数据呈现,表现在三个方面——日发帖量、日回帖量以及主帖的平均点击量。从发帖量,奔腾B70最高的发帖量是高于荣威550,日平均数的贴子数。回帖量,荣威是高于B70的,平均日回帖量也高于B70。主帖的平均点击量差别是在1000左右。这些帖子本身分布的时间段也不一样,奔腾B70的主帖及回帖所有的时间是在648天,荣威550的分布时间是783天。我们可以认为荣威550的帖子不太容易被沉下去,持续的时间更长一些。
正面指标数据对比分析
然后是两款车型的正面指标数据分析。从上图可以看出,主要是安全、操控、动力、空间、配置、舒适型、外观、性价比、动力、油耗、异响等维度,这两款车型论坛的数据惊人的相似。每个维度基本区域一致,好评度荣威550略高一点。
正面评价关键词频次统计对比
用户对于两款车型的认可度,集中在两位方面,第一个是性价比高,第二是省油。从外观来看,荣威550是精致、动感、颜色好,而奔腾B70是漂亮、大气和时尚,这说明两个车型在消费者心目中的定位不一样。昨天晚上我和同事来到长春,我们特意打车,和本地的司机聊天。我问咱们这奔腾B70卖的是不是特别好,他说是,本地车。我说荣威550卖的多吗,他说很少,100辆里就1、2辆。我问政府采购的,他们说奥迪,往后一点的车呢,就是奔腾B70,是商务车。从他的描述来看,也反映了这个。从我们的年轻群体,活跃群体分享的认可来看,更多的是看外观好的。
负面数据对比分析
从负面来看也是一样,这两款车型有着非常惊人的重合。这几个维度里,内饰占比最高,大家感觉这车的内饰不够精致,第二是有异味,这是对两款车负面的评论最高的。还有一些问题,反映在前三位,荣威550的刹车、顿挫,奔腾B70有异响,跑偏,耗机油。
口碑数据分析
口碑数据是经过实际认证的,针对购买过车的人在这里做一些深度的分享。其中荣威550比较多一些,是1200多位,奔腾B70是600位车主。
从时间上来看,奔腾B70,5月份、6月份和9月份,更多在期间买这个车,而荣威550的购车高峰出现在10月份和12月份。这个数据也许某个程度上也有一定的道理,反映出购买人群是不一样的,导致行为、习惯会不一样。
再一个就是看口碑细节的评论。
油耗数据对比
油耗的满意度反映出了一个很有趣的现象。每位车主会分享出我的油耗是多少,最终的数据是对1800多位车主的油耗进行平均。奔腾B70油耗是9.34,荣威550是9.7,两个差别非常小。但是,满意度程度来说,反差非常大。相差无几的油耗,奔腾B70的车主是比较满意的,同样对于荣威550来说,是不满意的,这也反映出购买人群不一样,诉求、期望值也是不一样的。
外观和内饰评分对比
从外观来看,对于两款车来说,荣威550占上风,满意度都不错,基本上是所有买车的人都比较满意。而从内饰看,荣威550的满意度有97%。再综合其他舒适性的数据来看,口碑数据与论坛数据是有一些差别的。论坛数据有些是匿名的,有些是灌水的,还有水军的,除了部分的准车主,还有很多是没有车,只是对这个车感兴趣,喜欢聊聊和讨论。但是,口碑数据是真实的车主,真实的用车的体验感受,所以,从论坛数据和口碑数据同一个指标来看,有时候往往有一些区别,我们更愿意相信口碑数据,真实体验的感受会不一样。
人物信息分析
首先来看购车的省份。荣威550大本营在江浙沪,然后辐射到周边;奔腾B70在山东、吉林本地是销售量最高的。在论坛里讨论荣威550的用户主要分布在江苏、广东、山东三省,而讨论奔腾B70的则在山东、广东、河北三省较多。
意见领袖数据对比
我们把在汽车之家论坛发布的精华帖在10个以上的用户认为是意见领袖。通过数据可以看,意见领袖中男性远远高于女性,经过手机、车主认证的也高于未认证的。也就是说,所谓的意见领袖的三个特征,第一个是男性,第二经过了手机认证,第三,经过车主的认证。
不同省份意见领袖平均关注数对比
不同省份意见领袖平均粉丝数对比
再来看看这些意见领袖的论坛ID分布。荣威550最高的是云南,奔腾B70最高的是上海,这个数据挺有意思的。这两个曲线可以看出来,奔腾B70的意见领袖他们关注的人群,愿意关注别人的数量是远远高于荣威550,同样就粉丝数,别人关注的意见领袖也是远远高于荣威550。说明什么?至少说明一点,就是奔腾B70的忠实用户、意见领袖他们在互联网上更活跃,他们的影响力会更大。
那么海量的分析报告是通过什么技术实现的?
在技术架构上,首先我们对公开发行的互联网的数据进行抓取,就是数据采集,然后通过对大数据的挖掘,进行可视化的报表分析,形成最后的数据报告。
上面案例中的数据仅仅是基于汽车之家,这是因为在有限的时间里汽车之家的数据具有代表性,同时最有活跃性,他们的信息量比较大。微博的数据是140个字,网民体验分享也多,但是从专业性上不如汽车之家的论坛。我们能够抓取的数据范围比较广,论坛可以扩展到爱卡,微博的数据也可以抓取,现在还能够抓取电商数据,包括电商的成交价格、成交量、用户评论信息都可以抓取分析。
在数据的分析上,主要是基于知识网络。海量的产品又叫中文分词,包括微软、网易等等,在最底层的时候都购买我们的分词技术。在大数据这一块,我们也做一个工具,就是判定图。我本身不是做技术专业的,经过简单的培训,就可以用可视化的模式和逻辑的模式把刚才案例的建模模型表达出来,反映的是中文语意的分词和分析。我们做的报告里面,大概有500多个标签和近1000多个界面。
判定图
这是判定图的界面,主题是基于论坛的数据。这里面的节点非常多,比如汽车行业的内饰,关于正面,可以看空调的出气孔,门扶手、仪表盘等等都会分解出来。我们有专业的知识工程师大量的看数据,把这些知识维护下去,形成我们的知识库,我们可以在用的时候不断的积累,可以做调阅。
最后提一下海量的商业模式。海量的定位是专注数据挖掘和数据工作。在行业里,大数据本身来讲必须和行业结合才能有更多的应用。但是并不是所有的行业都是我们擅长的,比如汽车行业。要把数据变得更有意义,我们需要很多的支持。支持从何而来?我们和行业伙伴合作,我们有一个IDV(独立数据增值服务),做出服务客户的各种各样的大数据的应用,这是我们的商业模式。
加料 /