一大波汽车数据来袭,不如先放到「数据湖」里

  • 发表于: 2016/05/09 08:44:00 来源:车云网

大数据时代来临,数据分析处理的方案也在与时俱进。

2016年5月5日“2016 Teradata大数据峰会”在北京国贸大酒店开幕。会上谈及了不久前Teradata天睿公司宣布推出的新数据部署方案——数据湖,Teradata首席技术官宝立明(Stephen Brobst)、大中华区产品技术及业务支持副总经理张锦沧在接受车云菌采访时,介绍了数据湖方案在汽车行业的应用。


△Teradata天睿公司首席技术官宝立明(Stephen Brobst

现在传感器每天收集的数据可以用“海量”来形容,这些数据采集之后,企业往往来不及即时挖掘背后的潜在价值,而是先储存起来再进行分析,基于数据储存成本考量,那么数据湖可能是一个选择。

目前现有的数据方案中,数据仓库(Data Warehouse)解决方案往往是是处理结构化数据及关联性比较强的数据较多,如果一股脑儿把这些“海量”数据放到数据仓库中储存并分析,容易出于处理性能及储存成本考虑,舍去部分数据,从而牺牲一些可能有分析价值的数据。

于是数据湖方案的核心,就是把这些“海量”数据先放到数据湖中,等到我们明白如何使用时,再进行分析或是挑选有分析价值的数据传送到数据仓库做进一步分析研究

数据的存放并不是杂乱堆砌的。与数据湖相对,宝立明又提到了“数据沼泽”的概念。就好像堆积在软件里的笔记资料,没有分类整理,查找利用并不高效。这样的数据湖杂乱无章,更像是一个不停吸入数据的沼泽,不但耗费成本,而且不易产生价值。无法产生价值的数据湖,是不值得建立的。

目前数据湖建构可以使用多种技术,比如Hadoop、NoSQL、Amazon S3、关系型数据库(RDBMS)以及各种技术组合。Teradata旗下的Think Big的业务就是帮助企业客户设计并建立数据湖、给企业员工提供培训和应用开发的顾问咨询服务。比如使用哪一种模型把数据放进湖中,怎么存放,如何分析、数据监管、如何取出使用等。

就像上文提到的,数据湖是数据仓库的数据上游,可以成为企业整体的业务支撑。根据张锦沧的说法,Teradata其中一个企业优势是在为全球数据仓库项目实施中积累的行业模型。简单来讲,这些模型是提供不同行业以主题分类的数据关联和分析的蓝图,这一经验可被数据湖借鉴。

如果用汽车领域的使用举例,Teradata数据仓库主要是车厂内部数据方案,集中在制造环节,包括产品控制、供应链等方面,合作伙伴有沃尔沃、宝马等车企。宝立明向车云菌介绍,随着数据湖方案的推出,未来有机会应用到车联网领域。车联网的兴起,让车辆传感器成了源源不断的数据源头,数据湖就可以用低成本方式储存这些传感器数据。

而且除了使用单辆车传感器数据应用在司机驾驶习惯分析等领域之外,把更多外部数据捕获放到湖里,会产生更多价值。宝立明在现场提到了谷歌无人驾驶汽车的例子,不同豆荚车在不同环境里行驶累计的测试里程数,也可以用数据湖的方式来进行更加高效的处理和分析。

关于未来的数据共享,也在数据湖的概念中被重申。张锦沧强调,有很多数据并不是企业自己所拥有,如果可以跟其他行业数据分享或共享,应该会创造更多价值。比如汽车行业和政府的开放数据(open data)、地图行业建立关联。因此,不同数据湖之间可以分享数据,或者把数据湖放到云端,摊薄每家企业的建库成本。

相关标签:
大数据
自动驾驶
车联网
  • 车云星
  • 空间站
  • 福特星球
  • 虫洞

加料 /

人评论 | 人参与 登录
查看更多评论