在CES之外的北京,举行了一场四车PK的汽车语音“智商”测试

未来的好科技,应当是“暖人”的科技

最近几天的北京,降温降的厉害:以至于那些刚刚回京的人,在飞机落地后就直呼“冷得受不了”;而有幸暂离北京的人,就像得到特赦一样跑得比谁都快……不过,就在这瑟瑟的寒风中,却有一场“暖心”的测试在北京拉开了帷幕。

1月9日下午,以 “我说你懂? 汽车智力测验”为主题的体验评测活动在北京751D-PARK 第一车间举行,这是业内首次针对一辆汽车的“智力”水准进行测试——在车云菌看来,一个好的技术,在应用起来必须是“暖心”的。所以此次活动,也可谓是在寒冬里一场针对汽车科技在生活场景中的“温度”测试,在现场,共有50余家媒体从头至尾观摩了所有的细节。

此次测试的核心,围绕眼下最热门的“智能语音交互系统”在复杂生活场景下的使用效果展开。为了尽可能让测试内容更全面,现场一共选取了包含全新绅宝D50在内,覆盖畅销合资家轿、自主品牌互联SUV旗舰、自主品牌家轿和豪华品牌家轿的四款车一并进行体验测试;而体验项目,则覆盖了从日常使用场景、方言适应性和极限使用场景三大维度。

科技应当以人为本

说起语音识别,这并不是刚刚冒出来的新技术,早在1998年,车云菌就曾经在Windows95的操作系统内用过一款叫做“ViaVoice”的语音识别软件,而让汽车听懂“人话”,很早之前的一些车型上就已经能实现了。

在传统的车载语音识别技术中,驾驶员需要按照车机系统的规定,依标准的命令语式去一条条念出“条目式语音命令”,譬如“打开收音机”、“导航至北京市朝阳区东二环XXX路XXX号”,而一旦驾驶员念错、吐字不清楚或中间停顿,便都有可能导致系统识别失败。因此,在传统语音识别技术体系下,驾驶员是要为车辆服务的,而这无疑会分散驾驶员的注意力,降低行车安全性。

但在新兴的“智能语音交互系统”中,“人服务于车”的局面将彻底扭转成“让车服务于人”——驾驶员或使用者在向车辆发出语音指令时,不再需要按照标准念出条目式命令,只需要依照自己的语言习惯说出日常话语就行,同时车辆还必须具有一定的分析能力,根据话语中的关键词分析指令者背后的意图,甚至依靠大数据和第三方服务的优势,为驾驶员提供超越传统技术能力范围之外的增值服务。

譬如说,在日常生活场景测试中,搭载了“智能语音交互系统”的全新绅宝D50,不但可以识别诸如“今天限行吗”、“我想听北京交通广播”此类的日常问题,还可以根据第三方提供的数据,在搜索到饭店餐饮信息之后,对所有列表内容按照价格、距离和评分排序;甚至在驾驶员很熟悉该功能之后施加复杂的命令,如通过额外命令“显示沿途中石化加油站”,更精确地调整现有的导航路线和目的地优先级,而这些功能,在传统语音识别系统中几乎无法实现。

根据官方透露的资料,在全新绅宝D50的“智能语音交互系统”中,80%的人机交互需求最多只需要两步自然语言指令就可以完成,真正能让用户做到想说就说,不需要费心思考,甚至在必须的时候,还允许驾驶员对系统复述中途打断,直接下达最终指令(相当于抢答模式),从而提高人机交互过程的流畅性和自然性,提高驾驶安全。

功能进步源自技术颠覆

在传统的车载语音识别技术中,消费者的体验效果取决于车机系统的运算速度、语音数据库的丰富程度和算法合理性,但受制于车规标准的限制,车载语音识别技术很难在技术层面进行大的突破(为系统稳定性让步的结果),但是对基于互联技术的“智能语音交互系统”来说,云计算和大数据将为其带来革命性的改变。

在全新绅宝D50的“智能语音交互系统”中,其车机系统自带一个容量为500MB的内置语音识别模块,但是在涉及复杂的自然语音识别功能方面,则主要依靠其遍布全国的4个大型服务器和以TB级计算的庞大语言数据库作为功能支持。

众所周知,中国的语言体系非常复杂,在一些少数民族聚集、或者历史上不同民族交汇的地区,同一语系在隔了一个山头之外的另一群人中就会产生不同。因此,如何让汽车“听懂”中国千变万化的方言,是一个非常大的挑战,这个挑战对于传统的车载语音识别技术来说,几乎束手无策,但是对于云计算和大数据支持的“智能语音交互系统”来说,就是小菜一碟。

在现场测试四辆车型对不同方言识别能力的环节中,测试方刚开始使用了与普通话相对接近的山东话和河北话来给四辆受试车出难题:“我想听汪峰的歌”、“拨打电话188XXXXXXXX”等一通带着地方方言味的问题抛出来之后,现场每辆车的表现都可圈可点;但是当主办方祭出大杀器,用网络上曾经非常火的一个视频——“倒鸭子”中的“大连市甘井子区革镇堡镇”这个段子来难为这四辆车时,除了全新绅宝D50之外,其他参试车型的表现就都乱了套。

事实上,车云菌对全新绅宝D50在这轮测试中胜出并不感到意外的,也对其他车型在这个测试中表现不一可以理解,因为在现场的四辆车中,虽然不止全新绅宝D50一款车具有在线云计算和大数据支持,但是在这两个基本技术要求之外,全新绅宝D50还使用了一家对汉语理解更为透彻的本土技术供应商作为合作伙伴,这就让其对方言的理解相比整个行业的平均水平更高一阶,而且本土化布局的服务器,也让其在接到复杂的语音命令后能更快地作出反应。这些都从侧面说明,在传统技术壁垒被打破之后,一些新的可以提升用户感受的领域开始逐渐浮现,这也要求整车厂面对特定市场需要采取不同的本地化策略。

在整个测试流程中最特别,在观众看来最安静,但车内却最吵的极限噪声测试环节中,主办方模拟了生活中最常见的两个场景——夏天空调风量最大和等红绿灯时,碰巧把车停在大公共旁边这两种情况(后者的噪声主要来自于大公共汽车的柴油发动机)。为了保证结果公允,主办方进行了两轮测试:第一轮是在车内只保留空调最大风量时(把音响系统静音),对语音系统说出标准命令;第二轮是在车内保留空调最大风量之外,额外引入第三方噪声,使车辆内的噪声水平达到80-83分贝左右,然后对车辆分三次说出同样的标准命令,以测试车辆在不同环境下的识别准确率和抗噪表现。

最终测试结束后,全新绅宝D50比排名第二的测试车,还要多一个准确识别的结果,虽然此次测试包含了很多人为因素在其中,使结果只能作为模拟条件下的参考,但依然说明搭载了专业的DSP音频处理器和车用MIC阵列降噪技术的全新绅宝D50,足以应付日常生活中高速行驶、开窗、开空调等复杂声音环境。

人机交互技术的发展将大大丰富汽车在生活中的角色

事实上,车云菌通过以上测试发现,在汽车的智能化程度越来越高,越来越朝“私人出行助理”角色发展的趋势下,不但汽车设计师必须对消费者的未来需求有更加准确且前沿的预测,而且传统的汽车产业,还需要开发出更多的全新领域并面对更难的技术标准。

就比如说,全新绅宝D50上有一个功能非常有特色,就是消费者可以在购车后把出厂默认“你好!小绅”唤醒语修改为自己喜欢的词汇(譬如家里宠物的名字),虽然在用户层面上来说,这个功能看起来就跟设置电动座椅的位置记忆一样简单,但是在技术层面,技术工程师却需要利用深度学习技术,让车辆学会识别用户声音的每一个特点,从而做到精准拾取。否则,在技术不成熟阶段就推出这个功能,除了会让用户在特殊时期声音变化导致车辆唤醒失效之外,还可能因为一些极偶然的操作,误触发唤醒指令。

根据车云菌与现场技术工程师的交流结果,类似让车辆学习用户声音的这种技术,已经逐步趋向于成熟,在未来,如果该技术能保证更加准确的识别率,其将有能力和指纹识别功能一起,担负起一些安全智能方面的工作。譬如说,科幻电影中利用指纹和声音识别用户并启动车辆的场景,在未来就可能会变为现实。

timg.jpg

此外,像“智能语音交互技术”在智能车机系统中的引入,也让汽车在当下开发出了全新的功能领域,拿之前向全新绅宝D50发出“我饿了”的指令后,车辆不但可以判断出你需要找饭店吃饭,并给你列出周边的餐饮饭店,同时还能把搜索结果按照价格、距离和评价来排名为例。此时这项功能的实现就需要引入第三方的服务,这将为传统汽车功能提供诸如导航、违章、生活娱乐资讯服务等额外的数据附加值,从这个角度来讲,汽车在未来确实是在向“出行助理”的角色贴近。

语音识别未来必然要与AI结合

当然,在最终测试结果中,虽然全新绅宝D50的测试成绩在所有的四辆车中遥遥领先,但这并不能说明其使用的技术就已经达到了趋于完美的状态,毕竟,目前“智能语音交互技术”对用户的语言识别,依然是以关键词为处理线索,并不能达到理解语义的程度,在这里,车云菌以下面的两句话为例:

1、爸爸举不起儿子,因为他很重;2、爸爸举不起儿子,因为他很虚弱;

在这两句话中,两个“他”分别指代不同的人,对目前的“智能语音交互技术”来说,尚不能根据具体的语境来分析出两个“他”应当分别指向儿子还是爸爸;但是在未来,如果该技术能和AI技术实现结合,就能让汽车通过语境来分析出两句话中的两个“他”各应指代不同角色了。此时的“智能语音交互技术”也将会变得越来越强大,并且成为衔接用户与自动驾驶等重要功能的核心工具。

所以,眼下围绕汽车的未来新技术虽然层出不穷,但万变不离其宗,任何功能的实现都离不开驾驶员和车辆“沟通”的这个环节。因此,像“智能语音交互技术”此类的技术,将成为未来汽车新技术实现的前提技术,并将得到越来越多的重视。在这方面,得益于本土化供应商对消费者习惯的分析,场景的理解,包括对语言的深入学习,自主品牌汽车制造商或将籍此拥有一个与国外汽车品牌竞争的有力工具。

相关标签:
北京汽车
语音识别
  • 车云星
  • 空间站
  • 福特星球
  • 虫洞

加料 /

人评论 | 人参与 登录
查看更多评论