通过语言和声音来表达自己的意愿是人与人沟通的基本方式,而人与机器间却一直存在着沟通上的种种障碍,如何突破这种限制,形成像人与人之间充满智慧、温情的人机交互则是人类一直努力的方向。iPhone 4S的推出则开创了这种先河,Siri的语音人机互动功能让机器不再冰冷,然而遗憾的是中国消费者还无福消受。不过目前上汽推出了一个应用于汽车上且类似Siri系统的iVoka语音云交互技术,中文的语音系统让国人可以率先体验到人机交互系统的魅力与乐趣。
iVoka是已经搭载在上汽荣威车型上inkaNet系统的3.0版本,相比上一代系统,它的亮点是加入了智能语音交互系统,即通过语音命令来代替传统按键的输入方式。不过这种语音交互方式也对系统提出了更高的要求,如果想取得更好的用户体验,系统就需要准确的识别人类语言所要表达的意思,同时做出合理且人性化的反馈,而且系统的思考时间也不可过长等等。当然要实现这些并不容易,我们可以把这些目标看作一个标杆,越接近它,就说明这套系统的人机智能化越发达和人性化。
目前iVoka系统可以对打电话、发短信、导航、资讯查询、听音乐、听广播实现语音控制,其它功能暂时仍需要手动输入指令,下面我们就来看看iVoka语音控制功能的表现究竟如何。
简单来说,我们可以把装载在车辆上的这套iVoka系统看成是一部安装有安卓系统的智能手机,通过触摸式屏幕我们可以对其进行随心所欲的控制。其中的人机交互系统,更像是你的一个贴心助手,对你的命令或者需求作出相对人性化甚至是幽默式的回应,而且用户无需拘泥于死板的语法结构,只需用简单或者日常用语向机器表达自己的诉求。
● 接/打电话
要实现这个功能首先需要通过蓝牙将手机中的联系人信息传送到iVoka车载系统中,通过语音命令iVoka来拨打电话。当有电话打进来时,系统也会通过语音来询问用户是否接听此电话。
● 接收/发送短信
通过语音来发送和获取短信内容,可以使驾驶员的注意力更多的集中在车辆驾驶上。但是在语音输入短信内容时,用户必须使用标准的普通话(当然也不至于到新闻联播的水平),否则系统会产生错误识别的情况发生,同时由于中文多音字的原因,也会偶尔使系统对用户的语音命令产生误解。
● 导航
进入导航功能后,在搜索具体目的地时有两种途径,一是通过语音与iVoka车载系统进行人机交互;另一种则可以远程呼叫客服人员,通过人与人的沟通,将目的地信息下载到导航地图中来实现车辆导航。
● 资讯查询
通过语音交互系统可以实现的资讯查询包括了当前时间、日期、某城市的天气情况以及航班信息,应该说内容相对有限。不过随着功能的逐渐丰富,未来还会加入如股票、新闻等更多的可以通过人机交互系统来完成的资讯查询和获取。
● 听音乐、广播
收听音乐分为两种情况,一是读取本机,即SD卡上的音乐文件,并且可以通过语音命令直接说出想要听的歌曲名称,此时iVoka系统便会播放此音乐。另一种是通过系统的3G网络在线收听网络音乐,只是还不支持网络音乐搜索功能。
收听广播时,用户只需说出电台的频率,系统便可直接转入相应的电台,同时可以将喜爱的电台通过语音命令进行收藏。今后用户还可以发出“收听北京音乐台、北京交通台”的类似指令,让系统直接跳转至对应电台,无需用户记下电台的频率。
● 像操作智能手机一样来实现其它功能
这套iVoka车载智能系统采用开放式的安卓系统,通过安装各种第三方软件可以丰富它的功能,再加上触控式的屏幕,对于年轻人来说,上手很容易,且就像操作智能手机一样轻松自如。
● 日后与CAN总线的融合为用户提供更多行车数据
● 目前它还像一个两三岁的孩子 日后通过“教育”会让它变得更加聪明和智能化
这套系统目前仍处于测试阶段,所以还存在诸多不完善的地方,而主要问题集中在以下几点:
① 虽然iVoka系统已经可以识别一个意思的多种表达方式,使用户不必纠结于严谨的语法结构,但是由于中文的博大精深,难免会出现无法识别的语言表述情况。
② 目前iVoka系统只支持普通话,而且每一个语音指令都需要用户字正腔圆的朗读清楚,否则系统就会出现识别错误或者无法识别的情况。
③ 系统的反应速度受制于硬件的原因还不够令人满意,用户发出的每条指令,系统都需要至少2秒钟的时间才可以做出反应。
④ 在人机交互系统方面还不够人性化,由于iVoka的语音回复词库是预先植入到系统内的,而词库的丰富程度也就决定了它是否可以像人类交谈那样赋有多种情感。
⑤ 这套iVoka系统通过语音交互来实现的功能还比较有限,像接、打电话等常用到的功能外,其它诸多功能仍需通过传统的手写方式来实现。
目前iVoka的理解力、表达能力以及智商还像一个两三岁的孩子,成人之间的话语可能并不能被它所理解,自然也无法做出合理的回应,更谈不上深入或者带有情感的交流。不过通过不断对它进行语言上的“教育”以及逻辑思维能力的“培养”,相信它会越来越接近人类的智商,使人与机器间实现更轻松的互动。
● 使用费用
该系统采用联通3G套餐业务,头两年免费,其中每月有100分钟通话时间和400兆流量。根据目前所反馈的情况,这样的资费内容可以满足绝大部分用户的使用需求。
全文总结:
这套系统相当于已经构筑好了一个架构或者平台,随着更多新功能的加入以及对人机交互系统的不断完善,未来它的功能会更加丰富且人性化。但是让机器去读懂已经有成千上万年历史的人类语言,并非一朝一夕之事,这种认知少不了对人类文明的深刻了解,只有这样,机器或许才能深入理解人类每句话、每个词的含义,做到类似人与人之间那样充满智慧、温情、幽默的沟通方式。
|