9月25日至28日,2021世界智能网联汽车大会在北京召开。本届大会围绕产业再造、融合应用、和合共生三个篇章展开,设有开幕式、主论坛,以及7场主题峰会、6个特色专场和2场闭门会,共邀请包括1位图灵奖国际专家、7位国内外院士、近150位国际国内智能网联汽车及ICT领域专家、企业家参与演讲探讨。以下是科大讯飞联合创始人、总裁吴晓如的演讲实录,供参考。
图为:科大讯飞联合创始人、总裁 吴晓如
演讲内容:
尊敬的各位领导、各位专家,各位媒体朋友,大家下午好,非常荣幸今天能参加这个论坛,谈一谈我们对人工智能如何助力智能汽车体验升级我们的想法。
智能网联时代汽车提供的功能越来越多,我想提供的功能再多我们都要考虑如何让用户能够感知到,如何能够让用户的体验有更好愉悦的表现。一个用户到4S店或者到一个地方选择汽车,当然我们讲品牌非常重要,除了品牌之外,还要看空间,汽车里面要看一看人机交互做的怎么样,要看汽车里面的音响系统是不是能给自己更好的表现,汽车未来能不能为自己使用全过程中提供更好的服务。下面我从这几个地方提提我的考虑,不当之处请大家多批评。
智能交互方面,是大家感觉非常多的,我们都希望汽车就像我们的朋友一样,我们能跟它进行更加自然的交互,我们不希望我们面对的是一个硬梆梆的机器,我们希望汽车交互起来非常生动,非常有趣。所以我们讲在智能交互里要提供给用户更加自然,就像人一样,我们提供交互的手段要多元化,我们不希望只跟一个好像没有眼睛或者没有肢体动作的人交互,我们希望汽车有一定的人设,就像人一样非常灵活、生动。提到自然交互方面,很多汽车厂商的专家都知道,一般来说人工智能供应商会给它提供很多技术,比如说语音识别、语音合成、语音理解、端点检测等等。我们发现集合这些技术的时候往往会碰到很多困难,形成了一个交互系统的时候,我们发现交互系统在使用的时候用户突然插进来一个插话的动作,或者什么时候机器该发起主动的交互,这时候发现机器很傻,如果能把这些交互做的更好,这时候就需要我们提供给厂商的不应该是一个一个端点的技术,而是我们应该把这个技术有效的整合起来,能够提供最终汽车厂商和用户需要的是一个场景的服务。
现在我们提供最新的人工智能助理不再是一个一个端点的技术,而是把技术整合起来,形成一个智能化的交互系统,这个系统能给最终的用户提供端到端的体验,可以提供多达180多个场景的智能交互最终的服务,这样车厂就不用担心集成的工作量很大,中间很多功能使用不透,这是如何提供更加自然的对话系统。
第二个在和汽车交互的时候,我们不希望它是个瞎子,它是没有肢体语言的,我们希望除了语音之外它有视觉、有手势,我往车上一坐的时候,我开车疲劳的时候他要告诉我要注意行车的安全,当驾驶者是男主人的时候提供的是男主人喜欢的东西,它有个性化,可以跟驾驶者共同成长、共同发展。当驾驶者做一个虚的动作时,播放音响的动作就会停止。智能交互不应该只是一个智能的对话,应该是一个多元化的,应该通过多模态给最终的驾驶者提供一个全方位的交互的体验,这是我们讲的第二个方面。
第三个方面我们希望交互的汽车有人设,是有生命的,它的形象,在说话的时候面部表情、口型能根据他跟我交流内容的语言能作出恰当的反映,有的时候也会产生微表情。年轻人喜欢的和人设相关的道具、服饰,我们在车上都能感觉到。这样我们通过更自然的对话系统,通过更多元化、多模态的交互,通过交互手段越来越像一个人一样,这时候就使得我们可以感觉我们不是和机器,而是和一个和我们一样的有生命的个体在进行交互。这是第一个我们想沟通的,就是如何使得智能交互更容易在汽车里面使用,如何使得消费者更喜欢他,使得最终驾驶者能体验到。
我们希望从单点的技术要走向一个虚拟的数字,现在有很多叫做VPI,让用户和汽车的交互更有趣、更自然。刚才谈到了很多人工智能语音方面,我想我们在这方面希望提供的方案更加完整,我们讲要提供方案,背后要有一系列技术的加持,第一个大家经常谈到语音交互,就是语音识别,现在面向万物互联下,语音识别的能力还要进一步提升,大家可能认为现在语音识别已经够用了,但实际上即便是刚刚参加全球语音识别大赛中,我们最好的成绩只达到了30%,这就是在最苛刻的场景下,非常强噪声背景环境下多人同时说话,能不能把它识别的更清楚,我想以后在汽车上,有汽车发动机的噪声,汽车有多人交谈的时候,我们能不能仍然在交互上有更好的表现,我们需要更好的语音识别系统。
第二个是语音合成,我们不仅仅是单一的语音合成,以后要用最喜欢人的声音给我们进行播报,进行信息的服务。很多人听过效果,这是讯飞虚拟数字人,她可以用65个国家的语音跟你进行各种信息的语音合成的播报,我们可以听一下。(VCR)
现在讯飞已经能提供60种语音合成,69种语音识别,基本上覆盖了全球最主要的语种,我想未来我们的合作伙伴,汽车在全球进行发布的时候,我们都能提供多语种的解决方案。
在图像上面也非常值得一提,我们在刚刚进行的和汽车领域关联度最大的3D的目标检测图像算法,我们在全球刚刚过去的比赛中获得世界最好的记录,以后也可以用在自动驾驶上。其他在图像识别上和手写图像识别上都有非常好的表现,这个对于车内车外进行视觉,进行未来为自动驾驶提供更好的技术服务,都可以提供很好的技术支撑。
一个很好的对话系统需要一个很好的语义的支持,在最近机器语义理解的比赛上,让机器读一篇文章,能不能回答文章中的问题,现在回答问题的准确程度已经到了90%,我想所有语音识别的合成,语音理解的图像的这些技术就可以为我们多模块、为自然的勾画下一步可以提供非常强大的后台的技术保障。
接下来讲第二个问题智能服务,很好交付的背后要给用户提供服务,第一个服务是常规性的信息娱乐服务,信息娱乐服务包含了音乐、新闻各种各样的信息内容,信息内容我们肯定不希望通过命令大段信息反馈给我,我们希望信息服务是应景式的,可以和实际的需求紧密结合起来,应该是个性化的,是我在需要的时候推送给我,现在通过和自然的交互系统对接起来,未来可以给大家提供应景式的信息娱乐服务。我们现在越来越多的车主,一家三口、四口,有上学相关的需求,我想后台在教育系统用的比较强大的教育相关的技术,比如说唐诗宋词的学习,英语口语的学习,以后都可以陆续结合到车里面,给汽车提供更多的特色服务。
现在我们和一些车厂领导沟通的时候,我们车的功能已经不错了,但是到4S店里,销售代表对新功能不见得能介绍的好,汽车人工智能助手可以在未来购买的时候,帮助销售代表给用户提供更好的解答,更好的把我们的东西告诉用户该怎么使用。汽车厂商都希望在汽车使用的全生命周期过程中,不是卖完为主,我们在销售给用户的时候,我们和用户建立全生命周期的链接,汽车一些故障出来的时候用户可以和汽车进行友好的交流,建立起来一个全生命周期的用户和车厂之间全生命周期应用的链接。这是第二个方面。
第三个方面讲一下最近在整个智能声场上的变化,在汽车里想获得非常好音响的体验,可能大部分是豪华品牌车的专享,现在背后很多汽车的音响或者普通音响技术的逻辑已经在发生变化,不再是讲我需要针对一个特定的空间,我要完全靠非常有经验的工程师花非常大的工作量做音响的调节,我们可以把人工智能技术和声场技术结合起来,可以针对一辆车调教一个非常好的音响表现。
实际上通过人工智能针对空间自动的计算和声场的条件,可以让汽车上每一个喇叭,每一个扬声器都可以作出最好的反映,我们可以模拟在最好的音乐厅里面,模拟大剧院里面不同的效果,这样可以把最好的音响效果带到音效空间里面。刚才王坚院士讲到堵车的问题要解决,在没解决之前希望用户在汽车里面有最好的用车体验。
同时我们在车里希望车里非常安静,大家都知道汽车开起来的时候两个朋友进行交谈的时候非常累,未来可以提供主动降噪、强噪的技术,可以让汽车里面形成一个非常思想的、安静的空间,我想这些都是新的技术能够给我们带来的。我们最近已经和上汽、传祺,我们希望未来智能声场,一般的汽车,一些创新走在比较前的汽车都能享受到百万豪车的音响空间。不仅仅是在核心技术上,我们技术目前已经和中国一些主流的一线车厂进行了非常多年的深入合作,我们也有非常强的工程能力,能更快把各种技术移植到车厂中,我们相信通过人工智能不断深入应用,不仅仅带来硬核技术方面的表现,而且能够给用户带来直接的体验的全面升级。
我的汇报就到这儿,谢谢大家。
更多会议内容,欢迎点击以下链接进入观看:
网站:https://auto.gasgoo.com/NewsTopicLive/358.html
移动端:https://m.gasgoo.com/news/topiclive/358