6月4日,“2020首届软件定义汽车云论坛”以网络视频直播的形式顺利召开。本次论坛主要围绕“软件定义汽车”趋势下企业的思考与战略选择展开探讨,为业界搭建一个沟通、学习的平台。下面是亿咖通智能生态事业群副总经理孙晓欣在本次论坛上的发言:
大家好!现在由我来给大家介绍一下AI语音推动车载大脑升级。首先介绍一下我叫孙晓欣,目前是亿咖通科技负责智能生态事业群的副总经理,同时我也是亿咖通科技AI产品中心的负责人。
亿咖通科技是个非常年轻的公司,成立于2016年,吉利控股集团战略投资、独立运营的科技创新企业。总部在杭州,上海是AI产品研发中心,北京、大连、武汉、瑞典都有研发中心。整体来说,亿咖通科技是一个以技术推动的科技型公司,
80%以上的团队成员都是研发、技术人员。
亿咖通科技业务主要是涉及在智能座舱以及智能出行这两块,通过人工智能、边缘计算以及其他一些技术的整合,希望给中国的车联网事业添砖加瓦。
在2018年3月,亿咖通科技发布了GKUI吉客智能生态系统,截至到2020年4月份,GKUI用户规模已经超过了180万。在线时长每天是将近1小时6分钟,整体的用户活跃度、用户规模以及消耗流量非常大。
为什么车载语音能够推动车载大脑的发展呢?语音交互在车内的发展是很早就发生了,早于任何人的想象空间,并且近几年来车载语音发展的非常迅猛,业内普遍认为语音交互是车内的刚需。但其实早在2001年的时候,就有海外品牌已经推出了最早的语音系统,我将其定义成第一代车载语音。那时候是通过车控按键去激活语音系统,语音系统只是纯本地,只能支持一些离线的固定命令词,比如说打开这个应用,如果不按照固定命令说,如想打开什么程序、我想打开什么程序这样的固定命令词则根本没法识别,并且只能支持有限的命令词,还有就是一定要按照说法一字不差地说。2001年虽然出了语音产品,但用的人很少,几乎没有人注意到。中国这段时间发展比较快,2011年是真正意义上第一个里程碑,国内品牌推出第一款智能语音系统。
这个阶段虽然用的也是一些离线的命令,但不是用固定的命令词了,能支持几百种、上千种说法,这个时候2.0车载语音和1.0相比还是离线,但是说法可以更自然一点,用比较收缩性和较强的语法方式,一定程度上能做到用户可以自由说,只是依旧还是纯离线的,而且覆盖范围不是很大,这是第二代。
从第二代开始速度越来越快,大家可以看一下,2016年7月份,这时候真的是里程碑的时代-互联网汽车概念诞生了,那时候采用的离、在线融合,在线功能比较丰富的,离线偏少,语音唤醒的方式,不用硬件唤醒已经开始用在产品中,语音识别是既有本地语音识别的方案也有云端语音识别方案,还有云端自然语音理解以及意向性说法。比如说我没有明确的指向,我很饿,或者我很热,有意向性,都可以通过混合的方案能够进行操作。第三代车载语音产品的确是个跨时代的,真正意义上能够接入车联网概念,车联网云端服务的概念,主体还是以云端为主,本地辅助的。
亿咖通科技是2016年成立的,并且非常迅速的在2018年初的时候就发布了GKUI,当时也采用了离、在线的语音方案,这个方案是全家桶的方案,从语音唤醒到识别到自然语义理解是一套完整的方案。亿咖通科技发布的2018年的GKUI也是属于第三代车载语音,在发布一年内,便突破了一百万用户,2018年全年有7.2亿次唤醒,通过数据可以看到用户还是愿意去用语音的。2018年每天活跃用户对车机交互是3-4次,虽然和2020年现在车联网产品相比可能是微不足道的,但真正实现了用户愿意用的场景。第三代的语音产品已经把不怎么好用、不舒服的、离线的方案,变成云端为主,本地辅助的更自然的方式,这就是第三代车载语音的主要特点。
随着脚步的越来越快,我们快速进入到第四代车载语音,也就是去年我们在2019年7月份在北京发布GKUI19,可以说这代表着亿咖通科技的语音2.0时代。在GKUI19中,有亿咖通科技自研的一套自然语音理解的技术方案,GKUI19语音技术方案里已经有多元融合,用户可以自定义问答一些问题,个性化更强,整个自然语音理解,对于跨领域,上下文理解以及多条线的查询做到比较高的水平。
GKUI19发布后明显能看出用户交互量以及活跃度大大提升。GKUI19跟2018年的GKUI表现相差非常大。从2020年4月的数据,智能语音助手调用量日均唤醒能可以达到六百万次,而云端的交互量能超过700万交互量。从这个数据量级去看,这套语音方案云端和本地的交互已经到了非常均衡的程度,不仅突出了离线的能力,同时也利用了一些云端的能力,所以和第三代车载语音相比,云端和本地的平衡感做的更好,但不是完全依赖云端的服务。
同时,GKUI19系统的活跃用户相比之下的日均交互大大提升了,从老版本的3.4次提升到11.7次,证明我们的用户还是非常喜欢用语音的,日均交互量还是比较高的。
而我认为第四代的车载语音中的语音交互不只局限在车机里,而是构建了人、车、生活,在车内、车外和人之间做了相当大的融合,通过亿咖通科技自研的自然语音理解,我们发布了ECARX AI云大脑,支持超过了一百多个语音垂类,也支持多条在线查询,整个“语音大脑”本身有自学适应能力,用户用的越多产品会越来越聪明,同时智能终端多场景互联,包括家里的家居、手表和手机APP,都是可以无缝连接的,所以第四代车载语音是跨平台的。我们推出了一系列语音服务平台,包括语义开发、数据标注、算法、大数据平台,可以完整的给主机厂提供多样化的能力,为主机厂定制。
这其中,亿咖通科技自研的自然语义理解领域超过了60个,主要涉及点还是在出行相关或者是车控相关的地方。通过ECARX的自然语义理解的能力,可以无缝融合头部其他厂商的技能,比如说像百度百科、美团外卖、京东、百度的智能家居等等。那么这样能够带来什么呢?我们把在互联网企业里比较好的技能能力都能无缝融合在一个智能生态里,用户可以选择他们想要用的服务。
GKUI19里有一个语音魔法书的功能,现在所有的人工智能都是一个非常垂直的领域,垂直领域代表不可能所有东西都知道,对于专长技能,比如说导航、出行以及周边相关的是比较了解的,但是一些其他的百科类,或者是一些不懂的知识,一般的语音助理并不懂,但是用亿咖通科技自研的自然语义理解,在过滤一些无效信息的时候,有一套自学习系统,可以在24小时之内训练,几乎全自动的训练方式,之后就可以形成对用户问题的知识反馈,下次用户说到类似的知识点,就很容易地告诉用户系统学习到了哪些内容。再举个例子,每一个GKUI用户都有自己的专属ID,未来可能换一台搭载GKUI系统的吉利品牌车,把自己已经绑定过的ID输入进去,用户在过去所有学习过的东西都能够推送过来,不用从零开始,这是一个很好的继承关系,这就是语音魔法书的总体概念。这套语音方案,已经适配在搭载GKUI19系统的吉利汽车。
无缝融合第三方,亿咖通科技自己内部的技能以及百度的技能,比如说人口查询、双色球开奖号码、天气查询以及股票查询功能。对于用户来说,所有的唤醒词都是你好吉利,就是车厂定的唤醒词。给用户带来的非常直观的感受就是这个系统知道很多技能和知识点。但是用户不会感受到这个知识点从哪里来,我们希望做无缝的用户体验,整体的人工智能水平能够提高,这就是无缝融合的概念,现在很多其他的语音能力方案如百度小度或者是天猫精灵,我们其实已经整体融合起来了。
目前,也有很多系统每一条交互或者是命令都需要说唤醒词,而在GKUI19上亿咖通科技已经做到了连续对话。如出行相关的,要查飞机票,要查北京到上海的飞机票,下一句可以跟着换乘火车票,一等座,目的地的天气,不需要唤醒词,而且是跨领域的,跨技能的,同时可以查询到天气,以及适合洗车吗?系统是有上下文语义理解的,这也是在GKUI19里主打的,让用户和机器交互能够尽可能地像人和人交互。
第四代车载语音还有一个是多终端融合,这是我们和喜马拉雅合作的一个场景,比如说回到家的时候可以对着智能音箱或者对着手机问车停好没有,它就可以查车辆的状态提醒你,就可以云端进行操控,这就是把智能家居全部打通。
在去年7月份GKUI19的发布会上,我们也推出第一代ECARX X WATCH智能手表的概念版,除了是个智能手表之外,同时把车控以及把一些语音操控能力融入进去。语音操控和车机是在同一个云上,可以做到手表和车的互相控。我们认为未来的出行场景,不只是局限在车上。
亿咖通科技的语音语义服务平台也是赋能的,我们打破了全家桶打包的产品方式,我们希望给车企有自己可控的服务,要不然大家做出来的东西千篇一律,除了界面上的变化,用户体验没什么大差别,尤其是有些厂商还有自己的服务,怎么办?所以,我们建立了一套开放一站式的语音服务平台,包括你可以开发你自己的自然语义理解的技能,包括你自己可以配置文本,分析自己的用户数据,然后进行下一步对于产品的反哺,包括数据,可以自动标注一些好的优质数据。数据不只是可以为AI数据平台提供支持,同时可以不停反哺算法,让算法模型可以根据个性化的训练提高效率,我们的自学习平台的基础,包括持续集成平台,因为语音的迭代比较快,而且语音性能是统计学的概念,需要大量的数据去喂,需要大量的方式去测,而且是重复测的方式,可以把标注完的数据,训练完的数据和进行快速迭代,这是我们在第四代车载语音里做的方式。
第三代是以云端优先,本地为辅,第四代逐步增加了本地的比重,同时打开了这个场景,不止在车内的场景,还有就是提供一些To B的平台,可以让厂商自主定义,避免一些用户体验的雷同。
下一步亿咖通科技在做什么呢?我们认为是第五代车载的AI语音助理,会在适当的时候推向市场。第五代车载的AI语音助理进一步加强本地的自然语义理解。
亿咖通科技投入了大量的研发能力在本地的自然语义理解和引擎上做突破,然后在云端训练本地部署的个性化上做突破。同时还有一点很重要的是现在所有的语音助理跟着车机更新才能更新,所以产品的SOP之前面对的用户是主机厂,但是真正意义上的语音助理本身是人机交互,最后用户感知应该是实际的车主。但是在过去,语音更新程度比较慢。而亿咖通科技的第五代车载AI助理将能做到全生命周期管理,即使产品SOP之后,语音助理还是可以进行迭代更新,在车主用车的生命周期里,只要硬件能够支持就能持续迭代,实现更好的服务、个性化以及使用习惯更新到本地。这样能够避免如果没有网的情况下语音助理就傻掉的问题,同时因为加强车机端边缘侧的能力,可以让人机交互更快。人机交互第一点是快,如果等两三秒才能回答,就会感觉交互不是很爽快,希望人机交互能更快,加强边缘侧的能力比云端更快,服务更稳定,语音助理通过个性化学习也就更懂你。所以,从我的角度归类,2018的GKUI是亿咖通1.0,第四代GKUI19就是2.0的时代,第五代的车载AI助理将开始尝试脱离语音概念,成为一个真正的助理概念,将会是亿咖通3.0,这是我们如火如荼的干了一段时间了,会在合适的时间对外公布。
在线的AI语音技术有一些应用的瓶颈,包括延迟。像唤醒这样的事情,很多方案还要跟云端进行匹配,唤醒对人机交互,对延迟非常敏感,这个在线技术是没法解决的,本地的系统能耗、带宽和云端的带宽要求都非常高。
能耗大家可能没有这个感觉,在云端建立一个CPU和GPU的训练服务,以及能够加速一些云端的AI技术,其实对于你的费用和能耗非常高。还有一个问题是隐私的问题,很多功能都从云端进行操作的话,大家可能没有留意到大部分车机上,如果你的手机通讯录在云端被封了,这时就会产生一个非常大的隐私问题——数据安全的问题。
同时,从在市场及用户得的回馈就是没有网的时候系统比较弱智。有了离线自然语义理解能力,本地实现人机交互的流程,对话管理和云端的流程对话管理差别是很小的,不管是有网还是没有网,用户体验还是保持一致的。
低延时也说了,本地计算速度怎么都比云端来的快,所以我们在离线自然语义理解和推理引擎,对于本地的算力进行了优化,速度会更快。也是减少了云端的负荷,同时本地的算法是可以增量OTA升级,一直到硬件生命周期的晚期,是可以进行OTA的。就像应用程序的更新一样,会根据你的用户习惯来训练你自己的模型,然后在云端去训练完了以后在车机上部署,就可以做成一个本地是个性化的小脑,云端是通用的大脑。
高可靠度,毋庸置疑,因为你在本地,不管在何时何地用户的隐私也好,数据安全也好都能得到满足,这也是提升用户满意度的维度。
因为现在要做到本地的自然语音理解需要有本地听写引擎的配合,整体来说都是基于深度学习网络,你要把算法用的最好,其实还有算力的要求,如何解决这样的问题。亿咖通科技也做了一些布局,把算力和算法做了融合,其实我们已经做了车规级的AI语音芯片。这个芯片进一步地释放了车机芯片的性能,大家现在知道车机芯片既要支持高清的视频、高清度的导航甚至还要一屏拖三屏,对性能算力的要求越来越来高,可目前车机芯片处理能力跟手机还是有很大的差别。
其实语音这个东西非常有意思,语音方案是常驻在内存里的,包括降噪,回声处理一直在运行中的。这样就会产生一个问题,不管何时何地都要去反馈你的唤醒,造成系统总要留出一些算力给到的语音操作,当车内的噪音不同的时候对于芯片算力的要求还是不一样的。这个怎么办,甚至包括高清地图、高清音乐视频以及一系列涉及语音功能。整体来说,如果放在一个算力不够强的芯片上,就造成非常卡,用户体验就大打折扣,所以我们为了进一步提高人机交互的速度以及计算资源,研发了一款车规级全栈AI语音芯片,目前已经流片。目的是把所有的边缘引擎都放在这块芯片,释放了主控资源的20%-35%,这样用户体验就比较流畅。这个芯片里有深度神经网络的加速器,所有的语音引擎都基于深度神经网络,就可以把主控芯片里的云能力提高到60倍以上,所以这也是我们的研发投入之一,我们是希望能够做一个全栈式的语音解决方案,既不占CPU,人机交互非常快,同时运算力也好,成本也好,上市周期也好,都能达到非常好的平衡。
芯片其实是我们第五代语音AI助理的衍生,希望能做的更好。我们回顾一下第五代车载语音助理,就是在边缘侧大大加强,以本地为主,云端训练,本地部署,个性化的,同时是全生命周期管理。后一代怎么样呢?因为本地越做越强,人机交互最终就是人人交互,你要听得清,看得见,说得出,想得到,还要有一个能够推理的脑子。我们估计到第六代不是简单的助理,第五代是在云端做通用的知识库大脑,本地作为小脑。第六代车载助理就变成车载AI大脑,这个大脑里不只是有视觉、听觉、情感、声音、自学习,都是融合在一起,让你的人机交互更像人人交互。那时候自动驾驶,L3以及L4可能还没到,其实已经逐步在改善人在车里面的用户场景,不是简单司机开车,可能会变成更为高效,或者第三移动空间的场景。
到第六代就会是终点吗?当然不是,当L4、L5到来时,整个驾驶习惯改变的时候想象空间是很大的,到底第N代的车载是什么样子,可能就是是一个类似电影钢铁侠中贾维斯的虚拟形象存在,还是有其他方式,以及5G对于第N代的车载AI能发挥什么作用?应用怎么调整商业模式怎么变化?大家都看不清,可预期的肯定是在本地越来越强,服务越来越充分,甚至可以把你的车内空间变成一个会客空间、办公空间,甚至把一些虚拟现实或者增强现实整合起来,最终第N代的车载AI怎么样?大家都不知道,那么如何能够实现呢?也希望车联网的各位同仁一起努力,能够把车载AI的能力进一步提升,需要上下游厂商的一起努力,从算法、从应用,从电子电气架构,从传感器以及网络配置,整体做到非常融合的阶段,我们对于未来还是未来可期的。
问题1,对于车内应用商城有什么看法?
孙晓欣:亿咖通科技目前已经建立自己的应用市场,有很多第三方互联网应用在逐步上线。我个人认为,车内应用商城是肯定的,车到最后其实是个连接性的东西,随着出行空间和用户习惯的调整,在未来是可期的,应用商城不管在商业模式还是在生态上会起着非常大的作用,也就是亿咖通为什么有专门的团队负责应用市场的开发,以及引进更多的互联网资源把生态建立起来。
问题2,亿咖通产品与科大讯飞的语音系统对比情况如何?
孙晓欣:这个问题很好,也是我专业领域之一。2018年GKUI的时候我们用的是讯飞的方案,软硬件一套做的。亿咖通科技并不是个语音技术厂商,我们虽然在语音有一定的累计和技术,但从领域来说我们和讯飞不是竞争对手,而是合作伙伴的关系,甚至有些东西我们还部分用了讯飞的技术,比如说讯飞的TTS技术,还是不错的,我不认为讯飞是竞争对手。
为什么亿咖通会内部自研,一方面有很多东西,为什么我们做融合大生态,我们也知道有些东西我们做不了,比如说识别和处理不是我们的强项,也不需要我们去做,需要我们供应商伙伴跟我们一起去优化,适应各种智能场景。我们主要放在NLU和推理这里,希望能够在车内的场景里去挖掘一些用户有用的信息和用户习惯,帮助我们今后的运营和产品反哺,我们尽量希望不要因为从语音的技术架构来说没有像以前耦合性那么强,如果只用一家会造成大家都比较雷同,就是界面的不同。我们有核心技术,但不是为了成为语音技术厂商,而是希望找核心技术有一些自己的基因,做自己想做的事情,改善自己的产品力或者做一些深度的东西,这是我们为什么有自研。但是我们并没有涉及到其他语音的链路,因为语音的路特别长,包括麦克风、本地识别以及云端识别,其实我们都是没有去碰的,我们都是借助最好的合作伙伴做生态。
我们这样去做,希望整体亿咖通科技的产品很有竞争力。
问题3,亿咖通对于非吉利品牌的语音推广有计划吗?
孙晓欣:不只是有计划,而是已经有步骤了。在今年年底到明年初的时候,大家可以看到非常多的非吉利的品牌已经用上了亿咖通的技术,其中有一个东西可以跟大家透露一下,其实已经上线了,大家没有感知到。现在我们跟一个世界级知名汽车品牌合作,目前他们所有中国区车载系统的云端语音技术是由亿咖通提供的,而且已经上线。目前,关于这个项目的合作信息也会在近期正式公布。
对亿咖通来说,我们是一家全面开放并对面对整个汽车行业输出技术能力的企业,并欢迎所有的合作伙伴与我们合作。
问题4,亿咖通产品需要4G,5G在车端实现吗?3G可以有很好的体验吗?
孙晓欣:现在所有的车机都是4G的,有大量丰富的娱乐资源,包括K歌,包括视频,包括音乐都从云端过来,我们还会坚持在互联上继续投入。刚才我们说的为什么要加大边缘侧,那是从云的角度来说,具体原因说过了,包括一些延迟性、带宽隐私、投诉和安全,其实我们在进行投入。
3G跟4G理解就是网络速度更慢一点,3G对于高清视频支撑不了,所以3G不是我们的考虑范围,至少是4G,但语音整个产品规划会逐步加强本地边缘计算的能力,也就是车机端的计算力。
问题5,四代对于CPU的效率要求有多少?
孙晓欣:这是非常好的问题。亿咖通已经发布车载娱乐域芯片,GKUI19发布会上E01芯片已经正式发布,算力还算比较高,并将持续推出E系列的后续芯片,算力、性能也会持续提升。因为有了算力支持,所以才能给用户提供丰富多彩的娱乐服务以及对于带宽要求比较高,计算力比较高的用户愿意去买单的服务,并且随着边缘能力越强,也就能够集成比较好的用户体验。
问题7,云平台是自建吗?
孙晓欣:亿咖通科技云平台是自建的,当然有一些部署在阿里,或者有一些是部署在独立第三方,同时我们也有私有云平台的,比如说地图数据或者用户数据都是自有平台。我们也没必要所有都自建,毕竟生态在这里。
问题8,芯片算力在提升,并逐渐演变成域控制器,语言芯片是独立还是更集成?
孙晓欣:都有,虽然我们做的是语音芯片,以后的芯片肯定是多模态的,能够支持车载大脑的芯片,这个芯片肯定是比较独立和专业的,其实是有点不一样的,很多人做AI芯片,但是AI图形和AI语音芯片是两个不同的东西,图形芯片要求大规模节点比较多,可以大规模并行计算。但语音不是,语音是持续性很强,是时间维度的,虽然大家都是用深度神经学习网络,但语音和图象用的是不同的方式,将来这方面会逐步统一,目前来说,AI芯片还是比较专业和独立的。
后续可能集成更多一点,从我个人角度来说存在独立和专业的芯片,专做GPU的越做越专,同时集成也是有的,根据不同场景以及不同应用会有不同的体现,两方面都会存在,只不过全集成还不行,因为NPU的算力在比较好的车载芯片还是相对比较低。
问题9,怎么看待5G对车载的前端改变?
孙晓欣:改变肯定很大,5G影响最大的是自动驾驶和车路协同,5G的边缘计算把算力不是在云端,而是在车路协同的器件里,我觉得5G的影响的是智能出行,车路协同或者是L4、L5。
问题10,GKUI系统的单一服务提供商会提供多个选择,比如说导航?
孙晓欣:我说一下目前的情况,GKUI19里,我们的导航是百度、高德和腾讯三家都有,用户可以自己选择。高德地图目前在GKUI中集成程度最高的,跟整体的语音全部打通,跟整体服务全部打通。其他两个地图当然也做了一些集成,但集成程度没有高德那么高。我们逐步统一化,我们希望不管是预装的还是第三方的,尽可能地用户体验一致。简单地回答,我们是提供多个选择,包括音乐和导航也提供多个选择。当然,语音没有提供选择。
问题11,目前亿咖通和吉利的销售模式怎么样?
孙晓欣:很简单,就是传统商业模式。当然,亿咖通是吉利战略投资,所以吉利还是给了很大的平台,让亿咖通可以去施展,希望从软件定义硬件,合作还是比较愉快的。虽然吉利战略投资,但亿咖通科技实际上是一家完全独立运营的科技公司。
问题12,亿咖通语音生态目前对标是哪家?
孙晓欣: 这个问题在GKUI19做完以后我也问自己,对标对手到底是谁,后来发现在车载里不能说没有竞争对手,而是我们大家做的比较雷同,但是没有突破,也许你这个功能好一点,也许你那个功能好一点,不是致命的。现在的语音助理特别限制在语音助手的框框里。我一直认为语音是连接性的,语音和车相连就是车控,语音和服务相连就是信息类的,股票、天气。语音和服务相连就是外卖、导航,是个连接器,应该跳出语音助理的概念是连接器的概念,从这个角度上来说,当然我们也会看我们的合作伙伴以及可以给我们对标的厂商,同时我们也看一下手机厂商,其实发展是非常快的,手机厂商有一些好的理念我们是不是可以借鉴,随着我们的迭代速度越来越快,在车里的语音助手,AI助理和语音助理在场景上完全不一样,我觉得要靠摸索,要不停地试错,快速迭代,这就是为什么要做到全生命周期管理,我们要快速迭代,最后的突破还是看在车载语音里有什么突破,而不是简单去学别人,学别人永远不能站在业界最顶端,这也是需要大家一起努力的地方。
问题13,吉利会更侧重5G吗?
孙晓欣:吉利的情况我并不清楚,需要去问询吉利。但是,亿咖通科技对5G比较看重,肯定是优先的。
问题15,亿咖通怎么考虑投入产出?
孙晓欣:亿咖通科技还是在投入期,但是亿咖通目前的运作商业模式比较清晰,团队还是比较整齐的,装机量与业绩也是逐步增加的。亿咖通科技是服务于整个中国汽车市场的,虽然我们已经拥有180万用户规模,但是和手机用户比起来差太远,我们希望能够有更多用户的参与,让我们整个生态和产品力得到提升。所以现在投入产出肯定会考虑,但是前提我们还要把产品做好,如果一个用户每天需要用非常多的语音交互,还需要在用户触达上多做点文章。
最后,非常感谢盖世汽车的邀请,虽然通过此次受限于网络形式与大家交流,希望大家能够理解,也希望我刚才演讲的内容给大家带来一些启发和益处,今天我的演讲就到这里,谢谢大家。