9月25日至28日,2021世界智能网联汽车大会在北京召开。本届大会围绕产业再造、融合应用、和合共生三个篇章展开,设有开幕式、主论坛,以及7场主题峰会、6个特色专场和2场闭门会,共邀请包括1位图灵奖国际专家、7位国内外院士、近150位国际国内智能网联汽车及ICT领域专家、企业家参与演讲探讨。以下是北京四维纵横数据技术有限公司CEO 姚延栋的演讲实录,供参考。
北京四维纵横数据技术有限公司CEO 姚延栋
演讲内容:
大家好,我是四维纵横的创始人兼CEO姚延栋,今天很高兴到会议上给大家做这个报告,我报告的题目是超融合时序数据库软件定义汽车的数据基座。不知道大家有没有听说过数据库或者知道数据库这样一个东西,可能更多的是在卡脖子技术里面听到数据库这个词,IT主要有三大基础研究领域,第一个就是芯片,第二个是操作系统,第三个是数据库,数据库和汽车有什么关系?汽车现在越来越多的和数据库产生关联,特别是智能网联汽车,像今天大会的题目就是智能网联汽车和数据具有紧密的关系,智能来自于哪?智能肯定来自于数据做基础,网联联的是什么,传的是什么,传的是数据。汽车慢慢变成一个数据的源头,所以说智能网联汽车和数据具有非常紧密的关系,今天我们就来分享在这样一个场景之下,我们怎么样通过Matrix DB使得汽车的数据到洞察可以成为简单的问题而不再是复杂的问题。
我们公司的团队都是来自于Greenplum的原厂,给大家介绍一下Greenplum,Greenplum是一个世界知名的产品,在国内包括国外都有大量的商业用户和开源用户,商业用户覆盖的行业包括银行、证券、保险,甚至是通讯制造业等等各行各业,开源的产品在国内也有大量的用户,包括京东,京东云,百度云,腾讯云,阿里云,都在使用这款产品,在云上提供数据服务的分析。信通院在2019年有一个报告,报告里面称中国50%的分析型数据库厂商都是基于开源的Greenplum实现的,可以看到Greenplum在江湖的地位。我们团队就是Greenplum的原厂团队,我是Greenplum北京研发中心总经理,去年离开公司创业,我们合伙人是Greenplum原来的全球产品总监。我们这个团队也是完整的经历了一个数据库的十年,从数据库的跟跑者到陪跑者到领跑者的过程,我们可以看到上百万行代码,但实际上我们看不懂,所以只能采取农村包围城市的策略,我们做外围,慢慢我们取得总部的信任,就可以做内核的模块,从一个做到两个,到我们离开的时候,Greenplum整个内核模块已经都是由中国的团队来开发和管理。
我们可以看到Greenplum6.0,里面70%以上的内核新特性已经是中国团队研发的,这也是我们团队十年来比较自豪的地方,十年的过程虽然长,但是我们培养了一个世界顶级的数据库内核团队。这是我们公司,我们公司是一个沉甸甸的年轻公司,说年轻是因为我们是去年开始成立,到今天也就一年多一点。沉甸甸是因为我们整个公司所有的团队的成员都一直在从事数据库内核的开发,到现在也是十多年的经验,所以也是过去的沉淀在新的形势之下一个结晶,现在是物联网万物互联的时代,在这个时代数据库的需求是和以前的数据库有很大的不同,这个最大的不同就会带来新的挑战,我们为迎接这种挑战或者应对这种挑战,我们提出了新的理念叫做超融合时序数据库,这是国内第一次提出数据库的新理念并且实践。我们是去年8月份成立,1月份发布全球第一款超融合时序数据库,4月份完成天使客户接单,他是一个海量数据采集点,大概达到千万级别,每个采集点一次采集大概一百个指标,可以算出来整个量是非常大的,要达到10秒级采集频率,对国内外很多产品做了测评,最终选择我们的产品。
5月份发布4.0,6月份发布4.1,8月份发布4.2,这个过程中我们和麒麟软件等企业达成战略合作,同时我们的客户数有了非常好的发展,到现在成立一年用户数已经超过了100。这里有多家汽车行业头部公司,后面场景案例的时候也和大家分享一下。
说到现在什么是超融合时序数据库,说到时序数据库首先要理解时序,首先介绍一下时序的概念,这是一个例子,以冰箱作为例子,这里有几个概念,第一是冰箱会有品牌,会有产地,有上市时间等等静态的属性,都被称之为标签。冰箱也还有动态的属性,比如温度、湿度、耗电量,称为指标。这些指标在每一个时间点的采集点组成的数字序列,就被称为时序数据,也就是说时序数据就是时间序列的数据,其实就是非常好的结构化数据。这个数据为什么重要?是因为在物联网、车联网、工业互联网时代,主体数据就已经变成了时间序列数据,对于这种数据的处理变得至关重要。
2020年有一个报告生成全球联网的物联网设备已经超过了联网的非物联网设备,到2025年联网的物联网设备将会达到非物联网设备的3倍以上,我们可以看到这个量是非常庞大的,设备数量如此快速增长,意味着数据量的爆发,这还是数量本身。第二是设备是不知疲倦的,和人产生的数据有本质的不同,人的行为造成一些数据,所以是被动的方式,设备产生数据是主动的方式,这两种方式的差异会造成数据量另外一个层级的不同。所以未来会面临着全新的挑战,我们可以给大家介绍一个场景,或者大家通过场景可以感受一下,比如一个公司有10万辆汽车,这个规模并不是很大,如果10万辆汽车每秒钟采集一千个指标,一秒钟就会采集一亿个指标,实际上很多汽车采集的数字已经远远超出这个,我看到有些厂商采集的数据高达5000个指标,这样我们就可以做一个简单的算术,我们可以看到一秒钟一亿,一天24小时就可以达到8.64万亿的数据点,一个月下来高达2个pb,如果汽车不是24小时运行,有些汽车是长时间运行的,包括卡车,包括自动运行的卡车,家用车一天两三个小时,我们看三个小时,一天就会产生1.4万亿的数据点。这些数据量大家不一定有一个感受,我们可以举一个例子做对比,数据在银行行业量是比较大的,但是如果举国内腰部以上的银行企业,整个数据中心的数据分析业务的主体数据在100-500个tb,10万辆车一个月就几百pb,这是非常大的数据量,新的数据产生模式就会带来新的挑战,第一个挑战就是数据量这么大,路上这么多车实时采集回来怎么样承接中,你能不能接得住,接得住能不能高效存储,存下来查询效率够不够高,这些都是车联网、物联网遇到的挑战,也是数据库领域和大数据领域面对新时代的问题。
Matrix DB为了解决这样的问题而设计的一款数据库,可以做到实时的采集,实时的分析,并且是一站式,这个一站式就变得非常重要,我不知道在座有没有人接触过大数据或者是数据相关的技术站,大数据里面是非常复杂的,一般都会搭配十几个左右的产品解决一个场景,我们是一个数据库就搞定时序的全场景。实时的采集,可以做到高吞吐低延时,高并发,同时确保数据的正确性,不会错,不会重,不会丢。数据一旦进入数据库非常简单,对于用户而言非常简单了,可以支撑不同的业务,包括数舱的业务等等各种业务场景可以通过数据库来实现,而且接口非常简单。为什么叫超融合?这里有三个点,第一个点可以看到数据库可以存储不同类型的数据,保证关系型数据,包括半结构化数据,包括时序数据,地理位置数据,甚至文本的数据。第二个可以支撑不同的场景,可以支撑各种各样的查询类型。第三个在一个数据库里可以解决很多数据库DIY在一起才能解决的问题,这是超融合的由来。
一个新的产品到客户的时候客户第一个问题靠不靠谱,靠不靠谱我们说了不算,我们寻找第三方评测机构,分了两大类,第一类性能,可以看到Matrix DB特别快,我们寻找多家机构,包括中文社区,包括几家厂商对我们产品做了评测。第二个功能方面,性能好,功能差,功能单一,其实也用不起来,为了综合测评我们的功能,我们去了工信部信通院,做了两个产品的评测,这也是全国国内唯一的一个通过工信部信通院两个评测的产品,一个是分布式分析型数据库能力评测,一共包括27个必选项,24个可选项,共51个选项,我们全部通过。第二个时序数据库能力评测,包括26个必选项,7个可选项,我们全部通过了33项。
数据库是一个比较抽象的东西,可能大家平时看不到,摸不着,后面介绍几个案例和场景,大家感受一下,这个东西是用来干什么的。
第一个场景是新能源汽车造车新势力,它的业务发展非常快,大家如果关注一下最近新能源汽车,特别是头部汽车销量,就会发现销量现在每年都有200%以上的涨幅,这个量是非常非常大的,这么快速的增长,使得它过去的技术站成为瓶颈,没有办法支撑它未来的业务增长。我们提供了一个方案看起来非常简单,底层有很多辆车跑在路上,通过传感器的技术,这个技术是厂商自己的,采集到之后,扔到卡夫卡里面去,通过卡夫卡可以实时插入到数据库里面去,一旦进入数据库,剩下的事情只是语言的问题,可以支撑智能座舱、画像分析、行为预警等各种各样的业务需求,整个方案建下来之后,存储大概一个pb的原始数据,新的方案比老的从硬件成本上节省了80%,过去用了50个节点的集群,现在只需要10个,查询效率最高提高100倍以上,从分钟级降低到秒级。
第二个是电池,电池充放电的数据价值非常大,厂商根据电池的充放电数据做了好几个业务,包括电池健康检查,包括预警,还有工艺流程优化等等,过去架构非常缓慢,用了老的传统的技术架构。新的方案可以看到使用Matrix DB分布式数据库,加上机器学习的分析套件,可以实现各种各样的分析场景,方案落地之后总体数据量在500TB左右,计算开销比过去节省85%,存储开销节省30%,最重要的是时间,过去做一次数据的处理工作,只是一类就需要10个小时,使用新的架构之后只需要一个小时。数据分析的效率比过去有了大幅提升。
这是车队管理的案例,燃油维修和人力成本居高不下,把所有数据,不管是数量的车数据,时序数据还是传统的关系型数据,比如任务的调度,保养记录,维修记录,采购记录等等等等,都汇总到Matrix DB里面去,通过Matrix DB强大的存储和计算能力,提供各种各样的业务支撑,包括一次性维护,备件批量购买,车辆报废预测等等。
这是产品溯源的场景,国家要求建立溯源管理平台,对电池的生产、销售、使用,包括回收利用全过程进行采集,使用了Matrix DB,可以看到非常简单,就是一个数据库,能把所有的数据存下来。硬件成本节省了30%,性能有了大幅的提升。
这是物流的案例,我是大货车司机,需要开发票,这个过程在过去是非常复杂的,现在这个业务叫做网络货运,给厂商提供的是实时定位,位置推送和轨迹查询,可以实现发票合法的开具。在一天的轨迹数据,可以做到500毫秒返回,3天的轨迹可以1秒返回。
前面讲了好几个案例,不知道大家有没有一致的印象,其实我讲了这么多案例,只有一个目的,就是说大数据或者说物联网行业的大数据就应该这么简单,但是过去如果熟悉大数据的人觉得这个东西非常复杂,原因是因为路线走错了,所以我们基于我们对过去数据库十几年的沉淀提出超融合时序数据库全新的理念,目的也就是把极简留给用户,而不是把极简留给数据库本身,留给开发团队,这样复杂度毫无疑问就会扔给用户。所以过去用户投入大量人力物力财力,构建大数据平台,构建大数据系统,最终效果很一般,我们秉持着把极简留给用户的理念,去开发一个超融合时序数据库,把简单留给用户,把复杂度留给我们。
这是我今天的报告,谢谢大家。
更多会议内容,欢迎点击以下链接进入观看:
网站:https://auto.gasgoo.com/NewsTopicLive/358.html
移动端:https://m.gasgoo.com/news/topiclive/358