3月31日-4月2日,中国电动汽车百人会论坛(2023)在京召开。4月1日下午,地平线创始人&CEO余凯在会上做了主题演讲。余凯首先抛出了一个问题:ChatGPT在狂飙,为何自动驾驶迟迟未到?
余凯表示,ChatGPT是人工智能有史以来最大的进展,超越图灵测试已经不是问题。但ChatGPT和自动驾驶面临的实际挑战是完全不同的。其一是,ChatGPT所能从事的工作容错率高。自动驾驶,尤其是无人驾驶的容错率几乎是零,出了问题就是人命关天。其二,两者的工作环境不一样。ChatGPT是在云端的计算,在云端有充分的能量供给,同时有非常好的系统。在车上依赖的是电池,依赖的是车端的散热。挑战是很大的,意味着自动驾驶不能用那么大的模型、那么大的计算。
因此,余凯认为,自动驾驶行业开始回归冷静,回归商业价值跟用户价值。从事L4或者是RoboTaxi的公司,无论是Google、Waymo、Cruise,它们的商业化迟迟没有推进,甚至在裁员。福特与大众投资的Argo AI,去年也倒闭了。
以下是演讲实录:
尊敬的万钢主席,尊敬的清泰理事长,尊敬的苗部长,各位嘉宾,各位朋友,大家下午好!
今天我想分享一下地平线对于自动驾驶的计算,对于当前的现状以及未来,特别是从用户的价值出发,去分享一些相对理性、相对冷静但同时又不失对未来张力跟想象力的一些思考。
第一,分享一个当前的热点话题,毫无疑问是ChatGPT的狂飙,但另外一方面,自动驾驶却似乎发展没有那么快,究竟是为什么。
第二,分享一下地平线在技术、产品、商业、生态方面的最新进展,特别是从去年参加了百人会的年会,到过去这一年里我们做了哪些事情。
第三,分享一下对未来的展望,纯粹是我个人对未来的一些想法。
毫无疑问,大家看到ChatGPT可以说是人工智能有史以来最大的进展,我在人工智能领域工作27年,这里面很多的包括语言模型,我自己以前也做过,可是今天取得这样一个进展,可以说超越图灵测试已经不是问题,没有人去怀疑这件事情了。
但另一方面,自动驾驶迟迟没有到来。可是我们看这两个问题实际挑战是截然不同的,如果说ChatGPT,刚才李想也讲了,会代替白领的工作、增强白领的工作,可是对这个工作本身其实容错率是比较高的,比如说让它给我写一个在百人会的发言稿,我大概提几个要点,基本上全部能写出来,可能不需要完美,因为我可以在这个基础上修改。自动驾驶不一样,特别是无人驾驶,可能容错率就是零,那是人命关天的事情,所以用户对它的期望很高。
另外再讲一下计算,OpenAI、ChatGPT是在云端的计算,在云端可以想像,有充分的能量供给、电源供给,同时有非常好的系统,可是如果在车上依赖的是电池,依赖的是车端的散热,那么这个挑战也是很大的,意味着自动驾驶不能用那么大的模型、那么大的计算。所以我们可以看到,L4或者是RoboTaxi,无论是Google、Waymo、Cruise商业化迟迟没有推进,包括最近他们也有一定的裁员。比如我们还看到像福特与大众投资的Argo AI,去年也倒闭了,福特现在是在做一个面向辅助驾驶的公司,大众去年也有幸投资了地平线,与地平线从事量产、辅助驾驶方面的软件、硬件系统的技术创新。
行业开始回归冷静、回归商业价值、回归商业本质跟用户价值,我们看什么是用户价值,当前用户对驾驶的需求真的是无人驾驶吗?我们现在的调查数据显示,87%的用户真正要的是驾驶过程中那种轻松感,消除紧张和疲劳。比如说在北京,日常上下班路上单程可能经常花费一个小时,如果一个小时全神贯注,你连看微信都不能看,这本身是反人性的,人天生就是多任务的,天生就是分心的,天生就是不专注的,包括我去年有一个经历,当时从山东回北京,那个时候因为疫情的防控,所以基本上排队排了5个小时,当时我坐了一辆理想ONE,在拥堵的情况下不需要一直踩着脚,很轻松,所以5个小时其实跟以前没有辅助驾驶的感受是不一样的。
其实不需要真正实现无人驾驶,我们实实在在的从高级辅助驾驶开始就已经在为用户创造价值,特别是今天也反复讲了,智能电动车实际给我们产业一个换道超车的机会,可是如果看消费者为什么以前在燃油车时代不承认中国的燃油车能够做高端品牌,但今天智能电动车是可以的,因为大家都认为消费者普遍接受了,就是我们高端的国产智能电动车在智能电动化方面做到了全球领先,特别是自动驾驶方面,已经成为大家购车时非常重要的考量因素。
看我们产业在做什么去应对这样的消费者需求?可以看到,日本跟欧洲实际的辅助驾驶,如果用技术的词,主要是L1和L2,主要是以安全法规驱动的AEB或者是LCC,就是车道保持、紧急制动刹车这样的安全功能驱动的。可是在中国完全不一样,中国的安全是及格线,必须AEB当量做的好,但是其实更多的是用户体验驱动、用户价值驱动。所以中国去年L2+高速NOA,包括环线高架桥的NOA,不仅仅是前视摄像头,也包括周视、环视,大概超过10个摄像头,包括毫米波、雷达这样的配置,去年开始量产,去年可能是L2+高速NOA的量产元年。
现在业界,据我了解,顶级水平做到什么样呢?基本上能做到百公里接管一次,比如说前几天还有一个股东跟我讲,说他们这个机构里面一个小同学开车去张家口滑雪,当然坐了一辆车搭载我们征程5的芯片,可以200公里在高速下面全程无接管,这个小姑娘非常开心,觉得我们投地平线投对了企业。可是她没想到过分乐观,回来以后下了高速继续开自动驾驶,结果出事故了。今年,相信领先的车企包括蔚小理都会推出面向城区的NOA,就是现在讲的L2++,但是我相信这个事情在技术上还有挑战,起码要研发至少三年才会得到较好的进步,现在基本上是20—30公里要接管一次。
在座有很多车企的老大们,对自动驾驶这件事情我跟大家想分享的,是不要太焦虑,因为行业发展没那么快,我觉得现在到2025年真正要做的是,在合理的性价比上把高速的NOA、环线的NOA这种封闭道路的自动驾驶做到如丝般顺滑,但是价格不能太贵,同时我认为要有相当的时间和精力真正把城区NOA做到可用,这是我的看法。
顺便可以看一下,现在消费者,包括我刚才碰见一位媒体朋友,他也说现在自动驾驶似乎并没有那么如预期,比如说我们可以看到自动驾驶的配置,假设算力从几十T到一千T,其实带来的用户体验跟价值没有太大区别。究竟是怎么回事呢?比如我这里面尝试用一个工程师的语言给大家解释。横轴是我用对数坐标把它的算力画起来,它的纵轴能给用户什么样的价值,从几T到10T的范围基本上就是前摄像头的感知,是典型的L1跟L2就是一级跟二级的辅助驾驶。但是从几十T到几百T甚至到一千T,会发现现在实现全都是高速NOA,高速NOA差别还不太大,还有大量工作可以做。那个虚线是在给算力,假设我们的算法是完美的,假设我们的数据是充分的,假设我们的工程做的足够好,实际是给用户带来价值的上限。所以我们做的事情,是不断的在给定算力上优化软件、算法,用更多的数据不断的去逼近上限。相信在若干年以后,我们会达到这样的水平,我估计几百T可以在城区的NOA做到不错,但是真正实现更广泛区域里面的自动驾驶恐怕确实需要千T以上的算力。
关于地平线,在过去一年里面我们还是持续在取得商业进展,包括现在已经量产50多款车型,现在前装的定点有120多款车型,接近300万片车规级自动驾驶芯片出货,包括征程5芯片现在成了已经量产、在业界超过100T算力的两个芯片之一,并且我们也拿下了一系列的标杆车型、标杆车企的量产项目,并且理想汽车,像L8、L7去年11月份就已经开始交付,包括我们去年也有幸跟合资品牌大众进行重量级的战略性合作,相信我们后面也会突破更多的国际品牌。
这个是前几天我看到的高工智能的调研数据,去年因为是L2+高级辅助驾驶量产元年,我们取得了市场占有率份额的第一,达到了49%的市场份额,特别是地平线和英伟达两家企业占了整个市场95%的市场份额。所以地平线作为一个成立不到8年的创业公司,目前进展还是不错的,也非常感谢整个行业的伙伴包括车企对地平线的信任和支持。
取得这样一个商业进展,其实背后是很多看不见地方的点点滴滴,在技术、安全、创新、流程、体系、质量方面所做的构成,比如说这里面我想跟大家看,我们集齐七龙珠这种感觉,在芯片整个流程的安全认证、架构的认证,包括我们工具链功能安全的认证,信息安全、网络安全一系列拿到世界顶级的安全认证,可以说地平线的征程5芯片是按照业界最高等级的安全标准去设计的产品。
同时,如果没有对人工智能的软件算法有深度的理解跟认知,你是不可能去设计高效的人工智能计算芯片的,这里面是一个结果,我们在2020年Google Waymo首届自动驾驶算法比赛,全世界共有120个团队参加,共5项比赛,我们有4项比赛是全球冠军,第5项我们是第二名。我们其实并没有懈怠,就在上个礼拜,全球最顶级的人工智能计算机视觉CDPR的会议,我们作为第一作者提出了一个基于Transformer端到端的自动算法框架,这篇论文在9000篇投稿论文中入选了TOP12篇的最佳论文侯选,这也是我们持续在软件算法方面前瞻性的研发。这篇文章是首次将检测、跟踪、预测、建图、轨迹预测端到端的用一个神经网络从前到后全部把简单的架构完成,传统的做法是把它切分成好多模块独立来做。这样让我们有可能像ChatGPT那样用端到端大规模的数据去训练整个自动驾驶系统。
基于这样算法的理解,我们把对算法的前瞻性研究注入到对芯片架构的设计跟研发,这个就是地平线的底层我们叫BPU(Brain、Processing、Unit),这个我们注册了商标,希望打造像未来GPU这样的世界级计算架构,我们叫BPU。BPU主要是面向高等级自动驾驶,其中就是我们要聚焦最新的深度神经网络算法的计算如何去优化它。比如在征程5的芯片里,我们是第三代的BPU架构叫贝叶斯架构,这个架构有一个特点,高效支持Transformer计算,比如我们在Swin Transformer,是2021年提出来获得计算机视觉最高奖马尔奖的Transformer图象识别的算法,跟竞品计算芯片比,我们用更低的功耗完成更高效率的计算,比如在DETR另外一个Transformer的算法,我们也获得了业界最好的FPS计算效率。
下一步怎么做呢?其实最近ChatGPT给我们很大启发,我们要继续用大数据、更大的数据、更大的模型,并且无监督地去学习人类驾驶的尝试,就像你从大量的、无监督的、没有标注的自然文本里去学习一样,因为每个驾驶员驾驶控制的序列,就像我们的自然语言文本一样,所以语言模型是什么?就是给定一个文本的历史,我预测下一个词的概率,同样就是说,我们给定当前的交通环境,给定我们一个导航地图,给定我们一个驾驶员驾驶行为的历史,我怎么预测它的下一个驾驶动作。这个可以从大量无监督不需要标注的行为里面去获得学习,构建一个回归自动驾驶的大语言模型,是我们下一步要做的事情。
同时我们可以看到,过去不断的实验数据表明,我们把模型的参数规模不断变大,实际整个预测的测试损失会不断变小,就是说参数越多这个系统越聪明,可以看到在ChatGPT,刚刚讲了GPT—3大概1750亿参数,到了GPT—4差不多1万亿参数,我们人类大脑是100万亿参数。大家知道,猫跟狗大脑是多少参数,是3亿参数,从3亿个参数到人类大脑100个神经元,因为每个神经元有1000个突处,所以大概100万亿个参数,参数的规模决定了智能的水平,没有神秘的魔法,所以人类这么聪明无非就是我们的大脑容量确实大。所以下一代的计算架构是什么,就是我们要按照构建面向大参数的Transformer统一的计算架构,尤其这种架构上怎么计算效力和功耗,会发现参数规模多了以后,实际计算有可能不是最消耗功耗的地方,反而是数据的存储、数据的IEO,这里面我们要去构建比如说三级分层的存储架构,去优化大参数下面的带宽瓶颈,使真正的计算效能能够提升,在车载功耗下面有能够Hold住Transformer大参数的计算。
在去年百人会论坛,我第一次提出了地平线要打造比开放更开放的商业模式,就是我们面向主机厂提供的不仅是一个黑盒芯片或者软件,而是帮助主机厂客户成就他们的梦想。因为很多主机厂有成为苹果的梦想、特斯拉的梦想。比如李斌什么都要自己做,我想很多车厂是这样的,所以我们成就这些车厂打造自己的芯片,我们打造ARM+安卓的商业模式。去年第一次提出,去年一年我们已经锁定一个主机厂,另外一个主机厂正在谈。顺便最后讲一下,打造自己的自动驾驶芯片这件事对于每个车厂要慎重考虑,因为第一个是巨量的资金跟成本研发投入,第二个是如何持续保持竞争力,所以自研和他山之石本身是战略选择,我基本的建议,如果你的销量预期不到100万辆,这个资金整个效率其实是算不过账的。
同时,地平线致力于打造一个软件生态。大家也知道,英伟达之所以伟大、成功,实际是因为它基于它的CUDA,打造了一个无边无际丰富的软件生态。地平线自去年以来也致力于去打造面向智能驾驶与按照机器人计算的软件生态,生态建设的团队跑遍了中国大江南北,把我们所有在自动驾驶方面投入研发的软件公司以及在机器人研发方面的大大小小的创业公司,都拜访了一遍,相当于做统战工作。现在大家看,在业界小微比较知名的自动驾驶的公司,无论是像我们这里展现的轻舟,基于单颗征程5芯片打造的方案已经拿下一个车厂项目,包括小马、文远知行,几乎大家耳熟能详的自动驾驶软件公司其实都已经在地平线的芯片上去开发他们的软件方案。
这是一个全景图,我们在软件商、硬件的域控方方面面,打造了全方位的智能驾驶计算生态,我们认为如果不能建造中国自己计算架构之上的软件生态,就不能掌握自主整车包括智能电动车的创新主动权。
最后稍微谈一些可能反共识的看法。
十年终局,刚才也有嘉宾说L3、L4,我在这块可能会比较悲观,我觉得十年以后连L3都不会真正实现。记得我在2013年当时启动负责百度自动驾驶的时候接受记者采访,我觉得未来人跟车的关系可能就跟人与马的关系一样,你说马如果撞了小孩、撞了人,到底是马负责还是骑马的人负责?但是马是可以自动驾驶的,所以这个就是特斯拉的路线,就是当前量产车的路线。如果你让车厂承担这个责任,那这个创新没法搞,所有车厂都偃旗息鼓,都不敢投入研发。我觉得未来人跟车的关系还是跟人与马的关系一样,当然可以自动驾驶,人车也是配合的,但是真正出了问题我觉得还是司机承担责任。
但是在专用道路上面,比如说在车云协同的自动驾驶专用道路上,是可以实现无人驾驶的,但是有一个前提,在这个环境里面不许有人驾驶,一定是要全部的车、参与这个专用道路的都是自动驾驶,我认为这种条件下是可以实现完全的自动驾驶。
最后分享一下,上周我在朋友圈的有感而发,我说第一个阶段,人类梦寐以求机器人帮我们干很多事,所以我们在训练机器,可是训练着没想到机器变得这么聪明了,所以刚才百度李震宇讲提示工程师,实际干的什么事情,本质上已经是机器训练人了,因为人必须找到那个阀门,怎么样跟机器交流,让机器能写出你想要的发言稿。这个事情本身是人在顺着机器,包括抖音算法,实际也是不断推荐这些内容,让用户一直在里面浏览,是机器在训练人类,这个已经在发生。但是我很担心,随着人工智能目前的发展,会形成机器的霸权,人类在算法的满足上,表面上觉得很开心,但实际更多是放弃自己的思考,这样的未来恐怕不是我想看到的。第四阶段,部分人的觉醒,比如我带领的地平线团队,我们在人跟机器之间要推动人工智能计算的平权,不能让单向的透明,让所有人的数据都交给机器,而机器却是一个黑盒,到底怎么发展,对我们来讲是失控的,我们怎么做呢?就是我们一定要去推动分布式、本地化、保护用户隐私的,并且它的计算对于人类来讲是透明的、分布式的人工智能计算的未来。怎么做呢?今天我们都想到了,比如说未来的车载实际会成为分布式的储能中心,我认为未来上亿辆车装上千T算力的芯片,它在停车的时候干吗?我当年在百度的时候,如果是在内蒙古,我记得建一个100万台服务器的数据中心,就算是很大的服务器中心了,这是上亿台的车停在那边,每辆车都是上千T的算力,这是全世界最大的计算资源池。所以未来一定会为我们除了车载计算以外的其他计算去提供。
所以未来无限的可能,计算机眼前这个革命才刚刚开始,这个方面我也跟长安的王俊总对于分布式的计算确实在一起畅想了好多,所以我觉得这样一步正在到来。就说这么多。谢谢大家!