蛰伏两年,旷视的自动驾驶果实,成熟了

时间:2023-08-17 15:04:52       来源:雷锋网

自动驾驶圈正被 " 去高精地图 " 风暴席卷。

今年 6 月中旬,一年一度的 AI 顶会 CVPR 2023 在加拿大举行,同期还有场自动驾驶国际挑战赛,这场挑战赛吸引了来自 15 个国家的 270 多支队伍参赛,有 2300 多件作品投稿,赛况激烈。


(资料图)

出人意料地,打败众竞争对手,摘下桂冠的,是一家此前从未向外公布过有自动驾驶业务的中国 AI 公司——旷视科技。

旷视在这届自动驾驶国际挑战赛的表现相当亮眼。

CVPR 2023 自动驾驶国际挑战赛分为四个赛道,而其中 OpenLane 拓扑关系赛道、Online HD Map Construction(在线高精地图构建)赛道的第一名均为旷视。

"OpenLane 拓扑关系挑战赛,本质上是一个通过实时感知来生成地图的比赛。目前大家对道路拓扑结构(如车道线、车速标识等)的感知,主要是靠高精地图来提供,而要去高精地图的话,那就只能把这些东西感知之后,再构建自己的道路拓扑结构。"

旷视科技智驾业务总裁刘伟对雷峰网解释说," 这个比赛的现实意义在于,可以让旷视在‘去高精地图’这条路上越走越扎实,最终在城区也能实现‘去高精地图’。"

凭借在这一赛事上的出色表现,一向 " 神秘 " 的旷视自动驾驶业务逐渐浮出水面。

从学术圈到产业界,旷视下场参与自动驾驶赛道竞赛并不让人意外,反倒是时至今日才宣布入局更令人疑惑。

旷视为什么选择在此时进军自动驾驶市场?旷视做自动驾驶业务的底层逻辑是什么?其方案有哪些独特性?竞争优势体现在哪里?

雷峰网和旷视科技智驾业务总裁刘伟聊了聊。

01 果实成熟了:降本、降本、再降本

从 2021 年初大力研发智驾方案到宣布推出量产方案,旷视用时不到三年。

废话不多说,我们直接看看产品。简单来说,旷视的产品分为三个配置:标准版、专业版、旗舰版,分别对应 10-15 万元车型、15-30 万元车型和 30 万元车型。

其中标准版方案具备高速 NOP 功能,专业版方案具有城市 NOP 功能,最高配置的旗舰版方案则具备增强的城市 NOP 功能以及更强的安全冗余。

当下旷视智驾业务的发力点则主要在标准版和专业版方案。

" 我们瞄准的是量产市场,旷视希望做到在中低价位车型中达到一年几百万辆的销量,这两个版本的方案都是不带激光雷达的,成本相对较低,可以服务于 10 万 -30 万元的车型。" 刘伟表示。

在车端,15 万元 -30 万元价位是主战场,近一两年这一市场正疯狂进入激进价格内卷战," 活下去 " ——成为众多车企的第一要义。

小鹏汽车就曾在今年年初的年报业绩会上预测,国内市场到 2023 年大概只有 50 家乘用车品牌能走完,5 年后可能只有 25 家,10 年后可能只有数家," 接下来的 5 -10 年里,控制好成本以及创新做到第一的位置才能存活 "。

定位为智驾方案供应商的旷视,降本、降本、再降本,也自然而然成为其自研方案时的重中之重。

刘伟透露,通过优化 "BEV(鸟瞰图)+ 前融合 " 算法、降低算力、去高精地图、去 RTK、去激光雷达、统一算法框架、自动标注等一系列措施,相比于同行,旷视的智驾方案成本可以下降 20%-30%

提到 "BEV" 算法,目前业内的智驾方案大多需配置 Orin 大算力芯片,但这在实际上车量产落地时并不容易。

比如原先一些走 L4 自动驾驶技术路线的企业尝试推出 L2+ 量产方案时,由于以往的路线是多传感器叠加配置大算力芯片,因此他们普遍面临的一大挑战,就是很难满足车厂的低算力要求。

而旷视对于 BEV 的实现,则已经可以做到在只有Orin 芯片五分之一甚至六分之一算力的嵌入式芯片上跑通,不仅性能表现非常好,而且目前已经进入到客户实车 Demo 阶段。

刘伟认为,从本质上看,这是由于旷视的算法本身足够先进。

旷视对 BEV 有两个实现的算法模型,一个是 BEVDepth 系列,一个是 PETR 系列,BEVDepth 系列是对 "BEV+LSS" 的实现,PETR 系列则是非常典型对 "BEV+Transformer" 的实现。

BEV+Transformer 架构最早由特斯拉在 2020 年引入自动驾驶产业界。

不过不同于特斯拉占用网络采用的稠密算法,旷视的 PETR 系列在输出对周围环境的各种感知表征时,采用的是稀疏算法。

" 旷视用稀疏的方式来做 Transformer,也能非常好地检测到长尾场景中的障碍物,同时对算力要求更低,这最核心的意义就是把计算平台的成本给降下来了。" 刘伟表示。

另一方面,为了降本,旷视还对 " 统一算法框架 " 这件事非常重视,整个研发均围绕这个目标展开。

一般而言,从旗舰车型到入门级车型,一家主机厂每种车型采用的配置方案都各不相同,供应商方案矩阵相当复杂,这导致车辆在推出量产时,无论是把握节奏、质量、成本,还是管理和维护不同供应商,都很难控制。

而旷视在做的,则是希望在高中低定位的车型,都采用统一的 BEV 算法框架,做到算法平台化、硬件平台化。

比如在适配高中低不同算力的芯片时,旷视采用 Pin-to-Pin 的系列芯片,即同一套域控可以直接适配不同芯片硬件,如果域控需要适配高算力芯片,就换高算力芯片,如果要适配低算力芯片,就换一个低算力的芯片。

做到这一点后,主机厂各个车型的量产速度将大大加快,质量更好的同时,成本也将大幅降低。

在硬件配置方面,旷视则坚持走以视觉为主的感知路径,支持采用实时建图的感知方式,只用导航地图,不用高精地图,除此之外,旷视还能做到直接去掉 RTK。

"" 去高精地图’、‘去 RTK ’,这两个选择结合在一起,每年又能节省几百元的成本费用。" 刘伟说。

02 落地 NOP:算法的优化竞赛进行时

智驾方案上车,降本是一方面,性能是否能做到让车厂、让消费者买单又是另一方面。

当下的智能汽车行业,诸如 AEB 等 L2 级以下智驾功能已基本标配,现在各头部车厂、供应商们争相落地的重点功能,是介于 L2 与 L3 级自动驾驶之间的 NOP 功能。

所谓 NOP 功能,即车辆可基于用户设定的导航路线,实现从 A 点到 B 点的智能导航辅助驾驶,主要覆盖部分高速公路和部分复杂的城市路况。

在旷视看来,在接下来两三年的时间,高速 NOP 场景将会快速渗透,大多数主流车型,都将采用高速 NOP 方案,同时城市 NOP 场景将在这一时期快速成熟。

而阻碍 NOP 高阶智驾方案大规模量产落地的核心因素,就在于目前尚不够强大的智驾性能,第二重要因素则是居高不下的成本。

" 目前的高阶智驾方案还没有足够好到、安全到能让用户完全放心地使用,为了追求更好的性能,大家的方案都是配置多颗 Orin X、多个激光雷达,这导致方案成本会非常高,往往高达几万元,只能在非常高端的车型上使用。" 刘伟指出。

那如何兼顾高阶智驾量产方案的高性能和低成本需求?

事实上,所有自动驾驶方案最终的性能、体验表现等都是由感知上限决定,而自动驾驶作为一个超强 AI 属性的产品,其感知的上限则需要靠不断地优化算法来提升

旷视判断,体验好、成本低的高阶智能驾驶产品,必须要有非常强的 AI 能力支撑,而只有在 AI 能力上有强大实力储备的玩家,未来才有可能继续走下去

其实旷视早在 2018 年就曾关注过智驾行业。

在当时,业内主流的感知技术路线是 "2D 图像 + 传统神经网络 CNN",采用容易导致信息失真的后融合策略,用人工进行数据标注。

" 这种基于传统雷达、摄像头的感知方式,是不能解决高阶智能驾驶方案所面临的问题的。" 刘伟认为,也因此旷视一直没有踏足这一产业。

直到 2020 年,特斯拉将以视觉为主的 "BEV+Transformer" 架构引入自动驾驶领域,2021 年初,特斯拉又在北美推出了升级版 Autopilot 的 FSD,一举舍弃毫米波雷达,由此智能驾驶路线进入了 " 分水岭 " 阶段,关于走纯视觉路线还是多传感器融合路线,各方争论不休。

而旷视作为起家于计算机视觉研究的 AI 解决方案厂商,也决定在此时向智能驾驶产业界进军。

这是因为旷视认为,未来高阶智驾方案大概率将会走以视觉为主的感知方式,至于要不要进一步融合毫米波雷达、激光雷达等传感器,则与各厂家的需求、安全冗余考量息息相关。

也因此,旷视设计的这一套统一算法框架,除了支持摄像头,也支持对激光雷达、毫米波雷达等传感器进行前融合。

甚至在行驶过程中,如果某个雷达或者摄像头突然无法正常工作,旷视的智驾算法还能确保其它传感器维持在正常水平,并基于此来判断要不要进行功能降级,或者降级到何种程度。

旷视向来有相当强悍的原创算法能力,更关键的是,旷视的算法并不是空中楼阁,而是真正基于产业界实际需求在研发。

截至目前,旷视智能驾驶业务团队已达数百人,其中近三分之二是算法研发团队,剩下三分之一左右则是工程交付团队。

以 PETR 系列为例,这是旷视基于 BEV 实现的纯视觉 3D 感知框架,目前已迭代至 PETR V4 版本。

通俗来讲,这一版本在做的事,就是让一个多帧长视频在模型里跑,本质上是希望模型记住更多的东西,从而做到更好地感知态势,实现更好的物体跟踪和预测,由此在 Orin 平台上实现 " 感知、建图、跟踪、预测 " 四合一的端到端模型,同时也能在未来进一步降低方案成本。

而前文提及的对多模传感器的前融合的实现,则是旷视早已在 PETR V3 就已完成的事。

基于此,在智驾视觉方案领域,旷视除了是业内唯一一家把 Transformer 跑在较低算力计算平台的解决方案供应商,还是业内第一个实现 300 米距离视觉感知(现在很多激光雷达厂商的感知距离都达不到 300 米)的厂商

另外,旷视还在2022 年首创了鱼眼 BEV 模型,使得车辆的感知范围扩大三倍,这让车辆在泊车场景下,可以很早就感知到周围的停车位,大大提升泊车体验,从而支持自动泊车方案去激光雷达,进一步降低方案成本。

" 在行业内,真正具备原创算法能力的团队是凤毛麟角的,在这方面,我们还是比较自信的,且这个优势会持续扩大。" 刘伟如此认为。

03 从全栈自研到全栈可控:主机厂正变得更为理性

技术领先并不意味着成功的商业化落地,产品 + 服务才是核心,这背后考验的是工程化落地能力。

工程化能力意味着解决方案的可复制性、可靠性强、产品架构的统一性高,也意味着供应商可以实现客户个性化定制的解决方案,同时兼顾不同场景、不同使用者的多样化需求。

嵌入式的工程化能力、客户理解能力——这也正是旷视做智能驾驶解决方案,除强悍的算法能力外的两大核心竞争力。

" 比如曾经旷视在做一款芯片时,芯片厂商提供了算子,但这一算子跑起来非常慢,后来旷视自己上,就把算子的性能提升了 100 倍,直接让 BEV 在这个芯片上的实现,从‘不可能的任务’变成性价比相当好的方案。" 刘伟表示。

从在工控机上实现 demo,到切换至嵌入式系统,有些厂商走了许多弯路,花了两三年才艰难转换完成,而刘伟指出,旷视则是非常平滑无缝地就完成了切换," 这是大部分友商都不具备的能力 "。

另一方面,旷视作为供应商,已在 AI 产业化的路子上已摸索得足够久,对市场和客户需求也有足够丰富的理解经验和能力。

从商业逻辑上看,不难看出,旷视切入智能驾驶行业的角度,总体还是 "大客户" 逻辑,即以车厂为核心,重点与头部车厂形成战略性合作关系。

作为供应商,如何在帮助客户提高产品竞争力的同时,还能持续降本,旷视重视打造自身的软硬一体能力,强调做到传感器、芯片和算法之间的协同。

在软件层面,旷视视觉算法感知的精度逼近于激光雷达,领先的定位建图算法也能大幅降低其对于高精地图的依赖,具备更好的性价比和更好的体验。

在硬件领域,旷视则自研了 AI 传感器、AI 计算平台,具备完整的硬件生产经验,并已规模化出货。

在数据方面,旷视除了会选择与主机厂合作,还自建车队收集数据、训练模型,并利用大模型进一步打磨自动标注工具链和能力。

域控方面,旷视则选择与主机厂和 Tier 1 合作。

一般来说,对于智驾解决方案供应商而言,一个方案有两种收费逻辑,一个是系统的开发费,另一个则是在系统开发的基础上,在方案量产上车后收取的出货费用以及后续的 OTA 服务费等。

而一套智驾方案想要适配到不同的车型,涉及到软件、硬件、接插件,也涉及到与整车协议的匹配、算法的调整,还有跟车配合的执行机构都要进行重新的标定,这些都指向供应商必须要具备一定的软硬件协同能力、灵活的合作思维。

一业内人士认为,全栈自研是一个能力,而不是一个商业模式。

对车厂来说,如果车厂只希望跟一家公司合作方案的其中一个模块,车厂也希望这家公司的产品思路跟得上自己。

供应商怎么能保证和车厂的思路一致?其实主要还是落地、量产的思路。

" 方案上车,车厂要考虑软硬件之间的配合、感知与规划之间的配合,这其中有很多经验和 know-how,如果你只做过其中一个功能模块,会不知道怎么跟车厂配合。" 该业内人士指出。

值得注意的是,雷峰网近期在和主机厂沟通的过程中,由于此前低估了自研自动驾驶的难度,再加上智驾功能落地后的市场反馈情况不尽如人意、越来越快的车型推出节奏等原因,我们很明显地感受到,主机厂们对全栈自研的认知和思路正在发生变化。

从主机厂的角度,如今他们对智能驾驶方案的核心诉求正从全栈自研转向全栈可控,变得更为理性。

这也给予了旷视在内的供应商们与主机厂们更大和更灵活的合作空间。

" 旷视作为供应商,打造软硬一体能力时,主要是从产品性价比的角度出发,看硬件和软件如何能更好地整合、性能怎样才会更好、落地成本怎样才会更低。" 刘伟说道。

在商业化进展方面,旷视智驾解决方案均已进入准量产状态,比如目前旷视就正在对客户量产交付专业版方案。

从产业格局来看,虽然智能驾驶领域一直热度很高,但其实始终并未定型,对于能兼顾强大性能和高性价比需求的智驾方案供应商,市场需求依然很大,行业充满竞争活力,也变数十足。

" 我们现在重点聚焦在量产交付环节,旷视有一个中期目标,就是希望在 2025 年,做到行业前三。" 刘伟如此表示。

雷峰网 # 雷峰网 # 雷峰网

关键词: