该方案背后有三个外部功臣:豪威科技或安森美半导体提供的图像传感器、阿里巴巴或Meta提供的大模型技术,以及特斯拉的端到端技术路线.
在小鹏汽车的官方口径中晶振,AI鹰眼视觉方案之所以能够取消激光雷达,是因为采用了LOFIC架构,得益于LOFIC架构的优异技术特性,视觉方案实现了无惧暗光、逆光和大光差。
LOFIC的全称为Lateral OverFlow Integration Capacitor,意为横向溢出集成电容技术,它在图像传感器的每个光电二极管旁边放置一个高密度电容通过。
当光电二极管转化的光电子数量超过原本承载的最大限度时,多余的光电子㊣会流到相邻的电容里,从而大幅㊣度提升光电子容量,改善摄像头模组在强光、暗光、逆光、大光差下的✅成像表现。
这项技术的功臣大概率是本土图像传感器龙头厂商豪威科技或者汽车图像传感器㊣头号扛把子安森美半导体。
在手机行业,荣耀早在24年3月份就在Magic 6上首发了来自豪威科技的这项技术,为了突出这项技术的效果,荣耀特意将Magic 6手机上的相机宣传为“单反级超动态鹰眼相机”。
荣耀在手㊣机行业首发了LOFIC技术,小鹏汽车在汽车行业首发了LOFIC技术,这类首发的意㊣义和小米手机首发第3代骁龙8、
有必要做一下澄清✅的是,无论小鹏鹰眼视觉方案中的车规级800万像素CMOS图像传感器来自本土巨头豪威科技还是国际大厂安森美,它的价格都不会低至9块9,一些媒体声称小鹏汽车用了9块9的图像传感器打败了激光雷达,有点过于夸张了。
性能不断进步的图像传感器通过LOFIC和HDR技术解决了恶劣光照条件下生成高质量图像的问题,在一定程度上消解了激光雷达的优势。
基于生成式AI的多模态大语言模型LLM解决了从图像中进行复杂路口拓扑推理、复杂交通标识识别的问题,使得自动驾驶系统逐渐摆脱了对高精地图的依赖。
在小鹏XNet、XB㊣rain、XPlanner三网合一的端到端大模型中,XBr✅ain使用了大语言模型技术,用于实现潮汐车道、特殊车道、待转区、路牌文字的识别和理㊣㊣解。
从小鹏汽车于2024年第三季度通过端到端大模型实现全面无图方案量㊣产上车的时间线上来看,从小鹏汽车和大模型赛道巨头阿里巴巴的深度合作关系来看,从大模型赛道需要投入的海量资源与小鹏汽车孱弱的体量对比来看,小鹏XBrain中使用的㊣LLM模型大概率脱胎于阿里巴巴,当然也㊣有可能来自于开源大模型最强王者Meta。
阿里巴巴推出了一系列全模态、全尺寸的开源模型,除了重量级的千亿、万亿参数大模型,还有一些适合运行在手机、PC、汽车等㊣端侧设备㊣上、参数在几B左右的小模型,比如在视觉语言模型上电容是什么✅意思,Qwen-VL便有2B、7B、72B三种尺寸,这里的2B和理想✅汽车那个2.2B的系统2视觉语言模型的参数规模非常接近。
如果说小鹏AI鹰眼视觉方案中那个能够看得更准、更清、更远的车载摄像㊣头的幕后功臣是安森美㊣或豪㊣㊣✅威科技这些图像传感器厂商的话,那么,其鹰眼视觉方案中大模型的功臣便是阿里巴㊣巴或Meta这㊣些大模型巨头。当然了,小鹏汽车还需要拿丰富的交通场景数据对这些大模型巨头提供的视觉语言模型进行后训练和微调训练,直接拿来主义当然是不Work的。
有一说,在高速NOA、城市有图NOA、城市无图NOA、车位到车位智驾这些功能的落地上,小鹏汽车的确是首批落地的本土车企之一。
早期基于Transformer的㊣BEV、占用网络OCC就不说了,现在大火的端到端范式就是特斯拉率先量产上车的。
其实不只是小鹏汽车,很多车企都在自动驾驶上务实地采取了紧密追随特斯拉的战略。财大气粗的特斯拉四处探索,摸着石头过河,市值只有特斯拉十分之一甚至百分之一的车企摸着特斯拉过河,到底有何而不可?
具体到端到端方案上,虽然理想汽车宣称自己是全球唯二、本土唯一量产了一段式端到端模型的车企,小鹏汽车号称自己才是和特斯拉并肩、全球唯二量产端到端大模型的车企。
但不管怎样,特斯拉无图、无激光雷达的一段式端到端FSD是小鹏AI鹰眼视觉方案的优秀借鉴对象。
在端到端这条技术路线上,特斯拉通过领先其它友商且不断走高的平均接管里程、不断改善的拟人感、不断提升的变道成功率和路口通过率,持续证明着规模定律Scaling Law在自动驾驶领域的有效性。
考虑到端到端这条技术路线非常消耗企业的资源,能够有一个先行者证明这条路线仍然没有碰到天花板,对于资金捉襟见肘到几乎没有了试错成本的本土车企来说,这种作用实在是太至关重要了。
综上所述,豪威科技或安森美半导体这类图像传感器厂商、阿里巴巴或Meta这类大模型巨头和显眼包特斯拉是小鹏AI鹰眼视觉方案背后的三大功臣。
鉴于图像传感器厂商、AI大模型巨头会对所有车企开门做生㊣意,特斯拉的动作大家都看在眼里,我们有㊣✅理由相信,其它车企会很快推出成本更㊣低、性能差异不大的✅类鹰眼视觉方案,对消费者来说,这可真是一个好消息。