王晓刚:物理世界模型用于驾驶辅助训练很重要
4月23日,两年一度的上海车展正式开幕,作为新汽车革命下的高级别车展,本次车展以 “拥抱创新 共赢未来”为主题,参展企业涵盖传统燃油车、新能源车、智能驾驶、供应链技术等多个领域。智能汽车时代,技术发展日新月异,高阶智驾、AI大模型、多模态感知等前沿技术加速落地,更多新技术、新产品将在上海车展正式亮相。
我们也看到更多汽车高管发表观点,预判未来。商汤绝影CEO/商汤科技联合发起人/首席科学家王晓刚表示,物理世界模型用于驾驶辅助训练很重要,因为99%的用户真实数据对训练模型没帮助。
新浪汽车:今天的第一个问题是我们都了解这一个价格战已经打了很久了,而且这个价格战的这个硝烟已经不单单是在汽车企业了,已经延伸到了供应链企业,那么这块的话我们作为供应链企业是如何平衡价格和这个成本啊?
王晓刚:我觉得保证产品的质量安全性就是第一位的。我们也可以积极地去想一些办法去降低我们的这个成本。比如说首先是智驾市场,今年我们合作量产了更多的车,分摊了智能驾驶系统的成本。另外,要做好平台化。今天我们看辅助驾驶的方案,大家在硬件配置,包括传感器的数目、分布上,那其实大家逐渐形成一些行业的共识。那么有一些这个车厂他在设计自己的那个方案的时候,对于传感器的型号也注重平台化。这就大量减少了我们对特定车型的重复开发和适配的工作。
新浪汽车:那您觉得未来3-5年吧,您认为这个汽车行业最需要我们来关注的技术突破应该包括哪方面啊?
王晓刚:我认为这个因为大模型的发展,通过人工智能大模型生成AI给整个这个行业还是带来了非常大的一个机会吧。我觉得一个是在智驾领域,今天我们也提出来这个生成式智驾,就是因为现在大家做的是端到端。端到端有它的数据的局限,它需要大量的高质量的数据,它是模仿人类的这样的一个方式。而且端到端,它有不确定性。比如说出现了一个问题,这样的一个问题场景不可复现,各种很多类似的场景,但也不能确保这个场景就能解决,但是今天我们要用世界模型重建、仿真和泛化。
所谓世界模型,我就要把这个物理世界能够重构出来。那你有一个问题的场景,我带了我这个数据过来以后我就能够把当时的场景在我的仿真环境里复现出来,那么在这个环境里面可以一遍一遍地重复端到端模型的驾驶行为。通过这一个强化学习直到处理问题。那另外的话我还通过这一个模拟仿真我去生成大量的这种危险问题的类似场景,因为这种极端的场景困难的场景那么它其实是成本和危险性都是非常高的。那么通过这一个模拟仿真也能够去做到这一点。
智能座舱的话,我们提到了多模态大模型、深度思考等等,DeepSeek给大家带来的深度思考的能力但是DeepSeek还主要是文字,那今天我们也可以推出来多模态大模型具备深度思考的能力,那我们就能够正常的看到它改变了我们座舱里面大家正在交互的形态。以前的座舱的交互没有记忆,你的机器人不知道你昨天说了些什么,另外他不知道,他只能跟你一对一地对话。那你比如一群人在进行对话的这样的一个过程中,他是没办法参与进来综合你们的这个观点,你参与到这个讨论里面。那今天我们的new member就能做到这一点,这是我们多模态大模型深度思考带来一个较为重要的变化。
新浪汽车:您中间提到了一个生成式的智驾啊,这块的话我听完您的这个解释,我理解一下啊您是不是认可前两天余凯博士的那条暴论,就是99%的用户数据都是无效的。
王晓刚:这不是一个认可,更多能够说是一个常识。99%的用户真实数据可能对于训练模型来讲都是没什么帮助的,因为大家可能觉得这是一个识的说法,但对我们来说这是一个常识,就是训练端到端复制驾驶,输入是视频,输出是行为的轨迹,所以他进行模型训练的时候拿四车行为的轨迹去指导你去学习模型的训练。但是你开车的时候90%的情况下你的车是匀速前进,是一个直线的这种信号,它是没有信息增量的。所以说90%的情况那个数据是无效的,它指导不了你所有的事情。只有你在踩刹车,你在避让,你在拐弯,这样的一种情况下的时候这个信号才是有效的。
即便是这种信号是有效的,遇到一个复杂的场景那么大家的驾驶行为可能有很多人这里面80%的人他就停下来了吧。一些难的这种场景,只有少数的人,驾驶水平比较高的人,在这种情况下,他能够顺利通过,这些是高质量的数据。这件事情他不但发生在自动驾驶领域,它实际上已发生在我们的这个大模型领域,比如说GPT用了很多互联网的数据。但是互联网数据要筛选,想要提取高质量的数据,百分之九十几的这种数据都是要删掉的。
新浪汽车:那么模拟数据来讲,尤其是针对极端场景的这种模拟真的能替代我们真实的这种极端场景吗?
王晓刚:今天我们收集的数据啊,它是有两方面。第一个呢就是场景,就是无人驾驶的场景比较难啊。第二个就是驾驶行为,你在这个困难的场景里面,你怎么开过去的对吧。那么我们的模拟仿真能解决第二个问题。因为这强化学习,我先给你重建环境,然后就会不停地试,改进模型的驾驶行为。最后我能够把一个好的驾驶行为给你生成出来,不需要人再去开了。但是很难的场景它还需要你去找啊,但这种找的话我可以你给我一个场景。我可以再衍生一些类似的场景,但是呢这个场景的种类还要找这就像DeepSeek一样。
DeepSeek呢它也用强化学习,那你给我难的问题我有答案吧, 但它现今天DeepSeek面临的问题是什么呢?他找不到难的问题了,你比如说他做奥数题,所有的奥数题都解掉了,他如果再要去找。 你得有类似就比如诺贝尔奖这类问题,很难的问题你要提给他 但这种问题的本身就是很难找的啊,
所以说这个我们对他的这个输入就变成了你怎么去找难的场景。难的问题那这种模拟场模拟数据的时候,他是应该是默认硬件的。系统识别是OK的,他要保持我的时空的一致性,那你比如说我有11个摄像头那你生成出来的这一个视频,在这个11个摄像头里面出来的这个轨迹也好你这一个视频也好,它是一致的。你不能说在这个摄像头里面出来是这个单行线,那个变成了双行线啊,两个不一致。你如果不一致的话你送到训练里面的话要出问题,咱们模拟的情况其实是能够尽可能的防止掉。设备故障的问题还是说能够兼容,必须要兼容。
新浪汽车:行,接下来刚才您又提到了这个智舱的这样的产品啊。叫A New Member For U,这样的产品其实是在上一次绝影的那个发布会上给我印象特别深刻。因为它是打破了一个现在车的一个是一个被动交互的这么一个场景,它能够给到一个主动交互,一个能够让大家使用者真实的体验一下提升的这么一种产品。目前的进展是如何?目前在哪个产品上我们也可以在市面上能体验得到?
王晓刚:我们一家那个主机厂里面我们实现了一些多模态识别的功能,但今天我们像是有更多新的功能在这车展上。等接下来的话我们也在寻找这个量产,因为这是新的一个突破。
下面那台展车里面有new member。它能够干什么事呢,你那个座舱里面有一些人大家在聊天啊互动啊,说话啊,他能够去识别你们每个人,而你不需要主动地告诉他,他在大家的这个对话的过程中他能猜到谁是谁,他会插嘴参与你们的讨论。这就是一个根本性的变革,因为以前的这种对话是一对一的,就是你只能一个人跟那个机器人聊天,现在呢,就应该多对多,多轮多人对话,就是你们我们大家,我们四个人在讨论一个问题的时候,他能够明白我们在讨论什么,每个人的观点是什么。然后你要让他帮我解决一下我们四个人讨论的问题或者你给我总结一下我们四个人讨论的问题,这事他都能干是不是。
新浪汽车:稍等一下,刚才您反复地提到了说这个车有一个识别的大家对话的功能,但是我更想问的是主动交互的层面。咱们举个例子啊,比如说在长途自驾的过程中可能驾驶员会犯困啊,他会不会说自己主动找话题去跟你聊天。
王晓刚:这个他是可以,但是通常来说这都比较难了。一旦你比较犯困这个状态,他可以给你播放音乐啊,说一些话。但是更多的我们可能就是要跟驾驶相结合,到一个这个安全的地方让他再休息。其实这种状态下就是你想他聊天他也不能够跟你聊一个小时两个小时。
我其实从始至终坚持我个人的观点,就是主动跟驾驶员或者说乘客去发生这个行为这件事情能够尽可能的防止。因我们在开长途的过程中其实自己可能没那么困啊,但是比如说从北向南开一直对着太阳,眼睛要眯着,这样一个时间段呢就会因为老眯着眼睛这个行为就会让你自己感觉自己困了从而打哈欠啊。 但是如果在过程中比如说副驾驶有一个人一直在陪你聊天天南海北的这种,然后你跟他聊就不会犯困了,所以这也可以未来会有机会解决这类的问题是吧。
新浪汽车:那如果您觉得智能座舱真正让用户感觉到产生一个跨时代变化的那个节点你觉得会是在哪?会是主动交互吗?
王晓刚:我觉得有几个,但是最重要的有可能是无人驾驶时代的到来。无人驾驶不需要你,把人解放出来了,你有更多的这个自由度,那就根本地改变了我们受伤的这个状态啊。那另外的话就是今天我们的这个类似new member的这种聊天机器人的出现,而且这个new member它还可以跟你的手机,还有别的的一些设备做打通啊,它就真正成了一个无处不在的这样一个状态。
新浪汽车:最后一个问题王老师,就是还是前两天于博士提到了一个他反复地在提软硬件一体开发这个事情,那么如果说软硬件一体开发是真的是最优解的话,那么我们这种只做软件的开发的这种公司,对我们来讲会有什么影响吗?或者说如何避免这种?
王晓刚:我觉得应该还好啊,这种所谓的软硬一体降低一些这个成本吧。比如说,重要地像我们的这些计算的平台,其实大多数人应该是软件,硬件的这些通用性更好的时候它其实就是软硬件。
今天我们的人工智能,我们的这个模型它是迭代是很快的。每隔几个月我们就会有一版新的这个模型出来。那今天我们所看到为什么英伟达的GPU这么强,它就是一个好的软件生态。就是大家都用英伟达的这么多东西的时候,它是一个通用性非常好的云端,所以软硬的这个结合它这其实它是一个趋势,你只有结合了以后,那么有更多的人才能够去contribute到你的这个硬件的生态里,所以可能软硬一体的最优解只是在成本上有一定优势,如果大家必须要做软硬一体的话,那芯片厂商就没有生态了,要什么东西他就自己搞了,但是你可以了解一下今天我们的各个芯片,做得好的芯片厂商无论是英伟达,高通,MTK,英特尔他们强调所有都是生态嘛,所以要做好的软件生态。