糖心vlog

当前位置: 首页 » 资讯 » 芯智驾 » 车企 » 正文

理想汽车押注“VLA”

放大字体  缩小字体 发布日期:2025-05-08
摘要:  VLA 司机模型【司机Agent】最后落地一定是一个端云一体化的产品【车端VLA 4B+云端 32B VL基座模型】。车端OrinX Thor 算力有限且需要低时延反应,车端的VLA模型参量就一定大不到哪里去,因此一定需要用COT...
微信图片_20250508143611
 VLA 司机模型【司机Agent】最后落地一定是一个端云一体化的产品【车端VLA 4B+云端 32B VL基座模型】。车端OrinX Thor 算力有限且需要低时延反应,车端的VLA模型参量就一定大不到哪里去,因此一定需要用COT 的方式将部分复杂场景分析放在云端VL模型中,将信息分析下放回车端完成完整的Token输出后用扩散模型转换成轨迹再转换成控制单元。
微信图片_20250508143652
 
微信图片_20250508143726
VLA的VL基座模型为什么要自己去预训练。如果不是用原生的基座模型。模型蒸馏以后其他LLM模型里面和驾驶场景无关的知识能力客观来说会影响模型本体的能力上限。【而车端算力是非常宝贵的,因此做原生驾驶场景的基座模型就是一个非常艰难,但是必须要做的事情】【当然如果某一家可能会有更高的车端算力,我觉得尝试用第三方LLM去做蒸馏后强化学习也是可以尝试一下,毕竟各家搞科研的VLA机器人都是用开源的LLM】
微信图片_20250508143809
 
 VLA 相较于 E2E+VLM最大的两个差异:
 
1)是没有双系统协同了,所以不需要用VLM去指挥E2E;
 
2)VLA因为所有信息都是转成了Token在进LLM【蒸馏后的基座模型,这里简化描述。部分复杂指令会上云进VL模型】,因此多模态信息对齐在自动驾驶领域第一次达成【实时视觉感知、语义信息、导航信息、驾驶员需求信息等等】。
 
 用VLA可以让,AD系统真的看懂、看清楚、理解【车机导航】,注意是理解车机导航和真实路口场景的匹配和真实的轨迹预期,而并非是理解车机导航的播发信息【现在XX米后右转】
  
VLA构架用了3dgs【用很多个小椭球+每个椭球一个高维度颜色来描述三维世界的,所以文字这类信息在他的表示里应该算是复杂纹理,不知道能不能用3dgs的方式高效的表达且传导给后面的llm】
现在给出的解法是用了2D Vit 和3D表征同时进VLA模型,所以确实解决了3D场景的表达理解和文字信息的表达理解。
这个细节反向证明了,目前看VLA这个构架图【真实性、透明性】就是非常非常高的
 
微信图片_20250508143840
 
相较于原来的端到端模型重复造轮子的就小多了。E2E 500wclips 升级到800W clips 其实是重新训练的VLA司机模型 1.0 和2.0 都是来自于32B 的VL模型蒸馏后强化学习做的,本质上数据利用率会高的多的【大幅度减少了重复分析数据、匹配数据造轮子的工作】
 
能力提升的预测【客观来说,模型参量增加表现增强是客观存在的】。E2E模型1000W clips的模型参量大概率是 小于1B的,而VLA司机基座模型是【3.2+0.8=4B】。还有一个云端增强的32B的VL模型,大家能理解能力的增强?【复杂场景、真实理解、推理、长时序】
VLA提升的并不是E2E模型的流畅性,而是提高的顶层思维能力
 
 
 
糖心vlog :ICC鑫椤资讯成立于2010年,主要服务于炭素、锂电、电炉钢3大行业,是中国领先的专业产业研究和顾问公司。鑫椤资讯以研究为中心,提供媒体资讯、研究咨询、数据库和市场营销等解决方案。
鑫椤锂电专注于锂电池原材料、锂电池及其下游等相关产业链跟踪,对市场价格、行情动态等资讯的搜集与研究,常年跟踪行业内400多家生产企业,拥有完善的产业数据库。根据企业需求提供定制报告,为企业提供专业化服务。
鑫椤锂电以研究为中心,服务于行业企业、金融机构(一二级市场私募基金/券商/银行等)、高校/科研院所、政府等,为客户提供的独特洞见、分析和资源,帮助客户高效决策,以实现高质量的业务增长。

[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 

 
资讯浏览
市场报价
 
| 版权隐私 | 使用协议 | 网站服务 | 联系方式 | 糖心vlog
电话:021-50184981   电子邮箱:service@iccsino.com   地址:上海市浦东新区商城路506号新梅联合广场B座21楼D  邮编:200122  
 
糖心vlog 糖心vlog 糖心vlog 糖心vlog 糖心vlog