理想汽车李想谈VLA司机大模型:这是进化的过程

广州日报新花城 05-12 17:50



日前,“理想AI Talk第二季”举行。此次,理想汽车董事长兼CEO李想重点分享了对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。

李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。

李想表示:“判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”

VLA全称是Vision-Language-Action Model,即,视觉语言行动模型。李想认为,它能够让AI真正成为司机,成为交通领域的专业生产工具。“对理想汽车而言,未来的VLA就是一个像人类一样工作的司机大模型”。

李想介绍,VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”。

端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。

在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。

得益于DeepSeek的开源,理想汽车在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。尽管如此,理想汽车仍选择加大投入,在基座模型上投入超预期3倍的训练卡,专注打造适配多场景的自研模型。李想表示:“我们可以站在巨人的肩膀上,但它只是其中的一部分。”在受益开源的同时,理想汽车也选择开源自研的汽车操作系统——理想星环OS,回馈社会。

面对AI的发展,李想认为,在AI面前所有的人性都应被保留,无论好坏,因为一切人性都是文化、生命、性格、能力的特质,也是人类真正的生命力所在。

(文章来源:广州日报新花城)

文章来源:广州日报新花城
原标题:理想汽车李想谈VLA司机大模型:这是进化的过程
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
七部门:设立“国家创业投资引导基金”
七部门:设立“国家创业投资引导基金”
界面新闻 531评论
央行:前四个月人民币贷款增加10.06万亿元 广义货币增长8%
央行:前四个月人民币贷款增加10.06万亿元 广义货币增长8%
央行网站 178评论
A股三大指数收涨:沪指站上3400点 金融股大涨
A股三大指数收涨:沪指站上3400点 金融股大涨
东方财富Choice数据 1299评论
中国结算启动一季度异常账户核查 关注异常账户是否存在配资嫌疑
中国结算启动一季度异常账户核查 关注异常账户是否存在配资嫌疑
中国证券报 148评论
打开东方财富APP查看更多内容
24小时点击排行
昨天早上开盘之前,就曾经在此提示,当时认为“沪市大盘股指早盘高开的缺口(3369
过往皆为序章,未来皆有可期
个股分化
重大宣布 晚间四大消息
缩量阳包阴 明天能普涨吗
点击查看更多内容
写评论 ...