虎嗅

你准备好“用嘴开车”了吗?

该文章尚未提供 العربية 解读,以下为中文版内容。

核心内容总结

这篇新闻围绕“语音控车”展开,一边是领克Z20因语音误判大灯熄灭导致事故,暴露行业在语音控制安全上的漏洞;另一边是中外车企(特斯拉、小鹏、理想等)争相将语音交互推向智能驾驶核心,试图用大模型和“舱驾一体”技术打通人机意图的最后一公里。文章揭示了这场变革背后的三大矛盾:语音如何跨越座舱娱乐与行驶安全的鸿沟、模糊指令能否兼容硬实时安全系统、语音控驾的边界在哪里,并分析了技术突破(舱驾一体、AI智能体)、安全挑战(概率性语音vs确定性智驾)、政策滞后等问题,最终指出:语音控车目前是增强体验,而非替代驾驶,真正成熟需等L4自动驾驶和法规完善。

一、冰火两重天:事故暴露漏洞,车企却抢着推进语音控驾

领克Z20事故不是偶然——车主想关阅读灯,系统误判关了大灯,还没法语音重启,撞了护栏。事后测试发现,很多车型都允许行车中语音关大灯,说明这是行业普遍的设计隐患:为了“炫技”拓宽语音控制边界,却没做好精准语义理解和安全验证。

但车企们反而更积极了:特斯拉说FSD要支持自然语言(比如“停在那棵树下”),解决找车位时的人工干预痛点;小鹏搞“舱驾一体”,理想用多模态大模型让语音直接介入行驶决策(比如NOA时说“变道超前面慢车”)。为啥?因为传统智驾和用户意图之间有堵墙:感知层能看到路,决策层能算轨迹,但听不懂人话——语音是打通这堵墙的关键,能提升交互效率,也是未来L4时代(无方向盘)的必备控制方式。

二、打破“两张皮”:舱驾一体是语音控驾的技术基础

过去为啥语音控车做不好?因为座舱和智驾是“各干各的”:座舱芯片负责听语音,但管不了开车;智驾芯片能控制车辆,却听不懂人话,中间隔着安全墙。所以早期语音只能干“开空调”“放音乐”这类简单活。

现在车企要搞“舱驾一体”:把座舱和智驾的芯片、系统打通,用统一的AI底座让语音数据和路况感知数据实时流动。比如理想把自动驾驶团队并入软件本体,小鹏合并自动驾驶和座舱中心——这不是简单的部门合并,而是让懂交互的和懂驾驶的一起干活,消除“部门墙”。只有这样,语音意图才能快速转化为驾驶动作,车才能像“一个整体”一样响应。

三、安全是最大坎:语音“可能错”vs智驾“必须对”

语音控车最让人担心的是安全:语音是“概率性”的(可能听错、误判),而智驾是“强安全”的(必须100%正确执行)。比如后排小孩喊“撞过去”,车能识别吗?车企现在的办法是“双重确认”(比如问“确认变道吗?”),但这又增加了驾驶员的麻烦——还不如直接打转向灯快。

政策也没跟上:2024年的信息安全要求说高风险指令要双重验证,但没明确哪些是“高风险”;GB7258修订稿要求行驶中灯光、制动等必须有实体按键(防止软件死机),但没解决语音乱令的主动风险。目前行业还没有统一的安全规范:语音怎么进入智驾域?指令要经过哪些安全校验?这些都没答案。

四、终极目标:AI智能体,让车变成“懂你的司机”

车企推进语音控驾的终点是“AI智能体”——不是简单的语音助手,而是能融合自然语言、环境感知、决策控制的“全能助手”。比如理想的Mind GPT适配家庭场景,小鹏的天玑AIOS当智驾的“外脑”,极氪的超级Eva打通底盘和动力系统。

这个智能体未来能干啥?比如你说“导航去公司,顺路买杯星巴克”,它能规划路线、找车位;你在停车场说“找出口”,它能跟着指示牌走;甚至未来无方向盘时,它就是你和车之间的唯一媒介,还能调用支付、本地生活等服务。但现在这还只是“前夜”,离真正成熟还远。

五、短期别抱太高期待:语音控驾还在“小心翼翼试错”

目前落地的语音控驾主要是两类场景:一是云端大模型的路径规划(比如顺路找星巴克),二是座舱内的操作(比如调氛围灯)。涉及行驶控制的部分,车企都很谨慎:特斯拉是“云端派”(用大模型理解意图,只影响导航,不直接控底盘),理想是“端侧融合派”(直接加入智驾模型),但都承认还有很多安全工作要做。

专家说,现在过度强调语音控车是“本末倒置”——智驾能力成熟了,语音交互自然就有用;现在智驾还在辅助阶段,频繁语音干预反而增加风险。真正完全依赖语音驾驶,得等L4自动驾驶成熟、法规认可、事故责任清晰才行。短期来看,语音控车只是“加分项”,不是“必需品”。

最后一句话总结

语音控车是未来趋势,但现在还在“摸着石头过河”——安全第一,技术和政策都得跟上,才能让车真正“听懂人话”又“不出错”。