语音识别新进步能和汽车直接对话了

随着智能技术的发展，以语音识别为代表的，包括手势识别，面部识别在内的多模态识别技术实现了快速的突破，汽车成为了最重要的场景之一。

早期的车载语音识别，是借助于车载芯片，通过本地识别实现的，只能识别非常固定的几个词，准确率还非常低。所以当年还有“山东大哥”念电话号码，无法识别的梗。到了2013年左右，随着神经深度网络的普及和互联网技术的应用。语音技术扩展到云地结合，识别范围越来越广。逐步实现了唤醒、打断，涉及到驾车过程中的大量的操作，而且对方言的识别，对模糊词的识别，也越来越准确。

对于几乎所有的新车，语音识别都是不可或缺的，相关的语音识别开发企业，以及涉及到芯片、软件算法等相关企业，仍然在不断的提升语音识别的应用能力。

2020年，地平线基于“征程2”芯片，推出了视觉主动感知，并在量产车中实现了通过视觉的技术完成对场景的建模，让服务能够主动地提供给车主，成为业界首个实现多模语音前融合落地的车内智能交互方案，首创语音、视线、唇动、手势融合的多模智能交互框架。通过融合视觉信息做多模前融合技术，完成真实的人的认知。

4月20日，地平线在北京IC PARK举办了地平线量产级智能驾驶技术体验日。活动中，除了可以通过长安UNI-K（DEMO实车，由量产车型改装）体验Horizon Halo车载智能交互方案外，地平线车载智能交互产品总监孙浚凯还对下一代的语音技术的发展趋势，分享了看法。

多模语音应用实车演示（DEMO实车，由量产车型改装）

通过DEMO CAR演示了语音全时免唤醒、可见即可说等功能。实现了隔空手势的交互，在后排是没有麦克风、物理按钮的情况下，可以在后排通过手势选择歌曲，做音量调节。

地平线车载智能交互产品总监孙浚凯

计算机视觉的技术本质是什么？

在孙浚凯看来，视觉也像语音一样，看清这个人是谁，目前的状态是什么，围绕状态的认知，下一步要理解它当前这个动作组合在一起，通过眼睛就能知道他的意图是什么。

通过电影的桥段也可以看出来，对人的真实意图的理解是多模态。视觉确实可以围绕看清、看准、看懂的方向进化，把它和语音组合在一起，去想深度理解人的意图。做到真正的多模融合的感知，才算能做到基础的察言观色。

AI的技术可以围绕对人的建模完成整体的察言观色

孙浚凯认为，2023年之后的趋势是整车智能一定会走向把车外的物理世界的建模，对人的建模按照同一个时间完成这个感知的融合。因此，基本上可以形成初步的共识就是在移动过程中是需要做这样的融合的建模，基于这样的框架，地平线面向整车智能的技术提供了一揽子的产品解决方案，包括智能驾驶、智能人机交互、流畅的人机共驾。

“征程3”强调的是多模交互融合的感知升级

孙浚凯介绍，在halo3时代，随着传感器的升级，人的眼耳口鼻通过基础传感器的升级它能力在扩展，它有更高清的眼睛，更多的耳朵，更高清的麦克风收声，它就可以实现整车交互的体验闭环。同时因为车又是很特殊的终端，它跟移动工具有很大的不同，有很独特的属性就是空间。随着车内外感知能力打通，把所有感知能力融合在一起，可以让用户有深度的心理安全和更好的交互体验。

孙浚凯表示，语音很痛的地方在于误唤醒、误识别，利用地平线多模融合技术，可以精准、细微地观察人说话的状态和唇部的特征，在方寸之间，不知不觉地，将识别的精准性大幅度提升。因为，只有识别听准了，后面才有可能真正在意图上做到听懂。有了这样的融合能力后，整体的驾驶也会更安全、更贴心、更懂你。

未来，当完成对人的建模之后，整个车是一个特殊的使用场景，是一个完整的机器，不单单需要对人进行理解，同时要对整个驾驶环境有认知。这样也就有了下一代的交互技术的开发愿景。