赋能边缘对话式AI

2026年5月19日
提供方： Altaf Hussain

语音即交互之界面——这是语音社区在2025年所传递的核心主张，至今仍具深远共鸣。语言是人类最早掌握的沟通技能之一，也是我们生活中最自然的互动方式。然而，要真正理解基于语音的对话，远不止于将语音转录为文本那么简单。恩智浦认为：凡是人类应具备的无形社交技能，任何想要与人类进行沟通的机器人(特别是人形机器人)，也必须同样掌握。

人类可以同时处理多层信息。他们会解读视觉线索，如情绪流露、手势与视线方向；能够分辨发言停止是在思考还是发言结束；能够适应多人对话及轮流发言；能够过滤噪声、回声与混响；还能根据社交场景(如场合、对方的年龄与外貌)调整自身的回应。

恩智浦在设计解决方案时始终秉持这一核心理念：任何想要与人类沟通的机器人，都必须掌握人类应具备的无形社交技能。

数十年来，AI领域已开发了多项基础语音技术，如关键词唤醒、语音转文本(STT)和文本转语音(TTS)。大语言模型(LLM)和视觉语言模型(VLM)为智能系统注入了强大的推理能力。近期，诸如音频语言模型和语音到语音模型等计划，力图弥合语音与推理之间的鸿沟。然而，迄今为止，这些方法仍未能在边缘侧为机器人提供本地化、可靠且低延迟的对话式AI解决方案。

机器人技术正推动世界迈向更高水平的智能化，在边缘侧实现感知与行动。欢迎莅临美国波士顿机器人及自动化展览会(Robotics Summit & Expo)第536号展位，现场了解我们助力实现智能机器人的最新解决方案。

当对话系统在真实环境中失效时，常规应对策略是扩大模型规模或采用更复杂的提示词加以补偿。然而，这只会进一步恶化推理延迟——从而损害用户体验——同时未能触及根本问题：输入音频信号的质量太差。

具备“知其所听”能力的多模态智能

恩智浦注意力前端语音解决方案示意图

恩智浦的注意力前端(AFE)解决方案通过融合多模态感知与音频信号净化，直击人机交互的核心挑战。该系统并非处理所有传入的音频，而是精准检测用户何时想与机器人进行交互，并对传入音频进行增强，以支持可靠、低延迟的设备端对话体验。这也带来了额外的好处：您不再需要单纯依赖庞大的云端模型。

我们的解决方案充分利用以下互补模态：

视觉：分析场景，检测并统计人员数量，识别已注册用户，估算距离，并判断正对着机器人说话的目标人员
语音：检测语音活动，识别已注册的语音特征，估算声源方向，并将收音焦点对准目标说话人(同时在后台对声学音频场景进行特征描述)

语音转文本处理仅在多个条件同时满足时才会被触发：用户同时通过视觉与声学方式被识别、检测到语音活动，并且交互发生在适当的距离与方向范围内。这一“门控”机制，结合恩智浦自主研发的语音与音频算法，可在从安静环境到嘈杂场景(如低信噪比条件)的广泛工况下，显著降低词错率(WER)。

恩智浦还集成了超宽带(UWB)技术，将空间感知能力拓展至语音与视觉之外。借助Trimension SR250等解决方案，机器人能够安全地确定用户智能手机或其他机器人的实时位置，从而了解其主人或同伴的方位并做出相应响应。UWB可提供厘米级的高精度测距，同时保持低功耗及在复杂环境下的稳定性能。这一层精确、可靠的位置信息，可增强室内外场景中的导航、交互和基于距离的行为。

集成恩智浦注意力前端的波士顿动力Spot®机器狗

从模块化设计到可量化性能

示例展示了我们的注意力前端配合语音转文本模型(如Whisper)时，词错率(WER)相比纯模型版本的改善情况。

简而言之，注意力前端助力机器人更接近人类的“倾听”方式：聚焦于正确的说话人，忽略干扰，即使在嘈杂环境中也能理解对话。通过融合视觉、语音与接近感知，它为语音识别模型提供更纯净的音频输入，从而提升响应速度与识别精度，同时在边缘侧实现更自然的对话式AI。

可通过i.MX 95评估套件(EVK)评估我们的注意力前端解决方案。如需了解更多信息或深入探讨该解决方案，请联系altaf.hussain@nxp.com。

标签: AI/ML, 技术

作者

Altaf Hussain

恩智浦半导体运输与移动细分市场市场总监

Altaf在企业、服务提供商和工业应用的应用工程、产品营销和业务开拓方面拥有30多年的经验。他目前担任恩智浦运输与移动部门的负责人，该部门专注于移动机器人、机器视觉和仓库物流自动化领域。Altaf致力于制定系统解决方案，帮助客户借助自主移动机器人加速自动化进程。他拥有英国伦敦南岸大学的电气与电子工程学士学位