作者
Altaf Hussain
Altaf在企业、服务提供商和工业应用的应用工程、产品营销和业务开拓方面拥有30多年的经验。他目前担任恩智浦运输与移动部门的负责人,该部门专注于移动机器人、机器视觉和仓库物流自动化领域。Altaf致力于制定系统解决方案,帮助客户借助自主移动机器人加速自动化进程。他拥有英国伦敦南岸大学的电气与电子工程学士学位

语音即交互之界面——这是语音社区在2025年所传递的核心主张,至今仍具深远共鸣。语言是人类最早掌握的沟通技能之一,也是我们生活中最自然的互动方式。然而,要真正理解基于语音的对话,远不止于将语音转录为文本那么简单。恩智浦认为:凡是人类应具备的无形社交技能,任何想要与人类进行沟通的机器人(特别是人形机器人),也必须同样掌握。
人类可以同时处理多层信息。他们会解读视觉线索,如情绪流露、手势与视线方向;能够分辨发言停止是在思考还是发言结束;能够适应多人对话及轮流发言;能够过滤噪声、回声与混响;还能根据社交场景(如场合、对方的年龄与外貌)调整自身的回应。
恩智浦在设计解决方案时始终秉持这一核心理念:任何想要与人类沟通的机器人,都必须掌握人类应具备的无形社交技能。
数十年来,AI领域已开发了多项基础语音技术,如关键词唤醒、语音转文本(STT)和文本转语音(TTS)。大语言模型(LLM)和视觉语言模型(VLM)为智能系统注入了强大的推理能力。近期,诸如音频语言模型和语音到语音模型等计划,力图弥合语音与推理之间的鸿沟。然而,迄今为止,这些方法仍未能在边缘侧为机器人提供本地化、可靠且低延迟的对话式AI解决方案。
机器人技术正推动世界迈向更高水平的智能化,在边缘侧实现感知与行动。欢迎莅临美国波士顿机器人及自动化展览会(Robotics Summit & Expo)第536号展位,现场了解我们助力实现智能机器人的最新解决方案。
当对话系统在真实环境中失效时,常规应对策略是扩大模型规模或采用更复杂的提示词加以补偿。然而,这只会进一步恶化推理延迟——从而损害用户体验——同时未能触及根本问题:输入音频信号的质量太差。
恩智浦的注意力前端(AFE)解决方案通过融合多模态感知与音频信号净化,直击人机交互的核心挑战。该系统并非处理所有传入的音频,而是精准检测用户何时想与机器人进行交互,并对传入音频进行增强,以支持可靠、低延迟的设备端对话体验。这也带来了额外的好处:您不再需要单纯依赖庞大的云端模型。
我们的解决方案充分利用以下互补模态:
语音转文本处理仅在多个条件同时满足时才会被触发:用户同时通过视觉与声学方式被识别、检测到语音活动,并且交互发生在适当的距离与方向范围内。这一“门控”机制,结合恩智浦自主研发的语音与音频算法,可在从安静环境到嘈杂场景(如低信噪比条件)的广泛工况下,显著降低词错率(WER)。
恩智浦还集成了超宽带(UWB)技术,将空间感知能力拓展至语音与视觉之外。借助Trimension SR250等解决方案,机器人能够安全地确定用户智能手机或其他机器人的实时位置,从而了解其主人或同伴的方位并做出相应响应。UWB可提供厘米级的高精度测距,同时保持低功耗及在复杂环境下的稳定性能。这一层精确、可靠的位置信息,可增强室内外场景中的导航、交互和基于距离的行为。
示例展示了我们的注意力前端配合语音转文本模型(如Whisper)时,词错率(WER)相比纯模型版本的改善情况。
简而言之,注意力前端助力机器人更接近人类的“倾听”方式:聚焦于正确的说话人,忽略干扰,即使在嘈杂环境中也能理解对话。通过融合视觉、语音与接近感知,它为语音识别模型提供更纯净的音频输入,从而提升响应速度与识别精度,同时在边缘侧实现更自然的对话式AI。
可通过i.MX 95评估套件(EVK)评估我们的注意力前端解决方案。如需了解更多信息或深入探讨该解决方案,请联系altaf.hussain@nxp.com。
恩智浦半导体运输与移动细分市场市场总监
Altaf在企业、服务提供商和工业应用的应用工程、产品营销和业务开拓方面拥有30多年的经验。他目前担任恩智浦运输与移动部门的负责人,该部门专注于移动机器人、机器视觉和仓库物流自动化领域。Altaf致力于制定系统解决方案,帮助客户借助自主移动机器人加速自动化进程。他拥有英国伦敦南岸大学的电气与电子工程学士学位