在恩智浦基于Arm® Cortex® M的MCU上提供语音命令处理的支持软件技术

概述

特征

SLN-ALEXA-IOT

SLN-ALEXA-IOT

MCU Minutes | Alango Voice Enhancement Package Running on i.MX RT600 Crossover MCUs

MCU Minutes | Alango Voice Enhancement Package Running on i.MX RT600 Crossover MCUs thumbnail

通过MCUXpresso SDK提供的库和示例

恩智浦基于EdgeReady MCU的解决方案面向Alexa Voice Service (AVS) Integration for AWS IoT Core,采用i.MX RT跨界MCU,让开发人员能够快速、轻松地将Alexa语音助手功能添加到自己的产品。这种超小型的全包式硬件设计与亚马逊认证的软件完全集成,可提供现成的AVS体验,无需提前了解语音控制,就能使语音控制以最快的时间面市。请单击上面的链接了解更多信息。

恩智浦已经开发了智能语音技术(VIT),可以免费识别语音命令,而无需进行冗长而昂贵的培训。可用的合作伙伴解决方案能够将语音识别与音频播放解决方案相结合,可与MCUXpresso SDK兼容,并提供演示,对您的设计进行深入评估。

全包式AVS解决方案

  • 基于i.MX RT106A的许可证 -包括使用所有第三方软件的许可证
  • 经过Amazon AVS资格认证
  • 支持多达3个麦克风
  • 支持Wi-Fi和BLE
  • 机器学习远场音频前端
  • 无需语音或音频专业知识

全包式本地语音解决方案

  • 基于i.MX RT106L的许可证 -包括使用所有第三方软件的许可证
  • 支持多达3个麦克风
  • 支持Wi-Fi®和低功耗蓝牙
  • 机器学习远场音频前端
  • 业界领先的短语识别语音识别引擎,支持60多种语言的多达30个自定义命令。
  • 无需语音或音频专业知识

VIT

  • 通过Text2Model工具创建的英语自定义命令
  • 自定义触发字选项
  • 低延迟检测(<200ms)
  • 唤醒字+语音命令在i.MX RT1060和i.MX RT600上就绪

合作伙伴解决方案

  • 先进的音频前端和系统设计工具,用于远场语音识别的高性能预处理(DSP Concepts,Alango)
  • 人与人、人与机器通信解决方案(DSP Concepts, Alango)
  • 业界领先的短语识别语音识别引擎,支持多种语言的超过12个自定义命令,可选择通过在线text2model工具(Sensory)来创建

智能语音技术(VIT)

VIT基于最先进的深度学习和语音识别技术,由恩智浦公司开发,是一款完整的唤醒词/语音命令解决方案。VIT在MCUXpresso SDK中支持的恩智浦设备上免费提供,目前支持英语。VIT功能包括:

  • 唤醒词引擎(WWE),它使用了培训所需的已记录的触发词文件。在培训阶段使用数据增强技术来整合数据集中的可变性。神经网络分类器确定提取的音素序列是否与目标关键字对应。
  • 不需要音频数据集的语音命令引擎(VCE)。目标语音命令(在脱机过程中)被转换为单词符号序列,VCE(在运行时)确定提取的音素序列是否对应于特定的单词符号序列(以及命令)。1个型号支持从大量词汇中选择的约30个语音命令。

VIT支持的平台如下:

设备系列 内核 协处理器 推荐评估板
i.MX RT600 Cortex-M33 Cadence® Tensilica® HiFi 4音频DSP MIMXRT685-EVK
i.MX RT1060 Cortex-M7 - MIMXRT1060-EVK

合作伙伴语音处理解决方案

恩智浦已与语音识别(例如Sensory)和远场音频前端(例如DSP Concepts&Alango)领域的领先企业合作,为我们基于Arm Cortex-M的微控制器系列提供一系列专业的高性能解决方案。

Alango

Alango的DSP/MCU声音处理软件技术提高了语音通信的质量,并增强了汽车免提系统、蓝牙通信耳机、智能扬声器、移动和无绳电话、高端音频/视频会议系统、对讲机系统、笔记本电脑、办公室扬声器、平板电脑、助听器和助听增强设备的音频体验。

下面是Alango为恩智浦Arm Cortex-M微控制器提供的语音产品。Alango的产品还支持多款恩智浦i.MX处理器

Alango产品 概述 i.MX RT600 Arm® Cortex® M33+Cadence Xtensa Hifi4 DSP i.MX RT 1xxx Arm Cortex M7
OnlyVoice OnlyVoice 是Alango的先进语音采集技术,适用于真正的无线(TWS)耳机、蓝牙耳机和耳塞以及高性能耳机。
语音活动检测(VAD) Alango的语音活动检测(VAD)技术能够可靠地检测到声音信号中的人类语音。这项技术基于一个专有的、实时运行的高分辨率光谱噪声估计算法。
语音通信包(VCP) 语音通信包(VCP)是用于语音应用的数字信号处理技术的通用软件包,可在各种环境下实现高品质、全双工和无噪声通信。
语音增强包(VEP) 语音增强包(VEP)是一套实时软件DSP技术,旨在提高语音控制多媒体设备的语音识别性能。

DSP Concepts

使用Audio Weaver Designer创建、调优和制造音频功能,这是一个低代码实时拖放界面,具有实时模块检查器和400多种不同音频构建块。使用AWE Core将高度优化的音频部署到恩智浦最受欢迎的嵌入式处理器上。定制您自己的播放声音,并将其与音频前端TalkTo相结合,实现市场上性能最高的语音控制系统。TalkTo可在极其嘈杂的环境中检测并提取微弱的语音命令,并通过AVS 2.1高级版和Google ART版。

下面显示了面向恩智浦基于Arm Cortex-M微控制器的DSP Concepts产品。DSP Concepts的产品还支持多款恩智浦i.MX处理器

DSP Concepts产品 概述 i.MX RT600 Arm Cortex M33+Cadence Xtensa Hifi4 DSP
Audio Weaver Designer 一个低代码实时拖放界面,具有实时模块检查器和400多种不同音频构建块,可快速集成或创建高级音频功能。
TalkTo TalkTo是一个音频前端,也是市场上性能最高的语音控制系统。TalkTo可在极其嘈杂的环境中检测并提取微弱的语音命令,并通过AVS 2.1高级版和Google ART版。

Sensory

Sensory的TrulyHandsfree唤醒词和短语识别技术以响应速度快、功耗低以及在远距离或嘈杂环境中的出色性能而闻名。这项技术是家庭、汽车和任何可以部署语音用户界面地方的全功能语音控制设备不可或缺的组成部分。Sensory的技术与DSP Concepts等其他合作伙伴的前端处理解决方案相辅相成。它可用于Arm Cortex M4/M33/M7内核,也可用于Cadence Xtensa DSP内核。TrulyHandsfree与Sensory VoiceHub兼容,使开发人员能够快速构建自定义命令的模型,并通过文本输入唤醒词。

Sensory还支持多款恩智浦的其他产品,包括i.MX处理器