什么是语音反欺骗,为什么它很重要?
语音反欺骗是一组技术,旨在防止涉及模仿语音的诈骗企图,并通过防止意外触发来改善 VUI 系统的整体 UI/UX 体验。 这些技术对于防止与以下方面相关的问题尤为重要:
- 语音合成 (SS): 这种类型的攻击使用计算机模拟语音
- 语音转换 (VC): 在这种攻击中,使用过滤器和其他工具使冒名顶替者的声音听起来尽可能接近目标个人的声音
- 重放攻击 (RA): 欺诈者使用预先录制的受害者声音样本
- 模仿: 攻击者模仿受害者的声音音调、韵律特征和词汇等特征
- 滋扰触发: 当人工语音意外触发系统时,就会出现此问题,从而给用户带来不便
这些攻击和问题会严重破坏语音系统的完美使用体验,因此需要一个强大的解决方案。
语音反欺骗是如何工作的?
语音反欺骗的工作原理是检测和防止语音欺骗攻击,这些攻击可能涉及录制的、计算机生成的或计算机修改的语音。 以下是其工作原理的一些关键组成部分:

- 关键字检测: 系统需要经过训练,以识别某人何时在说话或触发命令。 例如:“Hi Renesas”触发系统。
- 特征提取: 系统从输入语音信号中提取特定特征,例如音色、发音、语调和词汇行为
- 欺骗性语音检测 (SSD): 这组措施用于识别和防止语音欺骗攻击。 例如,重放攻击会产生某些信号伪影,这些伪影有时是人耳无法区分的,但高级算法会找到并识别这些伪影以准确确定活度。
- 分类: 提取特征后,使用分类器将语音分类为真实语音或录制语音
通过使用这些技术,语音反欺骗系统可以有效地对抗不同类型的语音欺骗攻击,并增强整体用户体验......此外,它还能向各地的智能门铃用户保证,门外的人真的是您的邻居。
瑞萨电子应用实例
瑞萨电子的语音反欺骗技术专为速度和响应能力而设计,同时保持高精度,并且完全在边缘完成。 我们将 RA MCU 系列(RA6、RA4、RA2 系列)和 RX MCU 系列的硬件与 Cyberon 语音技术栈 相结合,以识别触发/唤醒词,然后使用 Reality AI 生成的模型来检查信号中的真实语音与录制的语音。
瑞萨电子的 Reality AI 模型使用“Hi Renesas”作为唤醒词。 用户可以使用任何常见的英语口音和自然的声调质量(男性或女性)来使用此解决方案。 我们的测试结果表明,使用手机扬声器(iPhone 或 Android)播放的录制语音时该模型的准确率为 为 96%,在训练 K-Fold 验证中准确率为 ~99%。

我们是如何创建应用示例的?
利用瑞萨电子的IDE,e² studio,用户可以收集数据,集成Cyberon的语音技术栈进行唤醒词检测(Hi Renesas),并最终集成使用Reality AI Tools® 模块生成的任何AI模型。

我们收集了一小群人的真实数据(通过瑞萨电子硬件麦克风录制)和录音数据。 这些数据被输入到 Reality AI 的特征提取和训练引擎,以开发和输出模型。 我们实现了 ~99% 的训练 K-Fold 准确率,这促使我们选择该模型进行现场测试和基准测试。
然后,该模型被集成到 e² studio 项目,并在不包括在训练集中的人员的实际办公室环境中进行了广泛测试,以进行基准测试,准确率达到 96%。

在基于VUI的系统中整合此应用示例,必将引发更多的适配需求。为了简化这一过程,我们可以借鉴“语音反欺骗应用示例”作为参考。 有关更多信息,您可以在 Reality AI 工具 页面上找到开发资源,或联系您当地的销售代表。
结论
瑞萨电子的反欺骗应用示例展示了Reality AI工具应对现实世界挑战、改善用户体验和增强语音用户界面(VUI)系统的能力。 我们的 AI 模型占用空间小,并且可以通过利用广泛的数据收集来进行灵活的扩展。