摘要:为了更精确地从语谱图中提取特征信息,提出了一种基于 A-DResUnet 的语音增强方法。 A-DResUnet 模型在 ResUnet 模型的基础上融合了空洞卷积,提升捕获语音上下文信息的能力;同时在编码器中加入卷积注意力模块(CBAM),提高对噪声 谱图特征的关注。 实验结果表明,与模型输出目标为干净语音语谱图相比,用噪声谱图作为模型输出目标时,该模型对未知噪 声具有更强的分离能力;相较 ResUnet 模型,提出的 A-DResUnet 模型减少了语音细节信息的损失;对比基于 DNN、GAN 的语音 增强方法,PESQ 平均提升了 22. 81%、33. 11%,STOI 平均提升了 9. 62%、15. 33%,为复杂环境下的语音增强提供了一种更有效 的方法。