基于分离结果信噪比估计与自适应调频网络的单通道语音分离技术

引用本文

张锐, 吕俊. 基于分离结果信噪比估计与自适应调频网络的单通道语音分离技术[J]. 广东工业大学学报, 2023, 40(2): 45-54. DOI: 10.12052/gdutxb.210149.

Zhang Rui, Lyu Jun. Single-channel Speech Separation Based on Separated SI-SNR Regression Estimation and Adaptive Frequency Modulation Network[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2023, 40(2): 45-54. DOI: 10.12052/gdutxb.210149.

基金项目:

国家自然科学基金资助面上项目(62073086)

作者简介:

张锐(1997−)，男，硕士研究生，主要研究方向为单通道语音分离及深度学习。

通信作者

吕俊(1979−)，男，副研究员，博士，主要研究方向为机器学习，生物医学信号处理，E-mail：lujun.rylj@gmail.com

文章历史

收稿日期：2021-10-13

Contents Abstract Full text Figures/Tables PDF

基于分离结果信噪比估计与自适应调频网络的单通道语音分离技术

张锐, 吕俊

广东工业大学自动化学院, 广东广州 510006

收稿日期：2021-10-13

基金项目：国家自然科学基金资助面上项目(62073086)

作者简介：张锐(1997−)，男，硕士研究生，主要研究方向为单通道语音分离及深度学习。

通信作者：吕俊(1979−)，男，副研究员，博士，主要研究方向为机器学习，生物医学信号处理，E-mail：lujun.rylj@gmail.com.

摘要: 在实际应用中，语音分离模型往往受到未知噪声的干扰，从而出现泛化性能严重退化的问题。据此本文提出了基于分离结果信噪比估计与自适应调频网络的单通道语音分离方法。该方法首先通过预测网络对测试信号分离结果的尺度不变信噪比进行估计，以此计算模型的认知不确定性；然后，设计自适应调频网络针对不确定性较高的信号进行自适应频谱调节，以降低模型认知不确定性，从而提升模型在面对未知噪声时的泛化能力。实验结果表明：本文提出的方法相比于单独的时域卷积语音分离网络，将SI-SNR指标从2.72 dB提升至4.57 dB，增幅达到67.94%，在泛化能力上具有较大的改善；相比于增加了软掩膜过滤机制的时域卷积语音分离网络，将SI-SNR指标从3.32 dB提升至4.57 dB，增幅达到37.65%，表明该方法在提高泛化能力方面的能力优于软掩膜过滤机制。

关键词: 语音分离不确定性度量噪声鲁棒神经网络

Single-channel Speech Separation Based on Separated SI-SNR Regression Estimation and Adaptive Frequency Modulation Network

Zhang Rui, Lyu Jun

School of Automation, Guangdong University of Technology, Guangzhou 510006, China

Abstract: In practical applications, speech separation models are often disturbed by unknown noise, resulting in serious degradation of generalization performance. To solve this problem, Single channel speech separation method based on separate SNR regression estimation and adaptive frequency modulation network is proposed. Firstly, the scale invariant SNR of test signal separation results is estimated by prediction network to calculate the cognitive uncertainty of the model; Then, an adaptive frequency modulation network is designed to adjust the spectrum of signals with high uncertainty to reduce the cognitive uncertainty of the model, so as to improve the generalization ability of the model in the face of unknown noise. The experimental results show that compared with the Conv-Tasnet, the proposed method improves the SI-SNR (Scale Invariant SNR) from 2.72 dB to 4.57 dB, with an increase of 67.94%, and has a great improvement in generalization ability. Compared with Conv-Tasnet with Soft-Mask, the SI-SNR is increased from 3.32 dB to 4.57 dB, with an increase of 37.65%, indicating that this method has better generalization ability than soft mask mechanism. It effectively alleviates the serious degradation of generalization ability of speech separation network in the face of unknown noise.

Key words: speech separation uncertainty measurement noise robustness neural network

语音分离问题又称为鸡尾酒会问题，其目标是将目标语音信号从多人的混杂语音或者背景噪声干扰中分离出来^[1]，在移动通信、语音识别和说话人识别中有广泛的应用^[2]。根据输入信号的通道数量可以将语音分离技术分为单通道语音分离技术(Single Channel Speech Separation, SCSS)和多通道语音分离技术(Multi-Channel Speech Separation, MCSS)。

单通道语音分离技术与多通道语音分离技术相比，能够在实际生活中找到更多的适用场景，比如利用通信设备的麦克风进行远程交流、人与智能设备之间的交流等，均以单通道语音分离技术为核心进行语音分离任务。相比多通道语音分离技术，单通道语音分离技术所需的硬件要求和成本较低，但是分离难度更高。由于单个麦克风部署简单、价格低廉等特点,单通道语音分离技术也在各个领域都得到了广泛的应用^[3]。因此，研究单通道语音分离技术并对该技术进行推进能够在现实生活中具有较高的实用意义。

目前的单通道语音分离技术主要受制于只包含单个语音输入信号，这对算法提出了更高的要求。多通道语音分离技术能够具有多条语音输入信号，因此算法就能够通过对比不同语音输入信号之间的差异得到空域信息，利用空域信息对噪声进行较大程度的消除，从而实现多通道语音分离。单通道语音分离场景下只能够获得单个语音输入信号，因此没办法通过输入信号之间的差距提取出有效的空域信息，所以单通道语音分离技术对于算法框架提出了更高的要求，并且目前已有的单通道语音分离技术模型在输入的语音信号包含着未知噪声干扰时，会出现分离指标急速下降，从而导致泛化能力严重不足的问题。

针对在面对未知噪声时，SCSS模型会出现泛化能力严重退化的问题，本文基于以上方法，在时域卷积语音分离网络(Conv-Tasnet)的基础上，提出了基于分离信噪比回归估计与自适应调频网络的单通道语音分离方法(Single Channel Speech Separation Method based on Separate SNR Regression Estimation and Adaptive Frequency Modulation Network, SSM-REFM)。SSM-REFM与Conv-Tasnet语音分离网络不同的是，SSM-REFM增加了不确定性回归预测的结构，使得SSM-REFM在输入信号包含未知噪声干扰时分离指标不会出现急速下降的问题，从而提升了模型的泛化能力。针对每一条测试信号，SSM-REFM首先通过预测网络对输入信号通过Conv-Tasnet网络后的尺度不变信噪比(Scale-Invariant Signal-Noise Ratio, SI-SNR) 进行回归估计，并计算其与训练集、验证集SI-SNR分布的差异，从而对该信号的不确定性进行度量；然后，针对输入信号具有较高不确定性的场景，通过自适应频域网络对该信号进行频域调节，从而降低模型对该信号的认知不确定性。本文提出的框架相比于单独的时域卷积语音分离网络，将测试集数据进行语音分离任务的平均SI-SNR从2.72 dB提升至4.57 dB，增幅达到67.94%。

1 相关研究综述 1.1 现有方法

单通道语音分离到目前为止已经得到了较好的发展^[4]，在深度学习被应用在该领域之前，学者们便提出了基于听觉场景分析(CASA) ^[5]、非负矩阵分解(NMF) ^[6]、隐马尔科夫模型(HMM) ^[7]等传统方法在语音分离领域的运用。CASA根据人类听觉信号处理规则和特点建立起来对声音处理的听觉场景分析模型。NMF是基于音频频谱图具有低秩的特性，并且基于可以用少量基来表示的假设，通过寻求少量基进行单通道语音分离。HMM可以对动态变化的信号进行建模，该技术对于处理结构化和高度时变的噪声具有成功的应用^[8]。

然而，这些传统技术存在着对信号的要求较高、分离效果较差等问题，无法有效贴合现实中的应用场景^[9]，因此引入深度学习网络进行单通道语音分离任务。

1.2 深度学习

相比于传统方法，深度学习网络在单通道语音分离任务上获得了更好的分离效果^[10-11]。目前主流的分离方法有两种，分别是基于频域的语音分离方法和基于时域的语音分离方法。其中基于频域的语音分离方法如u-PIT^[12-14]、SBF-MTSAL-Concat^[15-16]、Voicefilter^[17-18]。它们的优势是可以更好地配合上一些信号处理领域的语音信号处理方法，能够更加容易地得到一些更加结构化和稀疏的语音特征表达，但是也具有一定的劣势，如相位重建、实时性上均具有一定的劣势。为了解决基于频域的语音分离方法所带来的问题，越来越多的学者在近几年开始研究基于时域的语音分离方法并且取得了一定的成果，如TasNet^[19]、Conv-Tasnet^[20-22]、DPRNN-TasNet^[23-24]、SpEx^[25]、SpEx+^[26]等，通过这些基于时域的语音分离方法，可以把包含噪声的语音信号从时域中变换到一个实数域潜空间，利用数据驱动的形式学习其特征表示，且这些方法不存在相位重建带来的长时延问题，能够做到采样点级别的实时性。以上的研究都是基于面临的噪声是模型在训练中已经训练过的噪声，这与现实应用场景不一致^[27-30]。由于噪声具有难以预测和多样性的特点，在现实应用中通常会出现未知噪声使模型面临泛化能力严重退化的难题，因此如何分离包含未知噪声的单通道语音信号一直是语音信号处理领域亟待解决的难点之一^[31]。

1.3 不确定性度量方法

不确定性度量(Uncertainty quantification, UQ) 方法在减少决策过程中不确定性的影响方面发挥着关键作用，它们已被应用在解决科学和工程领域的各种现实应用中^[32]。贝叶斯近似是最广泛使用的不确定性度量方法^[33-36]。但是贝叶斯近似需要进行大量的Monte Carlo采样，需要较多的计算资源，且效率较低。因此学者们引入了基于距离的不确定性度量方法^[37-39]。然而，目前已有方法在面对未知噪声干扰时仍然存在模型泛化能力严重退化的问题。

Wang等^[40]提出一种简单而有效的自修复网络SCN，通过SCN网络修正深层网络参数，有效防止深层网络对不确定性较高的人脸图像过拟合，使得深层网络在面对添加了不同噪声干扰的人脸图像时，仍然具有较为稳定的识别结果。Tagasovska等^[41]提出的OCs函数能够将所有训练样本映射到零，将含有认知不确定性的样本映射到非零值，从而实现度量模型的认知不确定性。

2 问题描述及系统框架 2.1 问题描述

在单通道语音分离网络中，输入信号 ${\boldsymbol{y}}\left(t\right) $ 主要由说话人语音信号 ${\boldsymbol{x}}\left(t\right) $ 和噪声信号 ${\boldsymbol{n}}\left(t\right) $ 叠加组成，本文主要研究两个说话人在噪声环境下的语音分离任务，因此 ${\boldsymbol{y}}\left(t\right) $ 可表示为

$ {\boldsymbol{y}}\left(t\right) ={{\boldsymbol{x}}}_{1}\left(t\right) +{{\boldsymbol{x}}}_{2}\left(t\right) +{\boldsymbol{n}}\left(t\right) $

(1)

式中： $ {{\boldsymbol{x}}}_{1}\left(t\right) $ 和 $ {{\boldsymbol{x}}}_{2}\left(t\right) $ 分别表示两个说话人的语音信号， $ {\boldsymbol{n}}\left(t\right) $ 表示噪声信号。本文设置训练集、验证集及测试集，其中训练集、验证集的噪声分布与测试集的噪声分布不一致，因此测试集中的噪声可以表示为未知噪声。本文的任务是需要从混合信号 $ {\boldsymbol{y}}\left(t\right) $ 中估计出 $ {{\boldsymbol{x}}}_{1}\left(t\right) $ 和 $ {{\boldsymbol{x}}}_{2}\left(t\right) $ 。

2.2 系统框架

本文提出的SSM-REFM由预测网络、调频网络和语音分离网络组合而成，对于未知噪声环境下的语音具有更好的分离效果。SSM-REFM包括预测网络、调频网络和Conv-Tasnet语音分离网络，系统框架图如图1所示。ρ为预估不确定性，代表模型对于输入信号的不适应性；α为触发门限，表示模型对于不确定性的容忍度；D_β为截止门限，表示训练集分离SNR的β百分位数，代表调频网络对于输入信号的修正程度。

图 1 SSM-REFM 系统框架图 Figure 1 SSM-REFM system frame diagram

其中，预测网络对测试信号经过语音分离网络后的分离信噪比进行回归估计，并计算其与训练集、验证集SI-SNR分布的差异，从而度量Conv-Tasnet模型分离该信号的认知不确定性 $\rho $ ， $\rho $ 的计算方式如式(2)所示。

$ \rho = \frac{{{\rm{SNR}}_{{\rm{pred}}} - {\rm{percentile}}\left\{ {{D_{50}}} \right\}}}{{{\rm{percentile}}\left\{ {{D_{95}}} \right\} - {\rm{percentile}}\left\{ {{D_5}} \right\}}} $

(2)

式中： ${\rm{SNR}}_{{\rm{pred}}}$ 代表测试信号通过预测网络得到的预估SI-SNR， $D$ 代表训练集的SI-SNR集合， ${\rm{percentile}}\left\{{D}_{95}\right\}、{\rm{percentile}}\left\{{D}_{50}\right\}、{\rm{percentile}}\left\{{D}_{5}\right\}$ 分别代表训练集SI-SNR的第95百分位数、第50百分位数、第5百分位数。

调频网络负责针对不确定性较高的信号进行频域调节，在不过多损失原始信号信息的条件下降低模型的认知不确定性，将调频后的信号输入预测网络得到预估SI-SNR。调频预估SI-SNR达到设置的超参数修正截止门限 ${D_\beta }$ 则停止调频， $\beta \in \left[ {0,100} \right]$ ， $\beta $ 代表所设置的训练集SNR分位数。语音分离网络主要针对经过调频后的输入信号进行语音分离。因此，本文代价函数如式(3)所示。

$ {\rm{Loss}}=\underset{{\boldsymbol{\theta}} }{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{-{\boldsymbol{g}}\left({\boldsymbol{h}}\left({\boldsymbol{X}},{\boldsymbol{\theta}} \right) ,{\boldsymbol{\delta}} \right) +{\boldsymbol{\theta}} -{{\boldsymbol{I}}}^{2}\right\} $

(3)

式中： ${\boldsymbol{ \theta }}$ 表示调频网络参数矩阵， ${{\boldsymbol{\delta}} }$ 表示预测网络参数矩阵， ${\boldsymbol{g}}$ 表示预测网络， ${\boldsymbol{h}}$ 表示调频网络， ${{\boldsymbol{X}}}$ 表示原始信号， ${{\boldsymbol{I}}}$ 表示单位矩阵。

由于预测网络和调频网络在训练过程中需要用到语音分离网络的训练结果，因此在训练过程中首先训练语音分离网络，通过训练完成的语音分离网络得到训练集和验证集语音信号的分离SI-SNR，将语音信号和分离SI-SNR作为预测网络和调频网络训练及验证的标签，以此让预测网络通过学习语音分离网络的分离SI-SNR值得到预测输入信号的分离SI-SNR的能力，从而实现以语音分离网络为基础的SSM-REFM。

2.3 预测网络

预测网络的任务是对输入信号的分离信噪比进行回归预测。预测网络由两个网络组成，分别是双链路特征提取网络和全连接网络。其中双链路特征提取网络中通过将一维卷积网络、BiGRU网络、一维逆卷积网络依次串联组成了链路1，主要是为了提取输入语音信号中的时序特征；一维卷积网络、全连接网络和一维逆卷积网络依次串联组成了链路2，主要是为了通过调节卷积核尺寸大小获得更大的感受野，从而学习到除时序特征以外的其他特征；链路1和链路2的结构设计能够得到在不同维度下的语音信号表达^[42]。预测网络的网络结构图如图2所示。

图 2 预测网络结构图 Figure 2 Forecast network structure diagram

将训练数据集和验证数据集的语音信号输入到语音分离网络中，得到训练数据集和验证数据集语音信号的SI-SNR指标值，将其作为标签对预测网络模型进行训练和验证。由此构建分离信噪比回归预测网络。训练阶段选取均方差损失函数( ${\rm{MSEloss}}$ )，如式(4)所示。

$ {\rm{MSEloss}}\left( {{y_i},{{\hat y}_i}} \right) = {\left( {{y_i} - {{\hat y}_i}} \right) ^2} $

(4)

式中： ${y_i}$ 为标签， ${\hat y_i}$ 为预测网络输出。

分离信噪比回归预测网络的损失函数收敛曲线如图3所示，最佳模型出现在第224次迭代中，训练Loss为0.143，测试Loss为1.519，在验证集中表示预测SI-SNR与SI-SNR标签偏差为±1.232 dB。

图 3 预测网络收敛曲线 Figure 3 Forecast network convergence curve

依据验证集的预测性能，预测网络的参数设置如表1所示。模型训练采用的优化器为Adam，迭代步长为10⁻³，迭代次数为100。

表 1 预测网络参数设置 Table 1 Forecast network parameter

2.4 调频网络

调频网络针对测试集里不确定性较高的信号进行自适应频域调节以降低模型认知不确定性。调频网络网络结构图如图4所示。

图 4 调频网络结构图 Figure 4 FM network structure diagram

调频网络主要由快速傅里叶变换(FFT) 及其逆变换(iFFT) 、复数卷积网络组成。针对测试集中不确定性较高的每条信号，本文先对信号进行快速傅里叶变换后切分为10段，每一段通过一个复数卷积网络进行自适应调整，而后将调整后的信号进行拼接，从而实现自适应调频效果，再进行快速傅里叶逆变换转换为时域信号进行语音分离。

调频网络的参数设置如表2所示。模型训练采用的优化器为Adam，迭代步长为10⁻³，最大迭代次数为50次。

表 2 调频网络参数设置 Table 2 FM network parameter

2.5 Conv-Tasnet语音分离网络

Conv-Tasnet是一种端到端的时域语音分离的深度学习框架。Conv-Tasnet使用线性编码器生成语音波形的表示形式，并针对单个说话人的分离进行了优化。然后将一组加权函数(掩码)应用于编码器的输出来实现说话人分离。最后使用线性解码器得到分离出的语音波形。由一维膨胀卷积块组成的时域卷积网络计算掩码，这使得网络可以对语音信号的长期依赖性进行建模，同时保持较小的模型尺寸。

本文以Conv-Tasnet作为基线之一，本实验将增加SSM-REFM网络和单纯的Conv-Tasnet网络进行对比实验，说明SSM-REFM的实验效果。Conv-Tasnet参数设置如表3所示。

表 3 Conv-Tasnet网络参数设置 Table 3 Conv-Tasnet network parameter

3 实验方法 3.1 数据集描述

本文采用公开的噪声数据集NoiseX^[43]、Nonspeech^[44]和语音公开数据集LibriSpeech^[45]进行实验。NoiseX包含10种不同的噪声信号，Nonspeech包含有与NoiseX不同的8种噪声信号。对于所有的语音信号，本文都将其采样率统一设置为8 000 Hz。

从LibriSpeech中任意选取2个人的语音数据以−2.5~2.5 dB的比例进行融合，然后从NoiseX数据集中取出10种不同的噪声构成训练集和验证集的噪声数据；另外从Nonspeech噪声数据集中取出与上述噪声不同的8种噪声信号构成测试集的噪声数据。在训练集、验证集、测试集中，都分别按照−5~10 dB的任意信噪比进行噪声数据与说话人语音数据的融合，从而得到整个实验所使用的数据集。其中训练集具有7 000条包含噪声的语音信号，验证集具有3 000条包含噪声的语音信号，测试集每种噪声数据均具有375个语音信号，共3 000个包含与训练集、验证集不同噪声的语音信号样本。

3.2 评价指标

SSM-REFM框架输出为时域语音信号，通过与原始语音信号对比可以得到框架输出与原始信号之间的差别。在单通道的语音分离任务中，标准信噪比指标SNR容易造成一些误导性的结果，即仅仅依靠放大估计信号就能够轻易地提高SNR值，然而这种指标上的提高在现实感知中并没有明显的变化，因此没有实际意义^[46]。本文采用尺度不变信噪比(Scale-Invariant Signal-to-Noise Ratio, SI-SNR) 作为模型评价指标，计算方式如式(5)所示。

$ \text{SI-SNR}=10{\rm{ln}}{ \left\| \frac{\widehat{X}\cdot {X}^{\mathrm{*}}}{{ \left\|{X}^{\mathrm{*}}\right\|}^{2}}\right\|}^{2}\Bigg/{\left\|\widehat{X}-\frac{\widehat{X}\cdot {X}^{\mathrm{*}}}{{\left\|{X}^{\mathrm{*}}\right\|}^{2}}{X}^{\mathrm{*}}\right\|}^{2} $

(5)

式中： $\widehat{X} $ 代表模型输出信号， $X^* $ 为干净的语音信号。相比于SNR，SI-SNR增加了尺度不变性，防止模型仅靠放大估计信号强度从而提高评价指标的问题出现。

4 实验结果 4.1 实验结果

为验证本文提出的方法是否有效，本实验在测试集中比较了以下4种方法的分离性能：1) 不包含不确定性度量的Conv-Tasnet语音分离网络；2) 不包含不确定性度量的DPRNN-Tasnet语音分离网络；3) 基于Soft Masks^[47]方法的Conv-Tasnet语音分离网络；4) 本文提出的SSM-REFM。实验结果如表4所示。(实验中 $\alpha $ 和 $\beta $ 分别取0.50和40)

表 4 模型分离效果对比 Table 4 Comparison of separation effects of models

由表4可知：(1) 基于Soft Masks方法的Conv-Tasnet相比于Conv-Tasnet和DPRNN网络均具有更好的分离效果，说明不确定性度量的方法对于单通道语音分离是具有一定帮助的。(2) SSM-REFM的分离效果相比于其他3种方法均具有一定的提升，说明本文提出的不确定性度量方法可以提高模型在含未知噪声环境下语音分离任务中的性能。

4.2 实验过程

图5为不同模型的实验对比结果。图5(a)表示训练集的SI-SNR分布结果，图5(b)表示验证集的SI-SNR分布结果，训练集和验证集包含相同的噪声，图5(c)表示测试集的SI-SNR分布结果，测试集所使用的噪声与训练集、验证集不相同，代表模型在面对包含未知噪声语音数据时的分离效果。如图5(a)所示，4种模型在训练集中的分离效果差距不大；如图5(b)所示，与另外3种模型相比，SSM-REFM模型在验证集中的分离效果具有一定优势；如图5(c)所示，4种模型在面对包含未知噪声的语音信号时均会出现不同程度的分离性能下降问题，但是从直方图中可以看出，SSM-REFM分离后的SI-SNR分布优于另外3种模型，整体更加鲁棒，这表明SSM-REFM在面对包含未知噪声的语音信号时仍然能够保持较好的分离效果。

图 5 不同模型实验对比图 Figure 5 Experimental comparison of different Models

判断分离效果的直观指标是对比原始语音信号的语音时频图和分离后的语音时频图。本文选择两个例子进行时频图的对比展示，其中图6和图7分别代表例1中两个不同说话人的原始语音时频图、Conv-Tasnet分离后的语音时频图、SSM-REFM分离后的语音时频图。经过SSM-REFM分离后例1的SI-SNR为5.37 dB，而经过Conv-Tasnet分离后例1的SI-SNR仅有0.86 dB，同时能够从图中标记明显看出SSM-REFM分离后语音时频图与原始的语音时频图相似度更高，这代表SSM-REFM分离后的语音信号与原始语音信号的相似度更高，相比于Conv-Tasnet，SSM-REFM的语音分离效果性能更好。

图 6 例1：说话人1语音时频图 Figure 6 Example 1 Speaker 1 speech signal time-frequency map

图 7 例1：说话人2语音时频图 Figure 7 Example 1 Speaker 2 speech signal time-frequency map

例2中不同说话人的语音信号时频图对比如图8和图9所示，经过SSM-REFM分离后例2的SI-SNR为4.57 dB，而经过Conv-Tasnet分离后例1的SI-SNR仅有−0.73 dB，同样这种差距也能够从图中标记明显看出SSM-REFM分离后语音时频图与原始的语音时频图相似度更高，这也说明相比于Conv-Tasnet，SSM-REFM的语音分离效果性能更好。

图 8 例2：说话人1语音时频图 Figure 8 Example 2 Speaker 1 speech signal time-frequency map

图 9 例2：说话人2语音时频图 Figure 9 Example 2 Speaker 2 speech signal time-frequency map

相比于Conv-Tasnet，SSM-REFM增加了两个超参数的设置，分别是修正触发门限 $\alpha \in [0,1]$ 和修正截止门限 $\;\beta \in [0,100]$ ，本文测试了在不同超参数组合下SSM-REFM的效果差异，其中修正比例指使用SSM-REFM进行修正的样本数占总样本数的比例，比例越大表明通过SSM-REFM修正的样本数越多。对比结果如图10所示，当修正截止门限选择40，修正触发门限选择0.5时，SSM-REFM对于样本的SI-SNR提升最大，相比于Conv-Tasnet base on Soft Mask提升了1.2 dB，提升了36.36%。因此可以证明在选择了合适参数组合的情况下，SSM-REFM相比于其他模型具有更好的分离效果。

图 10 不同参数组合对比图 Figure 10 Comparison of different parameters

5 讨论和结论

本文提出了一种基于分离信噪比回归估计与自适应调频网络的单通道语音分离方法，以解决语音分离模型在实际应用中所面临的噪声多样性问题。首先通过预测网络对测试信号的分离结果信噪比进行估计，以此计算模型不确定性；然后，设计自适应调频网络针对不确定性较高的信号进行自适应频谱调节以降低模型认知不确定性。该方法在合适的参数条件下，将语音分离网络在测试集中的平均尺度不变信噪比从2.72 dB提升至4.57 dB，提升幅度达到67.94%。

通过Conv-Tasnet、DPRNN、基于Soft Masks的Conv-Tasnet网络和SSM-REFM的实验效果对比，针对在面对未知噪声时，SCSS模型会出现泛化能力严重退化的问题，说明本论文提出的方法具有较好的效果。

本文通过SSM-REFM网络有效地缓解了语音分离网络在面对未知噪声时出现泛化能力严重退化的问题，但是仍然存在着一些不足：

(1) 修正触发门限与修正截至门限无法自适应调整，需要进行试错实验选取最合适的参数。

(2) 只有在面对部分噪声时本文的方法才较为有效，在实验过程中仍有部分样本无法经过自适应调频减少其信号中的不确定性。

参考文献

[1]	EPHRAL A, MOSSERI I, LANG O, et al. Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation[J]. ACM Transactions on Graphics, 2018, 37(4): 1-11.
[2]	KE Y, DONG X, YAN B. Overview of patent technologies for blind separation of mixed speech signals[J]. China Science and Technology Information, 2019(5): 22-23.
[3]	朱阁. 基于深度学习的单通道语音分离技术研究[D]. 南京: 南京邮电大学, 2020.
[4]	HUANG P, KIM M, HASEGAWA J M, et al. Deep learning for monaural speech separation[C]//2014 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2014. Florence: IEEE, 2014: 1562-1566.
[5]	WU J, WANG Y. Research on speech separation based on GCC-NMF[J]. Journal of Jiangxi University of Technology, 2020, 41(5): 65-72.
[6]	GE W, ZHANG T, FAN C, et al. Human voice separation algorithm using sparse nonnegative matrix factorization and deep attractor network under noise[J]. Acta Acoustics Sinica, 2021, 46(1): 55-66.
[7]	VARGA A P, MOORE R K. Hidden Markov model decomposition of speech and noise[C]//International Conference on Acoustics, Speech and Signal Processing. New Mexico: IEEE, 1990: 845-848.
[8]	OCHIAI T, DELCROIX M, IKESHIKA R, et al. Beam-TasNet: time-domain audio separation network meets frequency-domain beamformer[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Florence: IEEE, 2020: 6384-6388.
[9]	WANG D L, CHEN J. Supervised speech separation based on deep learning: an overview[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(10): 1702-1726. DOI: 10.1109/TASLP.2018.2842159.
[10]	KRAWCZYK M, GERKMANN T. STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2014, 22(12): 1931-1940. DOI: 10.1109/TASLP.2014.2354236.
[11]	MOWLAEE P, CHRISTENSEN M G, JEBSEB S H. Improved single-channel speech separation using sinusoidal modeling[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Dallas, Texas: IEEE Signal Processing Society, 2010: 21-24.
[12]	KOLVAK M, YU Z H, JENSEN J. Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2017, 25(10): 1901-1913. DOI: 10.1109/TASLP.2017.2726762.
[13]	XU C, RAO W, XIAO X, et al. Single channel speech separation with constrained utterance level permutation invariant training using grid lstm[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Calgary, Canada: IEEE, 2018: 6-10.
[14]	XU C, RAO W, XIAO X, et al. A shifted delta coefficient objective for monaural speech separation using multi-task learning[C]//INTERSPEECH. Hyderabad, India: IEEE, 2018: 3479-3483.
[15]	XU C, RAO W, CHNG E S. Optimization of speaker extraction neural network with magnitude and temporal spectrum approximation loss[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Brighton, UK: IEEE, 2019: 6990-6994.
[16]	DELCROIX M, ZMOLIKOVA K, KINOSHITA K. Single channel target speaker extraction and recognition with speaker beam[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Calgary, Canada: IEEE, 2018: 5554-5558.
[17]	WANG Q, MUCKENHIM H, WILSON K, et al. Voice filter: targeted voice separation by speaker-conditioned spectrogram masking[C]//INTERSPEECH. Graz, Austria: IEEE, 2019: 2728-2732.
[18]	DING S, WANG Q, CHANG S, et al. Personal VAD: speaker-conditioned voice activity detection[C]//Proc. Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: Odyssey, 2020: 433-439.
[19]	TU Y, DU J, XU Y. Deep neural network based speech separation for robust speech recognition[C]//2014 12th International Conference on Signal Processing (ICSP) . Hangzhou: IEEE, 2014: 532-536.
[20]	LUO Y, MESGARANI N. Tasnet: time-domain audio separation network for real-time, single-channel speech separation[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Calgary: IEEE, 2018: 696-700.
[21]	VEKATANI S, CASEBEER J, SMARAGDIS P. End-to-end source separation with adaptive front-ends[C]//2018 52nd Asilomar Conference on Signals, Systems and Computers. California: IEEE, 2018: 684-688.
[22]	LUO Y, MESGARANI N. Conv-Tasnet: surpassing ideal time-frequency magnitude masking for speech separation[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2019, 27(8): 1256-1266. DOI: 10.1109/TASLP.2019.2915167.
[23]	LUO Y, CHEN Z, YOSHIOKA T. Dual-path rnn: efficient long sequence modeling for time-domain single-channel speech separation[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Spain: IEEE, 2020: 46-50.
[24]	WIJAYAKUSUMA A, GOZALI D R, WIDJAJA A, et al. Implementation of real-time speech separation model using time-domain audio separation network (TasNet) and dual-path recurrent neural network (DPRNN) [J]. Procedia Computer Science, 2021, 179: 762-772.
[25]	XU C, RAO W. SpEx: multi-scale time domain speaker extraction network[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 1370-1384.
[26]	GE M, XU C, WANG L. SpEx+: A complete time domain speaker extraction network[C]//INTERSPEECH. Shanghai: IEEE, 2019: 1406-1410.
[27]	JIN Y, TANG C, LIU Q. Multi-head self-attention-based deep clustering for single-channel speech separation[J]. IEEE Access, 2020, 8: 100013-100021.
[28]	SUN Y, XIAN Y, WANG W. Monaural source separation in complex domain with long short-term memory neural network[J]. IEEE Journal of Selected Topics in Signal Processing, 2019, 13(2) : 359-369.
[29]	LI Z, SONG Y, MCLOUGHLIN I. Source-aware context network for single-channel multi-speaker speech separation[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Calgary, Canada: IEEE, 2018: 681-685.
[30]	ZMOLIKOVA K, DELCROIX M, KINOSHITA K. Learning speaker representation for neural network based multichannel speaker extraction[C]//2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) . Okinawa, Japan: IEEE, 2017: 8-15.
[31]	NASSIF A B, SHAHIN I, ATTILI A, et al. Speech recognition using deep neural networks: a systematic review[J]. IEEE Access, 2019, 7: 19143-19165.
[32]	ABDAR M, POURPANAH F, HUSSAIN S, et al. A review of uncertainty quantification in deep learning: techniques, applications and challenges[J]. Information Fusion, 2021, 76: 243-297.
[33]	ROY A G, CONJETI S, NAVAB N. Bayesian quicknat: model uncertainty in deep whole-brain segmentation for structure-wise quality control[J]. Neuro Image, 2019, 195: 11-22.
[34]	CLEMENTS W R, VAN D B, ROBAGLIA B M, et al. Estimating risk and uncertainty in deep reinforcement learning[C]//2020 International Conference on Machine Learning (ICML). Austria: IMLS, 2020: 258-260.
[35]	JAIN M, LAHLOU S, NEKOEI H. DEUP: direct epistemic uncertainty prediction[C]//2022 International Conference on Learning Representations(ICLR). Online: Open Review, 2022: 292-294.
[36]	COMBALIA M, HUETO F, PUIG S, et al. Uncertainty estimation in deep neural networks for dermoscopic image classification[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle: IEEE, 2020: 744-745.
[37]	FAN X, DENG Z, WANG K, et al. Learning discriminative representation for facial expression recognition from uncertainties[C]//2020 IEEE International Conference on Image Processing (ICIP) . Abu Dhabi, Arabia: IEEE, 2020: 903-907.
[38]	ZHE L J, LIN Z, PADHY S, et al. Simple and principled uncertainty estimation with deterministic deep learning via distance awareness[J]. Advances in Neural Information Processing Systems, 2020, 33: 7498-7512.
[39]	RIBAS D, VINCENT E. An improved uncertainty propagation method for robust i-vector based speaker recognition[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Brighton, UK: IEEE, 2019: 6331-6335.
[40]	WANG K, PENG X, YANG J, et al. Suppressing uncertainties for large-scale facial expression recognition[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6897-6906.
[41]	TAGASOVSKA N, LOPEZ P D. Single-model uncertainties for deep learning[J]. Advances in Neural Information Processing Systems, 2019, 32: 6417-6428.
[42]	张锐. 基于不确定性度量的单通道语音分离算法研究[D]. 广州: 广东工业大学, 2022.
[43]	VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: Ii. noisex-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247-251. DOI: 10.1016/0167-6393(93)90095-3.
[44]	HU G, WANG D L. A tandem algorithm for pitch estimation and voiced speech segregation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2010, 18(8): 2067-2079. DOI: 10.1109/TASL.2010.2041110.
[45]	PANAYIOTOU V, CHEN G, POKEY D, et al. Libri Speech: an ASR corpus based on public domain audio books[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Oslo, Norway: IEEE, 2015: 5206-5210.
[46]	LIU Y, DELARIA M, WANG D L. Deep casa for talker- independent monaural speech separation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . Barcelona: IEEE, 2020: 6354-6358.
[47]	SALEEN N, IRFAN M. Noise reduction based on soft masks by incorporating SNR uncertainty in frequency domain[J]. Circuits, Systems and Signal Processing, 2019, 37(6): 2591-2612.