2. 中山大学 电子与信息工程学院, 广州 510006
2. School of Electronics and Information Technology, Sun Yat-Sen University, Guangzhou Guangdong 510006, China
过去由于技术条件限制,传统窄带电话网络的语音信号都以8 kHz采样成数字信号进行处理与编码传输,其对应的编码标准有ITU(International Telecommunication Union)的G.729与GSM(Global System for Mobile Communication)等窄带语音编码标准。人类语音的主要信息都集中在频率为0.1~3.4 kHz的范围内。窄带语音在保留大部分语音特性的前提下节省了带宽开销,适合长途电话通信,但也牺牲了一些处于高频部分的语音成份,如辅音等。然而语音信号在0.3~7.5 kHz频谱范围所包含的信息使声音听起来更加饱满与自然,这对通话的可理解性与舒适性有着重要的影响。长时间地使用窄带语音通话会令人产生听觉疲劳,但0.3~3.4 kHz范围的窄带电话网络带宽限制了语音通话质量的提高[1]。随着通信技术的发展,宽带语音通信已经实现商业应用,但原有的窄带通信系统在很长一段时间会继续使用,出现两种通信系统长期并存的状态。在窄带与宽带系统中进行语音通信,通过窄带语音的带宽扩展技术使得宽带系统的终端能够回放比窄带语音具有更丰富频谱成分的宽带语音,能增加通信业务的附加值。
一般来讲,窄带语音带宽扩展依据人体发音的信号与系统模型(线性源滤波器模型)作为扩展思路,利用分析-扩展-合成的框架实现。先把窄带语音通过线性预测分拆为激励信号与包络信号,并分别对它们进行扩展,再将扩展后的激励与包络信号合成为宽带语音。
依据是否带边信息,窄带语音带宽扩展可以分为盲与非盲两类方法。盲扩展方法仅传送窄带信号,并依据宽带信号的先验特征统计信息进行匹配,选择信号的备选扩展素材进行带宽扩展;非盲扩展方法则必须对语音进行宽带的16 kHz采样,并抽取3.4~7.5 kHz高频部分中有代表性的特征作为边信息,窄带信号与边信息同时传送到带宽终端并被用于带宽扩展。边信息包含宽带语音高频段的关键特征,这使得非盲方法有较好的扩展性能。
盲扩展方法依据语音信号的分析-合成策略,先把窄带语音通过线性预测分拆为激励信号与包络信号,并分别对它们进行扩展,再将扩展后的激励信号与包络信号合成为宽带语音,如文献[2-3]分别利用训练好的高斯混合模型(Gaussian Mixture Model, GMM)与隐马尔可夫模型(Hidden Markov Model, HMM)估计宽带语音包络。文献通过选择与扩展带谱包络互信息大的窄带语音特征来估计宽带谱包络。深度学习神经网络分别被文献[5-6]用于映射窄带语音特征与宽带语音特征的关系。文献[7-8]利用Boltzmann机分别取代GMM来表示窄宽两带的频谱包络统计分布,进一步结合循环神经网络约束的Boltzmann机[8]可更充分利用语音帧间相关性来提高性能。这类基于深度学习的扩展方法以极高的复杂度代价来获得性能的提高。
文献[9]指出窄带与高频带之间的互信息与高频带的感知熵的比率,表明仅依靠窄带语音包络特征来提高扩展语音的质量是非常有限的。引入高频带部分的特征信息较好地补充了盲扩展方法的局限。带有边信息的非盲扩展方法除了对窄带语音作分析、扩展与合成外,对实时高频部分信号提取有效特征作为嵌入边信息,有效地提高了扩展质量。文献[10]对宽带语音的高频谱有音信息编码,然后嵌入到窄带频谱中低于听觉感知掩蔽曲线以下的区域中。该方法在不破坏窄带语音质量前提下传输边信息,避免了对其额外传输,可以兼容于现有窄带通信网络。标量科斯塔方案(Scalar Costa Scheme, SCS)是一种具有信息隐藏的数据通信模型,并且是其中一种次优的科斯塔方案[11]。依据该模型,文献[12]提出基于SCS模型的带宽扩展方法,该方法结合听觉掩蔽阈值与信道噪声估计来选择被嵌的子带。
谱平移或谱折叠[1]是激励信号常用的扩展方法,它把原窄带信号简单地“搬移/复制”到高频带区域,并没有考虑高频带区域的激励信号特点。文献[13]依据谐波主要集中在低频段0~2 kHz,提出了一种中频激励方法,其只选取窄带语音的2~4 kHz带宽内的激励信号进行扩展,避免了强谐波进入扩展带。
为了更精确地重建扩展带的激励信号,本文提出一种激励分段扩展方法。该方法的依据是语音的激励信号在有音区多为基频整数倍频率的正弦波,而在辅音区则近似白噪声。此外,通常情况下语音的辅音出现在能量较高的高频部分,次高频则是混合区域,因此所提出的激励分段扩展更加符合语音的频谱分布特点。
1 基于HMM的最小均分误差语音带宽扩展基于HMM的贝叶斯最小均分误差(Minimum Mean-Square Error, MMSE)语音带宽扩展方法系统框图如图 1所示。该方法分两条扩展支线,即图 1上半部分进行谱包络扩展与宽带线性预测系数重构,下半部分实现激励信号扩展。最终扩展后的激励信号输入到线性预测系数构成的合成滤波器得到重构宽带语音。
宽带语音的线性预测系数用于构成宽带语音的合成滤波器。其重构过程表示为:组合估计的扩展带谱包络与原窄带谱包络,组合后的谱包络通过逆傅立叶变换转为自相关函数,然后通过列文森-杜宾(Levison-Dubin)算法转换为线性预测系数。具体流程如图 2所示。
由于扩展带语音谱包络的估计谱包络的对数与倒谱之间是一对傅立叶变换对,因此扩展带语音谱包络的估计可先估计其对应的倒谱,然后对其倒谱作傅立叶变换与指数运算得到。倒谱用对数运算,这使得倒谱的MMSE估计器符合听觉感知特性。图 2中扩展带谱包络倒谱估计器采用基于HMM的贝叶斯MMSE准则对当前语音帧输入窄带语音的Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)特征进行估计,得到对应的扩展带谱包络倒谱系数向量,如图 3所示。
图 3中估计前先要训练HMM的各种参数,包括状态转移概率、观察概率以及隐含发射概率的状态类质心的确定。有很多文献陈述HMM参数集训练,这里不再赘述。
假设n为当前帧时间索引,输入窄带语音的特征向量为x(n), 其与之前的所有特征向量可以组成观察训练序列:X(n)={x(1), x(2), …, x(n)}。再设扩展带谱包络倒谱向量为y(n), 则MMSE准则可以表示为:
$ {\mathit{\boldsymbol{\hat y}}_{{\rm{MMSE}}}} = {\rm{E}}[\mathit{\boldsymbol{y}}|\mathit{\boldsymbol{X}}] = \int_{{{\bf{R}}^d}} {\mathit{\boldsymbol{y}}p(\mathit{\boldsymbol{y}}|\mathit{\boldsymbol{X}})} {\rm{d}}\mathit{\boldsymbol{y}} $ | (1) |
其中Rd为d维倒谱空间,p(y|X)可以通过HMM的Ns个状态{S1, S2, …, SNs}表示为:
$ p(\mathit{\boldsymbol{y}}|\mathit{\boldsymbol{X}}) = \sum\limits_{i = 1}^{{N_s}} {p(\mathit{\boldsymbol{y}}, {S_i}|\mathit{\boldsymbol{X}})} $ | (2) |
依据联合概率公式有:
$ p(\mathit{\boldsymbol{y}}, {S_i}|\mathit{\boldsymbol{X}}) = p(\mathit{\boldsymbol{y}}|{S_i}, \mathit{\boldsymbol{x}})P({S_i}|\mathit{\boldsymbol{X}}) $ | (3) |
式(2)、(3) 代入式(1) 可得到:
$ {\mathit{\boldsymbol{\hat y}}_{{\rm{MMSE}}}} = \sum\limits_{i = 1}^{{N_s}} {p({S_i}|\mathit{\boldsymbol{X}})} \int_{{{\bf{R}}^d}} {\mathit{\boldsymbol{y}}p(\mathit{\boldsymbol{y}}|{S_i}, \mathit{\boldsymbol{x}})} {\rm{d}}\mathit{\boldsymbol{y}} $ | (4) |
其中
$ {\mathit{\boldsymbol{\hat y}}_{{\rm{MMSE}}}} = \sum\limits_{i = 1}^{{N_s}} {{{\mathit{\boldsymbol{\hat y}}}_i}p({S_i}|\mathit{\boldsymbol{X}})} $ | (5) |
其中p(Si|X)可以依据训练好的HMM参数集合计算,具体参考文献[3]。
1.3 激励信号的谱平移扩展语音扩展处理领域中,谱平移方法被用于对激励信号进行扩展,如文献[3]等。谱平移可以采用时域调制方法来实现。将窄带激励信号unb(k)乘以一个频率为ΩM (通常为3 400 Hz)的正弦信号,得到以ΩM为中心具有相同频谱的时域激励信号,再通过高通滤波器去除镜像频谱,得到仅包含高频扩展带频谱的时域信号。原窄带激励信号通过延时滞后(调制后的激励信号通过高通滤波器会产生延时)与扩展的激励信号相加得到宽带激励信号ûwb(k), 其原理如图 4所示,其中图 4的上支路是谱平移,而下支路仅是原信号延迟。
谱平移激励信号所合成的宽带语音有类似于金属摩擦的人造音,听起来缺乏自然度,重建的宽带语音的高频段能量高于原语音信号[14]。从图 6中的语谱示意图可以看出,产生上述问题归根结底在于谱平移方法所产生的宽带激励信号中高频带激励信号是窄带激励信号复制,导致窄带与高频带之间的谐波结构没有对齐而使整个发音的完整性遭到破坏,加上高频带能量没有加以调整,因此使得人造的激励信号成分能量过大以致于合成的语音信号中产生人耳可闻的金属声。
宽带激励信号中低频段后的谐波结构在中频段3.4~5.7 kHz出现较多,但对比窄带频段又比较模糊,因此不宜用全频的窄带激励信号进行谱平移;在5.7~8 kHz激励信号则表现为白噪声。因此本文对激励扩展的谱平移方法作如下改进:在3.4~5.7 kHz频段仍采用谱平移(如图 4上半部分所示),平移对象仍是窄带激励信号。选取谱平移的调制频率ΩM= 2.3 kHz,使得平移后的最高频率不超出5.7 kHz,再后接高通滤波器(截至频率fc= 3.4 kHz)把混叠的部分去掉,得到所需要的3.4~5.7 kHz频段的激励信号;5.7~8 kHz频段的激励信号则采用白噪声并用帧能量增益调整,以防止激励信号的高频段能量过大产生人耳可闻的杂音。增益因子采用窄带激励信号的方差σun2:
$ \sigma _{{u_{nb}}}^2 = \frac{1}{{{N_k}}}\sum\limits_{k = 1}^{{N_k}} {{{({u_{nb}}(k)-\mu )}^2}} $ | (6) |
其中:Nk为一帧内窄带激励信号的采样点数,μ为窄带激励信号的均值。整个激励方法流程如图 5所示,其中所有高通滤波器都使用有限长单位脉冲响应(Finite Impulse Response, FIR)线性相位滤波器,具有相同的阶数49,则群延时为24,也就是滤波器产生的延时。
整个激励分段扩展算法如下:
1) 由图 1中的“分析滤波器”得到窄带激励信号unb(k)。
2) 同时处理下面3个支路信号:
上支路:
① uwb1(k)=unb(k-24)。
中间支路:
① unbtemp1(k)=unb(k)·2cos(ΩM·k);
② uwb2(k)=unbtemp1(k)⊗Fhigh1(k)。
下支路:
① 用式(6) 求得σunb;
② uwbtemp1(k)=σunb·gnoise(k);
③ uwb3(k)=uwbtemp2(k)⊗Fhigh2(k)。
3) 合并输出:
① ûwb(k)=uwb1(k)+uwb2(k)+uwb3(k)。
其中Fhigh1(k)与Fhigh2(k)分别是截止频率fc为3.4 kHz与5.7 kHz的高通滤波器。该算法是时域上对一帧长度的输入信号unb(k)进行处理,输出的ûwb(k)同样也是一帧的数量。因此高通滤波器所做的卷积运算与式(6) 计算的增益所处理的点数由帧长决定。
3 实验设计和结果 3.1 实验条件本文采用的实验平台为Matlab 2014。采用的语音库为CMU的ARCTIC数据库[15],选取其中100句的英文短句作为训练语音样本,选取另外10句不包含在训练样本中的英文短句作为测试语音样本。扩展系统实现中,取MFCC作为特征矢量,其提取采用Mel滤波器组个数为15,即窄带语音的语音特征为15维的MFCC。高频带谱包络倒谱CC设定为8维矢量,因此HMM模型的状态数为8。训练采用LBG(Linde-Buzo-Gray)算法,码书大小为500。基2上采样后的窄带语音一帧为400采样点,频带扩展后的宽带语音每帧也为400采样点。
3.2 实验结果与分析 3.2.1 语谱图分析实验采用HMM-MMSE谱包络扩展下得到的合成滤波器系数,激励信号扩展分别采用本文的分段扩展与谱平移扩展。各自得到的宽带激励信号输入宽带合成滤波器得到重构的宽带语音。以语音库中一句英语短句作为处理语料,结果如图 6所示。图左上角椭圆区域属于6.5~7.5 kHz的高频部分。原宽带语音存在一些不规则成分。激励分段扩展方法所恢复的能量要比谱平移方法更加接近于原信号,特别是圈右侧图中的那个竖条频谱。中频3.5~5 kHz部分的椭圆区域,两种方法实际上都是谱平移,但所平移的部分不同。此区域分布着一些带谐波的频谱以及一些能量低的辅音或者无音部分。谱平移方法在恢复谐波区域的同时,提高了辅音或者无音区域的能量。本文方法更加接近原宽带语音的语谱分布。
3.2.2 失真评测实验采用对数谱失真(Log-Spectral Distortion, LSD)、语音质量感知评估(Perceptual Evaluation Of Speech Quality, PESQ)与倒谱距离(Cepstrum Distance, CD)分别对提出的分段激励扩展方法进行评测。谱包络扩展采用HMM-MMSE方法。对数谱失真LSD通过计算合成宽带语音与原宽带语音之间的对数频谱差异值来反映待测语音的失真度大小。计算所得LSD值越小,则反映出待测语音的失真度越小,表明扩展合成语音出现人造杂音的现象越少。LSD可以定义[16]为:
$ \begin{array}{l} LSD = \\ \frac{1}{L}\sum\limits_{l = 0}^{L-1} {{{\left\{ {\frac{1}{{\frac{M}{2} + 1}}\sum\limits_{k = 0}^{\frac{M}{2}} {{{(10\;\lg CX(k, l)-10\;\lg C\hat X(k, l))}^2}} } \right\}}^{1/2}}} \end{array} $ | (7) |
其中:
PESQ是国际电信联盟提出的一种通过客观评价方法来模拟主观评价的一种打分方法[15], 取值范围在0.5~4.5, 语音质量越好其分值越大。PESQ评测需要参考语音,参考语音的最高得分为4.5, 被测语音值都会低于4.5。依据文献[17]中PESQ的计算方法计算10条扩展合成语音的平均PESQ值。
倒谱距离CD是计算语音与合成语音间倒谱差的一种语音测度。平均CD定义[18]为:
$ CD = \frac{1}{L}\sum\limits_{l = 0}^{L-1} {\left\{ {\frac{{10}}{{\ln 10}}{{\left\{ {2\sum\limits_{k = 1}^D {{{({c_k}-{{\hat c}_k})}^2}} } \right\}}^{1/2}}} \right\}} $ | (8) |
其中:ck为倒谱系数,D为倒谱的阶数。
三种指标的评测结果如表 1所示。由表 1可知所提出的激励分段扩展会稍微降低失真的客观评价指标LSD与CD,并且略微提高表示主观评价的PESQ,因为语音带宽扩展的质量主要由包络扩展好坏决定。相对而言,激励扩展影响语音扩展的质量较弱。
在源滤波器语音带宽扩展方案中,激励信号扩展是其中一个重要问题。本文在现有谱平移扩展基础上提出对激励信号进行分段扩展,并基于HMM源滤波器带宽扩展方法进行了带宽扩展实验。客观测试及语谱图实验结果表明,相比传统的谱平移扩展方法,所提出的激励分段扩展可提高重建语音的质量。目前语音通信系统的窄带传输网络(如2G无线、PSTN)仍在使用,而支持16 kHz采样的通话终端已经普及。通过终端的语带宽扩展方法来提高通话质量,是一种低成本减轻窄带传输所造成的话音质量下降的有效方法。
[1] | JAX P, VARY P. Bandwidth extension of speech signals:a catalyst for the introduction of wideband speech coding?[J]. IEEE Communications Magazine, 2006, 44(5): 106-111. DOI:10.1109/MCOM.2006.1637954 |
[2] | PARK K-Y, KIM H S. Narrowband to wideband conversion of speech using GMM based transformation[C]//ICASSP' 00:Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC:IEEE Computer Society, 2000, 3:1843-1846. https://www.researchgate.net/publication/2642113_Narrowband_To_Wideband_Conversion_Of_Speech_Using_Gmm_Based_Transformation |
[3] | JAX P, VARY P. On artificial bandwidth extension of telephone speech[J]. Signal Processing, 2003, 83(8): 1707-1719. DOI:10.1016/S0165-1684(03)00082-3 |
[4] | 张勇, 胡瑞敏. 基于高斯混合模型的语音带宽扩展算法的研究[J]. 声学学报, 2009, 34(5): 471-480. (ZHANG Y, HU R M. Research on speech bandwidth extension algorithm based on Gauss mixture model[J]. Journal of Acoustics, 2009, 34(5): 471-480.) |
[5] | WANG Y, ZHAO S, LIU W, et al. Speech bandwidth expansion based on deep neural networks[C]//InterSpeech-2015:Proceedings of the 16th Annual Conference of the International Speech Communication Association.[S.l.]:ISCA, 2015:2593-2597. |
[6] | LI K, LEE C-H. A deep neural network approach to speech bandwidth expansion[C]//Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ:IEEE, 2015:4395-4399. https://www.researchgate.net/publication/285430088_A_deep_neural_network_approach_to_speech_bandwidth_expansion |
[7] | WANG Y, ZHAO S, LI J, et al. Speech bandwidth extension using recurrent temporal restricted Boltzmann machines[J]. IEEE Signal Processing Letters, 2016, 23(12): 1877-1881. DOI:10.1109/LSP.2016.2621053 |
[8] | 王迎雪, 赵胜辉, 于莹莹, 等. 基于受限玻尔兹曼机的语音带宽扩展[J]. 电子与信息学报, 2016, 38(7): 1717-1723. (WANG Y X, ZHAO S H, YU Y Y, et al. Speech bandwidth extension based on restricted Boltzmann machine[J]. Journal of Ectronic and Information, 2016, 38(7): 1717-1723.) |
[9] | NILSSON M, GUSTAFTSON H, ANDERSEN S V, et al. Gaussian mixture model based mutual information estimation between frequency bands in speech[C]//ICASSP' 02:Proceedings of the 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC:IEEE Computer Society, 2002, 1:525-528. https://www.researchgate.net/publication/3949205_Gaussian_mixture_model_based_mutual_information_estimation_betweenfrequency_bands_in_speech |
[10] | DING H. Wideband audio over narrowband low-resolution media[C]//ICASSP' 04:Proceedings of the 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing. Washington, DC:IEEE Computer Society, 2004, 1:489-492. https://www.researchgate.net/publication/4087450_Wideband_audio_over_narrowband_low-resolution_media |
[11] | EGGERS J J, BAUML R, TZSCHOPPE R, et al. Scalar Costa scheme for information embedding[J]. IEEE Transactions on Signal Processing, 2003, 51(4): 1003-1019. DOI:10.1109/TSP.2003.809366 |
[12] | SAGI A, MALAH D. Bandwidth extension of telephone speech ai-ded by data embedding[J]. EURASIP Journal on Advances in Sig-nal Processing, 2007, 2007(1): 064921. DOI:10.1155/2007/64921 |
[13] | 张勇, 刘轶. 窄带语音带宽扩展算法研究[J]. 声学学报, 2014, 39(6): 764-773. (ZHANG Y, LIU Y. Research on narrowband speech bandwidth extension algorithm[J]. Acta Acustica, 2014, 39(6): 764-773.) |
[14] | LIU X, BAO C-C. Audio bandwidth extension based on temporal smoothing cepstral coefficients[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2014, 2014: 41. DOI:10.1186/s13636-014-0041-6 |
[15] | KOMINEK J, BLACK A W. The CMU Arctic speech databases[C]//SSW5-2004:Proceedings of the Fifth ISCA ITRW on Speech Synthesis.[S.l.]:ISCA, 2004:223-224. https://www.researchgate.net/publication/228978129_The_CMU_Arctic_speech_databases |
[16] | COHEN I, BENESTY J, GANNOT S. Speech Processing in Modern Communication:Challenges and Perspectives[M]. Berlin: Springer-Verlag, 2010: 32. |
[17] | International Telecommunication Union. ITU-T Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs[S]. Geneva, Switzerland:International Telecommunication Union, 2001. |
[18] | KITAWAKI N, NAGABUCHI H, ITOH K. Objective quality evaluation for low-bit-rate speech coding systems[J]. IEEE Journal on Selected Areas in Communications, 1988, 6(2): 242-248. DOI:10.1109/49.601 |