计算机应用   2016, Vol. 36 Issue (11): 3212-3216  DOI: 10.11772/j.issn.1001-9081.2016.11.3212
0

引用本文 

李强, 陈浩, 陈丁当. 基于隐马尔可夫模型的语音激活检测算法[J]. 计算机应用, 2016, 36(11): 3212-3216.DOI: 10.11772/j.issn.1001-9081.2016.11.3212.
LI Qiang, CHEN Hao, CHEN Dingdang. Voice activity detection algorithm based on hidden Markov model[J]. Journal of Computer Applications, 2016, 36(11): 3212-3216. DOI: 10.11772/j.issn.1001-9081.2016.11.3212.

基金项目

重庆市科委自然科学基金资助项目(cstc2015jcyjA40027)

通信作者

; 陈浩(1992-), 男, 重庆人, 硕士研究生, 主要研究方向:语音信号处理, chenhaovs53@163.com

作者简介

李强(1968-), 男, 湖南邵阳人, 副教授, 硕士, 主要研究方向:音视频信号处理;
陈丁当(1990-), 女, 福建龙岩人, 硕士研究生, 主要研究方向:语音信号处理

文章历史

收稿日期:2016-05-25
修回日期:2016-07-04
基于隐马尔可夫模型的语音激活检测算法
李强, 陈浩, 陈丁当    
信号与信息处理重庆市重点实验室(重庆邮电大学), 重庆 400065
摘要: 针对现有基于隐马尔可夫模型(HMM)的语音激活检测(VAD)算法对噪声的跟踪性能不佳的问题,提出采用Baum-Welch算法对具有不同特性的噪声进行训练,并生成相应噪声模型,建立噪声库的方法。在语音激活检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型;同时,为了适应语音信号的实时处理,降低了语音参数提取的复杂度,并对判决阈值提出改进,以保证语音信号帧间的相关性。在不同噪声环境下对改进算法进行性能测试并与自适应多速率编码(AMR)标准、国际电信联盟电信标准分局(ITU-T)的G.729B标准比较,测试结果表明,改进算法在实时语音信号处理中能够有效提高检测的准确率及噪声跟踪能力。
关键词: 隐马尔可夫模型    语音激活检测    Baum-Welch算法    噪声库    阈值    
Voice activity detection algorithm based on hidden Markov model
LI Qiang, CHEN Hao, CHEN Dingdang     
Chongqing Key Laboratory of Signal and Information Processing(Chongqing University of Posts and Telecommunications), Chongqing 400065, China
Background: This work is partially supported by the National Natural Science Foundation of Chongqing Municipal Science and Technology Commission (stc2015jcyjA40027).
LI Qiang, born in 1968,M. S., associate professor. His research interests include audio and video signal processing.
CHEN Hao, born in 1992,M. S. candidate. His research interests include video signal processing.
CHEN Dingdang, born in 1990,M. S. candidate. His research interests include video signal processing.
Abstract: Concerning the problem that the existing Voice Activity Detection (VAD) algorithms based on Hidden Markov Model (HMM) were poor to track noise, a method using Baum-Welch algorithm was proposed to train the noise with different characteristics, and the corresponding noise model was generated to establish a library. When voice activity was detected, depending on the measured background noise of the speech, the voice was dynamically matched to a noise model in the library. Meanwhile, in order to meet real-time requirements of speech signal processing, reduce the complexity of the speech parameter extraction, the threshold was improved to ensure the inter-frame correlation of the speech signal. Under different noise environments, the improved algorithm performance was tested and compared with Adaptive Multi-Rate (AMR), G.729B of the International Telecommunications Union (ITU-T). The test results show that the improved algorithm can effectively improve the accuracy of detection and noise tracking ability in real-time voice signal processing.
Key words: Hidden Markov Model (HMM)    voice activity detection    Baum-Welch algorithm    noise library    threshold    
0 引言

语音激活检测(Voice Activity Detection, VAD)[1]算法可以区分出语音信号中的语音段和背景噪声段,在语音增强[2]、语音编码[3]和语音侦听[4]等领域有着广泛的应用。在语音增强方面,利用VAD检测出背景噪声信号,计算输入信号信噪比并对其进行降噪处理,达到提高语音质量的目的。在语音侦听过程中,为减少设备节点耗能,采用VAD算法可实时检测出当前语音的语音段。在语音编码中,目前多种语音编码国际标准采用了VAD技术,如国际电信联盟电信标准分局(International Telecommunication Union, ITU-T)的G.729B、第三代合作伙伴计划(The Third Generation Partner Project, 3GPP)的自适应多速率编码(Adaptive Multi-Rate, AMR)等。AMR和G.729B标准中的VAD算法首先提取语音帧的特征参数值,然后将其与某一阈值进行比较,判断出该帧是语音帧还是噪声帧。这种判决方法具有算法简单、实时性好等优点,但在复杂噪声环境下的检测效果不太理想。由于基于统计模型的VAD算法,如基于隐马尔可夫模型(Hidden Markov Model, HMM)的VAD算法能够很好地描述语音信号的短时平稳性及其状态转移过程,在低信噪比环境下判决结果较为理想,成为当下研究的热点。在目前基于HMM的VAD算法中,也存在如下几个问题:1) 现有算法通过对语音信号和背景噪声信号进行训练,分别生成对应的隐马尔可夫模型,然后利用Viterbi算法进行语音激活检测,使其在低信噪比下具有较好的判决效果;但在训练噪声模型时,由于采用单一噪声信号进行训练,算法的噪声跟踪能力不佳,如果实际应用环境存在多种噪声源时,算法判决准确率不高。2) 现有算法提取语音特征参数维度高,致使算法复杂度增加,难以满足VAD实时判决。3) 除此之外算法判决结果易受概率密度函数影响,也导致噪声跟踪能力不强。文献[6]对基于HMM的VAD算法进行了改进,采用了一种能很好逼近最大似然比的似然比检验(Likelihood Ratio Test, LRT)值的阈值计算方法,在一定程度上克服了HMM噪声跟踪能力不佳的缺点,但在复杂噪声环境下检测的准确率还有待提高。

为解决基于HMM的VAD算法噪声跟踪能力不佳的问题,本文提出了一种基于HMM的语音激活改进算法,首先采用Baum-Welch算法对具有不同特性的噪声进行训练,生成相应的噪声模型,建立噪声库。对语音信号进行VAD检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型,提高改进算法的噪声跟踪能力。同时,为了保证语音信号的实时处理,降低了算法提取语音特征参数的复杂度,但也降低了语音信号帧间的相关性,因此对判决阈值动态提取方法进行改进,改进之后除了增加语音帧间的相关性之外,还提高了VAD检测的准确率。

1 基于HMM的VAD算法原理

一个系统在任意时刻都可以被认为是处在N个不同的状态中的某个状态,在一定的时间间隔上,系统状态按照一组与当前状态有关的概率发生改变,通过计算HMM产生观测序列的概率,即可求出最有可能产生的状态序列。

1.1 HMM的定义

隐马尔可夫模型λ可以由一组参数{A, B, π}决定,即:

$ \lambda = \{ \boldsymbol{A},\boldsymbol{B},\pi \} $ (1)

其中:A是状态转移矩阵,表示由状态si转移到状态sj的概率,状态转移概率是相互独立的,其数学表达式为:

$ \boldsymbol{A} = [{a_{ij}}],{a_{ij}} = p\left( {{q_{t + 1}} = {s_i}|{q_t} = {s_j}} \right) $ (2)

其中:qt为系统在t时刻所处的状态,对应的观测序列为Qt; 1≤i, jN

式(1)中B为观测矩阵,数学表达式为:

$ \boldsymbol{B} = [{b_i}\left( k \right)];{b_i}(k) = p({v_k}|{q_t} = {s_i}) $ (3)

其中bi(k)表示从状态qt-1转移到qt的时产生观测符号vk的概率。

式(1)中π是HMM的初始分布状态,即t=0时刻模型中各个状态的分布概率,表示为:

$ \pi = [{\pi _i}];{\pi _i} = p({q_1}|{s_i}) $ (4)

综上所述,确定参数A, B, π即可确定模型λ

在确立HMM之后,通过Baum-Welch算法、Viterbi算法及前后向算法,对HMM进行优化、模型决策和模型评估。

1.2 基于HMM的VAD算法

根据1.1节对HMM的定义可知,采用HMM区分语音段和背景噪声段主要包含两个模块:1) 采用Baum-Welch算法分别对语音信号和背景噪声信号进行训练生成对应的隐马尔可夫模型;2) 利用Viterbi算法进行语音激活检测。

1.2.1 训练模块

语音/噪声模型训练的基本步骤为:

1) 采集语音信息,对其进行人工标注,得到语音信号与背景噪声信号。

2) 对语音信号进行预加重、分帧、预滤波、加窗等预处理。

3) 提取语音的特征参数,由于梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficient, MFCC)特征对语音信号具有良好的拟合效果,因而提取该特征作为HMM的观测序列。

MFCC的定义如下:

$ {C_n} = \sqrt {\frac{2}{M}} \sum\limits_{m = 0}^{M - 1} {\lg \left[ {E\left( m \right)} \right]\cos \left( {\frac{{\pi n\left( {2m - 1} \right)}}{{2M}}} \right)} $ (5)

其中:E(m)是滤波器能量系数;m表示的是第m个滤波器,共有M个滤波器,n代表维数,其计算公式如下:

$ E\left( m \right) = \sum\limits_{k = 0}^{N - 1} {\left\{ {{S_w}\left( k \right) \times {H_m}\left( k \right)} \right\}} ;0 < m < M $ (6)

其中:Sw(k)是语音信号的频谱,而Hm(k)是一组三角带通滤波器,k代表频域中的第k条谱线。

4) 对语音信号的隐马尔可夫模型λ1和背景噪声信号的模型λ0分别进行初始估计,采用Baum-Welch算法分别对λ1λ0进行参数调整使其适应于观测序列,生成最佳模型。

通过上述的训练步骤即可生成语音信号模型和背景噪声信号模型,训练工具一般采用英国剑桥大学工程学院开发的隐马尔可夫模型工具包(Hidden Markov Model Toolkit, HTK)[8]

1.2.2 检测模块

采用HMM区分语音帧与背景噪声帧的本质是根据观测序列找出对应的“隐藏”状态,即解码问题,因此,采用Viterbi解码算法进行语音激活检测。基于HMM的语音激活检测步骤如下:

1) 对待测语音信号进行预处理,并提取特征参数作为HMM的观测序列。

2) 采用Viterbi解码算法计算当前帧(第t帧)的“隐藏”状态为语音的最大概率p(Ot|λ1)和背景噪声的最大概率p(Ot|λ0)。

3) 计算当前帧(第t帧)的最大似然比LRT值,其计算公式为:

$ LRT(t){\rm{ = }}\frac{{p({O_t}|{\lambda _1})}}{{p({O_t}|{\lambda _0})}} $ (7)

其中:p(Ot|λj)=$ $[δT(i)], j=0, 1。

4) VAD判定,将计算出的LRT值与阈值进行比较,决定当前帧的判定结果。

当前帧的VAD判决取决于当前帧的LRT值。如果LRT(t)≥η(η为阈值),将当前帧判为语音帧,即VAD_flag=1;反之则将当前帧判为背景噪声帧,即VAD_flag=0。

2 基于HMM的VAD改进算法

针对基于HMM的VAD算法对噪声的跟踪性能不佳的缺点,根据背景噪声的不同特性,建立噪声库,提高算法的噪声跟踪性能。

原有的训练模块提取语音特征参数作为HMM的观测序列,采用Baum-Welch算法分别对语音信号和背景噪声信号进行训练,生成相应的最佳HMM。然而,利用单一背景噪声特征训练生成的噪声模型进行VAD检测时,对具有不同特性的背景噪声检测效果并不理想,因此,改进算法针对不同特性的背景噪声进行训练,生成适应各种背景噪声的最佳模型,建立噪声库。其基本原理如图 1所示。

图 1 语音/噪声模型训练原理

图 1中,λ01, λ02, …, λ0N分别表示对不同背景噪声特征进行训练生成的最佳HMM,N表示噪声库中噪声模型的总数。

采用建立的噪声库和语音模型进行VAD检测如图 2

图 2 基于HMM的VAD改进算法原理

图 2可知,基于HMM的VAD改进算法步骤如下:

1) 预处理。

主要包括加窗分帧等处理过程。由于语音信号在10~30 ms内具有短时平稳性,即语音特征参数保持基本不变,另外考虑到目前通信系统中语音编码器帧长大多为20 ms,因此改进的VAD算法以20 ms为一帧进行判断。

2) 提取语音特征参数。

为了保证VAD算法的实时性,降低提取参数过程中的复杂度,改进算法只提取13维的MFCC特征作为HMM的观测序列,13维的MFCC系数包括12维的Mel系数,1维的能量系数。并采用拉普拉斯分布作为语音的概率密度函数,表示为:

$ f(x) = \frac{1}{{\sqrt 2 \sigma }}\exp \left( { - \frac{{\sqrt 2 }}{\sigma }|x - \mu |} \right){\rm{ ; }} - \infty < x < + \infty $ (8)

其中:x为HMM的观测序列,μx的均值,σ2x的方差。

3) 噪声模型匹配。

建立噪声库模型后,需选取中最适合待测语音的背景噪声的模型来对其进行检测。在语音通话过程中,一般情况下,语音的前20帧被默认为背景噪声帧,因而,这段时间的语音信号可用来判定待测语音段的背景噪声类型,具体的判定方法为:

①  当帧数t < 10时,采用前向算法计算隐马尔可夫模型分别产生待测语音观测序列的概率,将当前帧的背景噪声标志位NOISE_flag指向产生观测序列概率最大的隐马尔可夫模型,即:

$ NOISE\_flag = \mathop {\arg \max }\limits_{1 \le i \le N} [p({O_t}|{\lambda _{0i}})] $ (9)

②  当帧数t=10时,若超过8帧的NOISE_flag相同,则确定该段语音的背景噪声类型为NOISE_flag所指向的噪声,即待测语音段的最佳匹配噪声模型λ0=λNOISE_flag;否则,继续统计第10帧至第20帧的NOISE_flag,出现次数最多的NOISE_flag所指向的噪声模型为待测语音的最佳匹配模型。

4) LRT值的计算。

采用Viterbi解码算法分别估计当前帧“隐藏”状态为语音或者背景噪声的最大概率根据式(7)计算其LRT值。其中,当背景噪声类型未被确定时,噪声模型λ0采用当前帧的λNOISE_flag,确定噪声类型以后则采用最佳匹配噪声模型。

5) 阈值计算。

为了使算法具有更好的鲁棒性和对背景噪声环境的适应性,阈值η的选取必须考虑到过去帧最大似然比LRT值对当前帧LRT值的影响。文献[6]采用了将前t-1帧的LRT值均值引入阈值计算的方法,使得阈值能够较好地逼近真实LRT值,其数学表达式如下:

$ \left\{ \begin{array}{l} \eta (t + 1) = {\rho _i}v(t) + (1 - {\rho _i})LRT(t),{\rm{ }}t > P\\ \eta (t) = v(t),{\rm{ }}\;t \le P \end{array} \right. $ (10)

其中:

$ i = {I_{(\eta (t),\infty )}}(LRT(t)) $ (11)
$ $v(t) = \frac{1}{t}\sum\limits_0^{t - 1} {LRT(t);{\rm{ }}t \ge 1} $ $ (12)

其中:I为指示函数;LRT(0)=0,当LRT(t)∈η(t), ∞)时,i=1, 反之i=0;ρi为相应的语音帧和背景噪音帧的权重。

改进算法在文献[6]采用的阈值计算方法的基础上进行优化,其理论依据为:引入新的话音基础门限v1(t),将其与前一帧LRT值按照一定的权值相加得出话音帧阈值。用该方法得到的v1(t)比文献[6]话音帧阈值略有下降,而背景噪声基础门限v0(t)采用文献[6]的基础门限,因此背景噪声阈值保持不变。这将有利于防止两个音节之间停顿部分话音帧被误判为背景噪声帧,减少“切音”现象。改进后的阈值计算公式如下:

$ \left\{ \begin{array}{l} \eta (t + 1) = {\rho _i}{v_i}(t) + (1 - {\rho _i})LRT(t),{\rm{ }}t > P\\ \eta (t) = {v_0}(t),\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;t \le P \end{array} \right. $ (13)

其中:

$ \left\{ \begin{array}{l} {v_0}(t) = \frac{1}{t}\sum\limits_0^{t - 1} {LRT(t),{\rm{ }}t \ge 1} \\ {v_1}(t) = \frac{1}{P}\sum\limits_0^P {LRT(t),{\rm{ 1}} \le t \le P} \end{array} \right. $ (14)

改进的阈值算法中ρ0ρ1根据经验值一般取ρ0=0.95、ρ1=0.75,而P默认取值为P=20。

图 3为一段女声语音的LRT曲线图、采用文献[6]和改进算法计算出的阈值曲线,语音内容为“他去无锡市,我到黑龙江”(汉语普通话),语音持续时间为3.8 s,总帧数为190。由图 3可以看出,文献[6]算法计算所得阈值能够较好地逼近LRT值,但在两个音节之间停顿部分(图 3中68帧~73帧左右的位置)的语音帧的阈值却高于LRT值,使其容易被误判为背景噪声帧。而改进的阈值计算方法降低了语音帧的门限阈值,在一定程度上弥补了文献[6]的不足。

图 3 一段语音的LRT值及阈值对比

6) VAD标志输出。

若当前帧的LRT值小于阈值,则判定为背景噪声帧,即VAD_flag=0;反之则VAD_flag=1。

3 实验和结果分析

对基于HMM的VAD改进算法在Visual Studio 2010开发环境中,用浮点C语言编程实现。为了验证改进后VAD算法的性能,本章在不同噪声环境下测试VAD算法的误判率Pc、虚警率Pe及准确率三种性能指标,并对算法性能进行评估。

实验中,选取《SJ 20852-2002军用通信系统音质MOS评价测试语音数据库》中的30条女声和30条男声作为训练样本。噪声源来自NOISEX-92噪声数据集[9],该数据集中噪声分类如表 1所示。通过在测试语料中加入不同信噪比的噪声来模拟通话时的噪声环境,采用英国剑桥大学工程学院开发的隐马尔可夫模型工具包对其进行训练,生成隐马尔可夫模型,建立待测语音噪声库。其中,SJ20852-2002数据库包含三名男性和三名女性说话人的语音信号,采样率为8 kHz,16 bit均匀量化。

表 1 NOISEX-92噪声库中噪声分类

图 4是采用改进的VAD算法对选自SJ20852-2002数据库的某一段安静环境下的语音信号进行处理得到的检测结果以及LRT和阈值曲线。语音内容为“司令员说话真干脆,文艺要为工农兵服务”(男声汉语普通话),持续时间为5.95 s,总帧数为297帧。图 4(b)为采用改进算法所得出的LRT曲线及其阈值,其中实线为改进算法求得的LRT曲线,虚线为改进阈值计算方法计算所得阈值,当LRT值大于阈值时,VAD_flag=1;反之VAD_flag=0。由图 4可知,改进算法在安静环境下,对语音信号拥有良好的检测效果。

图 4 安静环境下语音信号LRT曲线及检测结果

为了更好地验证改进算法在噪声环境下的性能,随机选取SJ20852-2002数据库中16条男声与16条女声作为测试样本(每条语音信号持续时间约10 s),噪声则选取NOISEX-92噪声数据集里收录的8种实际应用中的噪声。在不同信噪比的不同噪声环境下以VAD检测的准确率指标对改进算法的性能进行评价,并将测试结果与AMR中的VAD算法(AMR-VAD)、文献[6]中的VAD算法、G.729中的VAD算法(G.729-VAD)进行比较分析。

由测试结果可知:在平稳噪声环境中,改进的VAD算法的判决准确率高于AMR中的VAD算法和文献[6]中的VAD算法与G.729标准中的VAD算法;在非平稳含基频噪声环境中,其他三种判决算法随着信噪比的降低,判决准确率明显下降,而改进算法的判决准确率下降幅度较小,且判决准确率高于其他三种算法;在非平稳不含基频的噪声环境中,改进算法的准确率高于其他三种算法,尤其是在枪声等脉冲噪声环境下,改进算法的判决准确率明显高于其他三种算法。由此可知,改进VAD算法的噪声跟踪性能优于AMR的VAD算法、文献[6]中的VAD算法以及G.729的VAD算法,具有较好的鲁棒性。

图 5平稳窄带噪声环境下的准确率对比图 6平稳宽带噪声环境下的准确率对比图 7非平稳含基频噪声环境下的准确率对比图 8非平稳不含基频噪声环境下的准确率对比

图 5 平稳窄带噪声环境下的准确率对比
图 6 平稳宽带噪声环境下的准确率对比
图 7 非平稳含基频噪声环境下的准确率对比
图 8 非平稳不含基频噪声环境下的准确率对比

表 2为各种噪声环境下VAD检测误判率、虚警率测试结果对比,选取NOISEX-92噪声库中平稳窄带噪声中的m109噪声、平稳宽带噪声中的white噪声,非平稳含基频噪声中的babble噪声以及非平稳不含基频噪声中的factory1噪声作为测试噪声。

表 2 各种噪声环境下的实验结果对比

表 2中可以看出,AMR中的VAD算法判决的虚警率较大,甚至在非平稳噪声环境下,虚警率高达29.99%;G.729中的VAD算法误判率与虚警率均较高,稳定性较差;文献[6]中的算法在噪声环境下的误判率较高但虚警率较低,说明噪声对其判决的影响较大;而改进算法在这四类噪声环境下误判率和虚警率均较低,尤其是低信噪比环境下的误判率远低于文献[6]中的算法。以上分析说明,改进算法能够在保证一定误判率的情况下,降低虚警率。

4 结语

针对现有HMM的VAD算法噪声跟踪能力不佳的缺点,提出并实现了一种基于HMM的VAD改进算法。改进算法对不同的噪声采用Baum-Welch算法进行训练生成HMM,在VAD检测时,语音信号提取的特征参数作为HMM的观测序列,自适应地匹配噪声库中的噪声模型和语音模型求得对应隐藏状态的最优概率,计算LRT值。在不同噪声环境下,对不同信噪比的语音信号,采用误判率、虚警率和准确率指标进行VAD性能测试,结果表明,改进VAD算法的噪声跟踪性能、检测准确率均优于AMR标准、G.729标准和文献[6]中的VAD算法。

参考文献
[1] KOLA J, ESPY-WILSON C, PRUTHI T. Voice activity detection[R/OL].[2016-01-20]. http://www.ece.umd.edu/merit/archives/merit2011/merit_fair11_reports/report_Kola.pdf.
[2] OUKHERFELLAH M, BAHOURA M. FPGA implementation of voice activity detector for efficient speech enhancement[C]//Proceedings of the 2014 IEEE 12th International New Circuits and Systems Conference. Piscataway, NJ:IEEE, 2014:301-304.
[3] BERITELLI F, CASALE S, RUGGERI G, et al. Performance evaluation and comparison of G. 729/AMR/fuzzy voice activity detectors[J]. IEEE Signal Processing Letters, 2002, 9 (3) : 85-88. doi: 10.1109/97.995824
[4] 张金榜, 尹冬梅. 基于统计模型的语音激活检测算法改进[J]. 微型机与应用, 2015, 34 (12) : 14-16. ( ZHANG J B, YIN D M. An improved voice activity detection algorithm of the statistical model-based[J]. Microcomputer & its Applications, 2015, 34 (12) : 14-16. )
[5] SUH Y, KIM H. Multiple acoustic model-based discriminative likelihood ratio weighting for voice activity detection[J]. IEEE Signal Processing Letters, 2012, 19 (8) : 507-510. doi: 10.1109/LSP.2012.2204978
[6] ZHOU B, LIU J, PEI Z. Noise-robust voice activity detector based on four states-based HMM[J]. Applied Mechanics and Materials, 2013, 411/412/413/414 : 743-748.
[7] RONAO C A, CHO S B. Human activity recognition using smartphone sensors with two-stage continuous hidden Markov models[C]//Proceedings of the 201410th International Conference on Natural Computation. Piscataway, NJ:IEEE, 2014:681-686.
[8] 肖佳林, 赵聿晴, 王英. 基于HMM与SVM的语音活动检测[J]. 计算机工程, 2014, 40 (1) : 203-208. ( XIAO J L, ZHAO Y Q, WANG Y. Voice activity detection based on HMM and SVM[J]. Computer Engineering, 2014, 40 (1) : 203-208. )
[9] 李嘉安娜.基于噪声环境下的语音端点检测方法研究[D].广州:华南理工大学, 2015:7-40. ( LI J A N. Research of voice activity detection method in noise environment[D]. Guangzhou:South China University of Technology, 2015:7-40 )
[10] CHANG J H, KIM H. Multiple acoustic model-based discriminative likelihood ratio weighting for voice activity detection[J]. IEEE Signal Processing Letters, 2012, 19 (8) : 507-510. doi: 10.1109/LSP.2012.2204978
[11] LUO B, ZHENG P, LI X, et al. A new method based on HMMS and k-means algorithms for noise-robust voice activity detector[J]. Applied Mechanics & Materials, 2012, 128/129 : 461-464.
[12] LIANG Y, LIU X L, LUO Y h, et al. An improved noise-robust voice activity detector based on hidden semi-Markov models[J]. Pattern Recognition Letters, 2011, 32 (7) : 1044-1053. doi: 10.1016/j.patrec.2011.02.015