随着以语音信号为代表的数字多媒体技术对现代社会越来越强的影响,说话人真伪鉴别已经成为了当下研究的热点之一。20世纪70年代后期,矢量量化(Vector Quantization, VQ)[1]作为一种新的数据压缩和编码技术广泛用于说话人识别等领域。到了80年代,隐马尔可夫模型(Hidden Markov Model, HMM)[2-3]和人工神经网络(Artificial Neural Network, ANN)[4]在说话人识别领域的成功应用,使得说话人识别技术可以应用于大词汇量、连续语音和非特定人等困难条件。1995年,Reynolds等[5]利用高斯混合模型提出了一种说话人身份识别方法;2006年,郭春霞[6]使用Mel频率倒谱系数技术(Mel Frequency Cepstrum Coefficient, MFCC)研究了说话人识别系统;2013年,潘平等[7]研究了随机共振在语音真实性检测方面的应用。
然而,到目前为止关于语音的量子理论及其应用研究仍然处于起步探索阶段,许多研究只能从某个应用或原始理论的局部观点出发,并未认识到这一理论的内涵。本文提出一种基于量子隧穿理论的说话人真伪鉴别方法,旨在探索量子隧穿理论的应用。以说话人非结构化数据为特例,来解决目前基于非结构化数据特征提取所面临的基于小数据样本下的因果关系的局限性,为大数据下的结构化与非结构化数据的特征提取提供一种可行的研究途径,为大数据分析技术提供一种基于微观解释的宏观预测机理提供一种解决方案。仿真结果表明,这种方法在降低算法复杂度和时间复杂度的同时,可获得预期的结果。
1 基础理论对于一个允许散射态和束缚态[8]的有限方势垒:
$ V(x) = \left\{ {\begin{array}{*{20}{c}} {{v_0}, }&{ - a < x < a}\\ {0, }&{\left| x \right| > a} \end{array}} \right. $ | (1) |
其中v0是势垒的高度,即势能,可根据需要进行相应的设置。由于语音信号的能量(或功率谱密度)恒大于零,因此,本算法仅考虑散射态(E > 0)。
当0 < E < v0时,定态薛定谔方程
$ E\psi = \left\{ \begin{array}{l} - \frac{{{\hbar ^2}}}{{2m}}\frac{{{{\rm{d}}^2}\psi }}{{{\rm{d}}{x^2}}}, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;x < - a\\ - \frac{{{\hbar ^2}}}{{2m}}\frac{{{{\rm{d}}^2}\psi }}{{{\rm{d}}{x^2}}} + {v_0}\psi, \;\;\;\;\;\;\; - a < x < a\\ - \frac{{{\hbar ^2}}}{{2m}}\frac{{{{\rm{d}}^2}\psi }}{{{\rm{d}}{x^2}}}, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;x > a \end{array} \right. $ | (2) |
如果入射波来自于左边,右边没有其他入射波的干扰,则通解为:
$ \psi (x) = \left\{ {\begin{array}{*{20}{l}} {A{{\rm{e}}^{ikx}} + B{{\rm{e}}^{ - ikx}}, }&{x < - a}\\ {C{{\rm{e}}^{lx}} + D{{\rm{e}}^{ - lx}}, }&{ - a < x < a}\\ {F{{\rm{e}}^{ikx}}, }&{x > a} \end{array}} \right. $ | (3) |
其中
$ \left\{ \begin{array}{l} A{{\rm{e}}^{ - ika}} + B{{\rm{e}}^{ika}} = C{{\rm{e}}^{ - la}} + D{{\rm{e}}^{la}}\\ A{{\rm{e}}^{ - ika}} - B{{\rm{e}}^{ika}} = \frac{l}{{ik}}(C{{\rm{e}}^{ - la}} - D{{\rm{e}}^{la}})\\ C{{\rm{e}}^{la}} + D{{\rm{e}}^{ - la}} = F{{\rm{e}}^{ika}}\\ C{{\rm{e}}^{ - la}} - D{{\rm{e}}^{la}} = \frac{{ik}}{l}F{{\rm{e}}^{ika}} \end{array} \right. $ | (4) |
利用其中的两个方程消去积分常数C和D,就可以得到A和F的关系式:
$ F = \frac{{A{{\rm{e}}^{ - 2ika}}}}{{{\rm{cosh}}(2la) + i\frac{{{l^2} - {k^2}}}{{2kl}}{\rm{sin}}{{\rm{h}}^2}(2la)}} $ | (5) |
定义:对于某个特定的势垒,透射波的概率幅与入射波概率幅之比,称为该波通过该势垒的隧穿系数,即有:
$ T = \frac{{{{\left\| F \right\|}^2}}}{{{{\left\| A \right\|}^2}}} = \frac{1}{{1 + \frac{{{v_0}^2}}{{4E({v_0} - E)}}{{\sinh }^2}(\frac{{2a}}{\hbar }\sqrt {2m({v_0} - E)} )}} $ | (6) |
量子隧穿系数表征了一列波通过某一势垒的概率,由此式(6) 可见,隧穿系数T是能量E的函数,它们之间的关系如图 2。
图 2表明,能量越大的粒子,透射过势垒的概率就越大,即波的穿透能力越强;若粒子的能量足够大,透射系数T就越接近1,实现完全隧穿。若假设一个阈值T0=0.95,并设波的透射系数T > T0,根据式(6),可以得到一组确定的、对应能量值ne0(图中虚线右侧的所有离散值),其中e0是这个势垒所允许完全透射的最低能量。并根据德布罗意波公式e0=hf0和抽样定理可将每个抽样频率与能量对应。因为,对抽样后的功率谱的谱线值理解为在单位抽样时间内所消耗的能量值。因此,对于每一离散的谱线值就对应为一确定的频率。
语音信号通常服从两种分布:较短语音信号服从Gauss分布;较长语音信号Laplace分布。同一说话人,由于自身生物特性结构等因素的印象,对于同样的语言内容(单字、短语或长句等),发音频率相同或在误差允许的范围内相似。对于不同的说话人,一方面发出的声音信号存在差异,这种差异就表现为频率特征上的差异,可由处于不同稳定的量子态进行描述;另一方面,不同的语音信号,当对其进行分帧处理后,由于每帧的时间很短,约为20ms左右,服从Gauss分布。因此,每一分帧语音信号可视为一个包含一组频率特征的量子波函数。不同的频率,通过相同势垒,其隧穿系数不同,所对应的隧穿后的频率不同。如果设置一组势垒,让每一个势垒有唯一的一个频率透射,即可构建一组特征向量(模式),这些特征都是非负的,且组成了一个随机向量,因此可直接用正实数向量(高斯向量)表征,而无需再用酉高斯向量表示。根据向量中元素按拟合,降维成二维概率密度函数作为模式,通过最大似然估计,能实现说话人的识别。
根据文献[10]的方法,利用本特征提取算法,获得每一个势垒的Gauss分布函数。由于有n个势垒,线性叠加仍然为Gauss分布。因此,可以得到分布函数, 如式(7):
$ P(x) = \frac{1}{{\sqrt {2\pi } \sigma }}{{\rm{e}}^{ - \frac{{{{(x - \mu )}^2}}}{{2{\sigma ^2}}}}} $ | (7) |
其中: μ表示通过势垒的平均值,σ表示通过势垒的标准差。
2 说话人识别的量子模型根据上述思想,并依据人耳对频率的响应特征[11-12],构造基于72阶的量子势垒,这类似于构建72阶特征频率滤波,简易模型如图 3所示,这个模型本身就隐含了一组频率特征向量。
根据前面的分析,构造一组特征向量(频率)为:
$ \begin{array}{l} {f_n} = A'{\pi ^2}{({a_0} + 0.00034n)^2} + B'\pi (1 + 0.09n){v_0} + C';\\ \;\;\;\;\;\;\;\;n = 0, 1, 2, \cdots \end{array} $ | (8) |
其中:n为势垒的序号;a0和v0为初始势垒的宽度和高度;根据参数估计的一般理论,A′、B′和C′为训练参数;若设an=a0+0.000 34n和vn=(1+0.09n)v0分别是第n个势垒的宽度和高度。若说话人最低频率为55 Hz,则通过式(8) 可以计算出每个势垒对应的频率值。并假设透射系数阈值T0=0.95,则在归一化后,初始势垒v0的宽度和高度为a0=0.001和v0=1.2。
由于一帧语音信号本质上是微观粒子的集体行为的表现,是平衡的随机信号,可视为一个定态。因此,对于一帧语音信号的量子波函数,根据量子理论解释为描述了粒子出现在确定地点的概率,但也可解释为获得特定能量En的概率。由于语音信号本质上是随机的和不确定的[13],对语音信号的采样就如同对量子波函数进行了测量,使之坍缩为确定的功率谱密度和与之对应的频率。根据以上分析,为了实现语音信号的特征提取,本实验构造了如图 4所示的特征参数提取模型。
模型中,端点检测的目的是去除不属于语音信号的部分;预加重处理是保证高频信号的完整性;信号分帧的目的是为了让信号尽可能地平稳以保证信号的定态特性,帧长为15 ms,帧移为5 ms;当每帧语音通过势垒组后,可获得一个参数,这个参数就是量化后的穿透能力,意味着这帧信号能透射过多少个势垒,可以用来作为特征参数;在识别部分,根据薛定谔方程的解形式,为每个说话人构建一个波函数(二维概率密度函数),这个波函数就表征了说话人的模式。
3 仿真与讨论为了验证这种方法的有效性,仿真实验选取了18个说话人为实验对象,每个人分别录取6段语音,包括单词、短语、短句和长句。语音信号的采样频率为8000Hz。所提取的参数服从波函数解的分布。通过均值和标准差就可以为每个说话人构建一个概率密度函数。每一帧有36个观测值,假设有n帧,总观测值构成可得每个人的正态分布曲线。仿真结果如图 5和图 6,通过对向量求均值和方差,如表 1所示。
对比图 5与图 6的各对应子图,(a)和(b)显示了同一说话人的特征,(c)和(d)为不同的人在不同时间(间隔1个月)的特征。很明显,由于每个人的特征不同,曲线并不相同(注意纵轴的单位不同)。具体数据如表 1所示。
由表 1可清晰地看到,在语音内容相同的情况下,不同的人具有不同的参数值,同一个人的前后两次的参数变化并不大;而不同人说相同内容时,参数值相差很大。
图 7和图 8的各对应子图显示了自同一个说话人的四段不同语音内容,但参数值却十分相近,拟合的曲线也十分一致。详细结果如表 2所示。
在表 2中,选取了两个实验对象。来自同一个人的参数非常接近,除了第2个人的第5段语音,可以作为奇异数据处理。这些参数值可以用作训练数据来为每个说话人构造一个唯一的概率密度函数。一方面,由于模型去除了经典特征提取模型中的离散傅里叶变换,大大降低了算法的复杂度。与MFCC相比,若MFCC采用24阶滤波器组,即特征参数为24维,那么,在识别部分需要将高维向量降维才能作出判别。在本模型中,虽然采用72个势垒组,维度比MFCC高,可获得更多的信息,从表面上看,似乎增加了计算的复杂度。事实上,由于在特征提取中已嵌入了自动降维处理,可直接输出二维特征密度函数,因此大大降低了识别部分的难度与计算的复杂性。
另一方面,由于将分帧后的语音帧直接视为量子态,无需作量子化处理。因此,在同一个经典计算机上,本实验利用Matlab做了大量的仿真实验,通过对MFCC进行了相关的运算速度比较,如表 3所示,结果显示出本方法的优势。
本文提出了一种基于量子理论的说话人真伪识别方法,利用量子势垒组提取说话人特征参数,利用量子随机理论处理随机信号。由于每个人的均值和方差不同,所以分布曲线不同,因此可以通过对曲线的识别区分说话人。在经典计算机上的仿真结果表明,在同样的时间内,这种方法大大地降低了算法的复杂度,将语音信号的穿透能力量化,并以此为特征参数,虽然特征数增加了,但是通过向量构造出二维说话人特征曲线,同时省略了识别算法,从而大大降低了说话人识别系统的复杂度。这种方法将为说话人识别,特别是特征参数的提取提供了一种新的研究途径,为非结构化数据的聚类研究提供了一种新方法。
[1] | HUANG J, SCHULTHEISS P M. Block quantization of correlated Gaussian random variables[J]. IEEE Transactions on Communication Systems, 1963, 11(3): 289-296. DOI:10.1109/TCOM.1963.1088759 |
[2] | LEVINSON S E, RABINER L R, SONDHI M M. An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition[J]. Bell System Technical Journal, 1983, 62(4): 1035-1074. DOI:10.1002/bltj.1983.62.issue-4 |
[3] | RABINER L R. A tutorial on hidden Markov models, selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2): 257-286. DOI:10.1109/5.18626 |
[4] | WAIBEL A, HANAZAWA T, HINTON G, et al. Phoneme recognition using time-delay neural networks[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1989, 37(3): 328-339. DOI:10.1109/29.21701 |
[5] | REYNOLDS D A, ROSE R C. Robust text-independent speaker identification using Guassian mixture speaker models[J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(1): 72-83. DOI:10.1109/89.365379 |
[6] | 郭春霞. 基于MFCC的说话人识别系统研究[D]. 西安: 西安电子科技大学, 2006. (GUO C X. The study of speaker recognition system based on MFCC[D]. Xi'an:Xidian University, 2006.) http://cdmd.cnki.com.cn/article/cdmd-10701-2006055661.htm |
[7] | 潘平, 罗辉, 李换双. 基于随机共振的语音真实性检测方法[J]. 计算机工程, 2013, 39(5): 277-279. (PAN P, LUO H, LI H S. Voice authenticity detection method based on stochastic resonance[J]. Computer Engineering, 2013, 39(5): 277-279.) |
[8] | GRIFFITHSD J. Introduction to Quantum Mechanics[M]. 北京: 机械工业出版社, 2012. (GRIFFITHS D J. Introduction to Quantum Mechanics[M]. Beijing: China Machine Press, 2012.) |
[9] | 田庚, 潘平, 刘琦. 基于量子遂穿效应的数字录音资料真实性鉴别[J]. 电脑知识与技术, 2016, 12(6): 197-200. (TIAN G, PAN P, LIU Q. The authenticity of digital recording data identification based on quantum tunnelling effect[J]. Computer Knowledge and Technology, 2016, 12(6): 197-200.) |
[10] | 余华, 方棣棠, 李树青, 等. 基于正态分布假设的非特定人语音识别[EB/OL]. [2017-01-06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm . (YU H, FANG D T, LI S Q, et al. Speech recognition based on normal distribution hypothesis[EB/OL].[2017-01-06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm .) |
[11] | 何朝霞, 潘平, 罗辉. 基于非线性共振的说话人特征提取研究与仿真[J]. 科学技术与工程, 2012, 12(25): 6507-6510. (HE Z X, PAN P, LUO H. Research and emulation of speaker feature parameter extraction based on nonlinear resonances[J]. Science Technology and Engineering, 2012, 12(25): 6507-6510. DOI:10.3969/j.issn.1671-1815.2012.25.053) |
[12] | 潘平, 何朝霞. 基于duffing随机共振的说话人特征提取方法[J]. 计算机工程与应用, 2012, 48(35): 123-125. (PAN P, HE Z X. Method of speaker feature parameter extraction based on duffing stochastic resonance[J]. Computer Engineering and Applications, 2012, 48(35): 123-125. DOI:10.3778/j.issn.1002-8331.1105-0197) |
[13] | 赵力. 语音信号处理[M]. 北京: 机械工业出版社, 2003: 26-30. (ZHAO L. Speech Signal Processing[M]. Beijing: China Machine Press, 2003: 26-30.) |