返回首页
当前位置: 主页 > 工学论文 > 电子机械 >

噪声环境下说话人识别的研究

时间:2009-06-14 00:22来源:未知 作者:论文发布 点击:
摘要 作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身

欲购买此论文请联系bankpage@126.com

  

摘要

      作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。
      由于说话人个性以及实际应用环境的复杂性,说话人识别技术虽然取得了一定的进步,其瓶颈效应也逐步显现,进一步提高比较困难,离真正的实际应用还有一段距离。本文从端点检测、语音增强、特征提取、后端处理等角度对说话人识别进行了研究,取得了一些研究成果。
     本文首先回顾了说话人识别的研究发展历程,指出了目前说话人识别研究的热点和难点。
     语音信号具有混沌的特征,分形维理论是描述混沌信号的一种手段,本文从分形维的定义出发,提出了一种新的基于波形的算法(Improvement Fractal Dimension algorithm Based on Wave:IBW-FD)。该算法只需计算波形长度,与盒维、Katz维相比,计算更加简单。通过分形布朗曲线验证了该算法比盒维和Katz维具有更高的精确度,在高斯白噪声和三种非平稳噪声下该算法与盒维、Katz维相比抗干扰能力更强。
     端点检测是说话人识别系统的第一步,一直是语音信号处理研究的热点。本文根据语音和噪声的特点,将前面提出的IBW分形维引入端点检测,将之与能量的方法相结合,提出了一种基于能量和分维的联合端点检测方法(VAD way of unite energy and fractal dimension:UEFD)。
     寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别参数提取研究的热点。本文将前面提出的IBW分形维与MFCC特征参数有机结合,作为说话人识别系统的混合特征参数。通过实验发现,新的混合特征具有一定优势。
     基于离散余弦变换的语音增强方法是目前国内外语音增强领域内研究的热点,而对于离散分数余弦变换的研究国际上还比较少,而国内外对于离散分数余弦变换的应用研究就更少,本文基于态函数,提出了两种基于态函数的离散分数余弦变换方法——二周期离散分数余弦变换和三周期离散分数余弦变换;并把它们应用于语音增强中,结合了语音增强的特点,提出了四种基于离散分数余弦变换的语音增强方法——基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on two cycles Discrete Fractional cosine Transform:FDCT2)、改进的基于二周期离散分数余弦变换的语音增强算法(speech enhancement based on modified two cycles Discrete Fractional cosine Transform:MFDCT2)、基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on three cycles Discrete Fractional cosine Transform:FDCT3)和改进的基于三周期离散分数余弦变换的语音增强算法(speech enhancement based on modified three cycles Discrete Fractional cosine Transform:MFDCT3)等四种算法,结果表明本文提出的几种算法要优于常规的DCT算法。
     在噪声环境下语音增强的研究中多级滤波方法具有明显的优势,其中欧洲电信标准化协会提出的两级MEL域维纳滤波结构具有较优良的降噪效果。但缺点是结构复杂,反复的时域-频域转换带来计算量的急剧上升;研究发现,单纯地从时域或变换域很难消除语音中存在的噪声和干扰,而分数余弦变换是一种非常优良的分析工具,本文将前面提出的基于态函数的分数余弦变换应用于语音增强中,提出了分数余弦变换东南大学博士学位论文域上的两级最优滤波和分数余弦变换域上的分频段并联滤波两种语音增强方法,该方法直接在分数余弦变换域上进行滤波,避免了由于Mel域参数较少导致的频域不连续性带来的时域截断噪声。不仅系统结构得到了简化,而且性能得到了提高。实验证明,这两种方法在高斯白噪声和几种非平稳噪声下性能优于两级MEL域维纳滤波器。
      在基于GMM的与文本无关的说话人识别中,噪声和干扰一直是影响识别率提高的原因,大多数研究集中在前端处理,但在说话人识别后端处理方面,国内外研究不多。本文从各模型帧似然概率的统计特性出发,并提出了一种新的非线性变换方法——归一化补偿变换,该方法对帧似然概率进行变换得到帧得分,将前几帧得分进行平均,作为当前帧得分的权值。理论分析表明,与最大似然变换相比,归一化补偿变换能够拉大目标模型与其它非目标模型的帧得分比,从而提高识别率。实验结果表明,归一化指数变换能够降低误识率达20.7%。也就是说对说话人识别系统的后端处理也能够提高系统性能。如果说话人识别的前端和后端都能够有效地降低噪声和干扰带来的影响,则整个系统的性能就可以有明显的提高,这种思路不仅适用于说话人识别,而且适用于语音识别、情感语音识别等相关领域。

欲购买此论文请联系bankpage@126.com

------分隔线----------------------------
购买论文的方式
  • 论文下载网拥有六万篇优秀论文(大部分未能更新上网站)

  • 现提供论文代找与出售论文的服务

  • 1篇论文为人民币80元

  • 2篇论文为人民币150元

  • 3篇论文为人民币200元

  • 4篇以上每篇60元,如一次性购买5篇,则收费为5*60=300元

  • 承诺:保证同一间学校不出售两份相同论文,保证同一地区不出售超过三篇相同论文

  • 有意请联系bankpage@126.com

  • 推荐内容