噪声自适应的多数据流复合子带语音识别方法
张 军; 韦 岗
华南理工大学电信学院 广州 510640
Noise Adaptive Multi-stream Hybrid Sub-band Approach for Robust Speech Recognition
Zhang Jun; Wei Gang
College of Electronic & Information Engineering, South China University of Technology, Guangzhou 510640, China
摘要 首先针对现有丢失数据语音识别技术中的边缘化(marginalisation)技术在特征运用上的局限,提出了一种倒谱特征分量的可靠性估计方法,将边缘化技术推广到常用的倒谱语音识别系统中; 然后利用基于全带和子带倒谱特征的边缘化识别器在不同噪声中的互补性能,提出了一种噪声自适应的多数据流复合子带语音识别方法。实验结果表明,所提识别方法可以自适应地选出全带和子带数据流中受噪声影响较小者并以之为主要依据进行识别,有效地提高了识别系统在多变噪声环境中的鲁棒性。
关键词 :
语音识别 ,
丢失数据 ,
边缘化 ,
多数据流 ,
复合子带
Abstract :This paper first proposes a new method for evaluating the reliability of cepstral components and extends the marginalisation technique to cepstral recognizers. Then a noise adaptive multi-stream hybrid sub-band approach is proposed for robust speech recognition by making use of the complemental performances between full-band and sub-band cepstral marginalisation recognizers in different noises. Experimental results show that the proposed approach can turn to the less distorted data stream automatically and improve the robustness of the speech recognizer in various noisy environments effectively.
Key words :
Speech recognition
Missing data;Marginalisation
Multi-stream;Hybrid sub-band
收稿日期: 2004-11-05
[1]
张舸,张鹏远,潘接林,颜永红. 基于递归神经网络的语音识别快速解码算法 [J]. 电子与信息学报, 2017, 39(4): 930-937.
[2]
冯博, 陈渤, 王鹏辉, 刘宏伟, 严俊坤. 利用稳健字典学习的雷达高分辨距离像目标识别算法 [J]. 电子与信息学报, 2015, 37(6): 1457-1462.
[3]
高兴龙, 潘接林, 颜永红. 基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度 [J]. 电子与信息学报, 2014, 36(8): 1852-1858.
[4]
张文林, 张连海, 陈琦, 李弼程. 语音识别中基于低秩约束的本征音子说话人自适应方法 [J]. 电子与信息学报, 2014, 36(4): 981-987.
[5]
郭宇弘, 黎塔, 肖业鸣, 潘接林, 颜永红. 基于加权有限状态机的动态匹配词图生成算法 [J]. 电子与信息学报, 2014, 36(1): 140-146.
[6]
李艳玲, 颜永红 . 多特征融合的英语口语考试自动评分系统的研究 [J]. 电子与信息学报, 2012, 34(9): 2097-2102.
[7]
张文林, 牛铜, 张连海, 李弼程. 基于最大似然可变子空间的快速说话人自适应方法 [J]. 电子与信息学报, 2012, 34(3): 571-575.
[8]
黄程韦, 赵艳, 金赟, 于寅骅, 赵力. 实用语音情感的特征分析与识别的研究 [J]. 电子与信息学报, 2011, 33(1): 112-116.
[9]
苏腾荣; 吴 及; 王作英. 基于空间相关性变换的声学模型训练 [J]. 电子与信息学报, 2010, 32(4): 1003-1007 .
[10]
吕勇,吴镇扬. 基于矢量泰勒级数的模型自适应算法 [J]. 电子与信息学报, 2010, 32(1): 107-111 .
[11]
吕国云; 蒋冬梅; 樊养余;赵荣椿; H. Sahli;W. Verhelst. 基于多流三音素DBN模型的音视频语音识别和音素切分 [J]. 电子与信息学报, 2009, 31(2): 297-301 .
[12]
李艳雄, 贺前华, 陈楠, 齐朝晖. 基于谱稳定性特征的语音与笑声区分新方法 [J]. 电子与信息学报, 2008, 30(6): 1359-1362.
[13]
王欢良; 韩纪庆; 郑铁然; 李海峰. 基于K-L散度的最大后验弧主导的混淆网络生成算法 [J]. 电子与信息学报, 2008, 30(5): 1109-1112 .
[14]
吕国云, 蒋冬梅, 张艳宁, 赵荣椿, H Sahli, Ilse Ravyse, W Verhelst. 基于多流多状态动态贝叶斯网络的音视频连续语音识别 [J]. 电子与信息学报, 2008, 30(12): 2906-2911 .
[15]
董明; 刘润生. 基于先验知识的三音子模型聚类结构自适应策略 [J]. 电子与信息学报, 2007, 29(9): 2050-2053 .