一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别
谢磊① ; 付中华① ; 蒋冬梅① ; 赵荣椿① ; Werner Verhelst② ; Hichem Sahli② ; Jan Conlenis②
① 西北工业大学计算机学院 西安 710072;② DeptofETRO,FreeUniversityBrussels,Pleinlaan2,B-1050,Brussels,Belgium
A Robust Dynamic Mouth Feature Based on Visemic LDA for Audio Visual Speech Recognition
Xie Lei① ; Fu Zhong-hua① ; Jiang Dong-mei① ; Zhao Rong-chun① ; Werner Verhelst② ; Hichem Sahli② ; Jan Conlenis②
① School of Computer Science Northwestern Polytechnical Univ.,Xi’an 710072 China;② Dept of ETRO Free University Brussels Pleinlaan 2 B-1050 Brussels Belgium
摘要 视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将’VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80%以上。
关键词 :
语音识别 ,
听视觉语音识别 ,
ASM ,
LinearDiscriminantAnalysis(LDA) ,
Viseme
Abstract :This paper presents a robust visual feature based on Visemic LDA for audio visual speech recognition, which captures dynamic lip contour information and reflects the viseme classes of visual speech. The paper also introduces an automatic labeling method using the speech recognition results for LDA training data, which avoids the tedious manually labeling work and labeling errors. Experimental results show that the audio visual speech recognition system based on the visual features presented in this paper can greatly increase the speech recognition rate in noisy conditions. The combination of the visual feature with multi-stream HMM can bring the recognition rate of over 80% at a 10dB SNR noisy condition.
Key words :
Speech recognition
Audio visual speech recognition
ASM
Linear Discriminant Analysis (LDA)
Viseme
收稿日期: 2003-07-11
引用本文:
谢磊; 付中华; 蒋冬梅; 赵荣椿; Werner Verhelst; Hichem Sahli; Jan Conlenis. 一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别[J]. 电子与信息学报, 2005, 27(1): 64-68 .
Xie Lei① ; Fu Zhong-hua① ; Jiang Dong-mei① ; Zhao Rong-chun① ; Werner Verhelst② ; Hichem Sahli② ; Jan Conlenis② . A Robust Dynamic Mouth Feature Based on Visemic LDA for Audio Visual Speech Recognition. , 2005, 27(1): 64-68 .
链接本文:
http://jeit.ie.ac.cn/CN/ 或 http://jeit.ie.ac.cn/CN/Y2005/V27/I1/64
[1]
张舸,张鹏远,潘接林,颜永红. 基于递归神经网络的语音识别快速解码算法 [J]. 电子与信息学报, 2017, 39(4): 930-937.
[2]
徐甫,马静谨. 基于中国剩余定理的门限RSA签名方案的改进 [J]. 电子与信息学报, 2015, 37(10): 2495-2500.
[3]
高兴龙, 潘接林, 颜永红. 基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度 [J]. 电子与信息学报, 2014, 36(8): 1852-1858.
[4]
张文林, 张连海, 陈琦, 李弼程. 语音识别中基于低秩约束的本征音子说话人自适应方法 [J]. 电子与信息学报, 2014, 36(4): 981-987.
[5]
郭宇弘, 黎塔, 肖业鸣, 潘接林, 颜永红. 基于加权有限状态机的动态匹配词图生成算法 [J]. 电子与信息学报, 2014, 36(1): 140-146.
[6]
李艳玲, 颜永红 . 多特征融合的英语口语考试自动评分系统的研究 [J]. 电子与信息学报, 2012, 34(9): 2097-2102.
[7]
张文林, 牛铜, 张连海, 李弼程. 基于最大似然可变子空间的快速说话人自适应方法 [J]. 电子与信息学报, 2012, 34(3): 571-575.
[8]
黄程韦, 赵艳, 金赟, 于寅骅, 赵力. 实用语音情感的特征分析与识别的研究 [J]. 电子与信息学报, 2011, 33(1): 112-116.
[9]
苏腾荣; 吴 及; 王作英. 基于空间相关性变换的声学模型训练 [J]. 电子与信息学报, 2010, 32(4): 1003-1007 .
[10]
吕勇,吴镇扬. 基于矢量泰勒级数的模型自适应算法 [J]. 电子与信息学报, 2010, 32(1): 107-111 .
[11]
吕国云; 蒋冬梅; 樊养余;赵荣椿; H. Sahli;W. Verhelst. 基于多流三音素DBN模型的音视频语音识别和音素切分 [J]. 电子与信息学报, 2009, 31(2): 297-301 .
[12]
李艳雄, 贺前华, 陈楠, 齐朝晖. 基于谱稳定性特征的语音与笑声区分新方法 [J]. 电子与信息学报, 2008, 30(6): 1359-1362.
[13]
王欢良; 韩纪庆; 郑铁然; 李海峰. 基于K-L散度的最大后验弧主导的混淆网络生成算法 [J]. 电子与信息学报, 2008, 30(5): 1109-1112 .
[14]
吕国云, 蒋冬梅, 张艳宁, 赵荣椿, H Sahli, Ilse Ravyse, W Verhelst. 基于多流多状态动态贝叶斯网络的音视频连续语音识别 [J]. 电子与信息学报, 2008, 30(12): 2906-2911 .
[15]
董明; 刘润生. 基于先验知识的三音子模型聚类结构自适应策略 [J]. 电子与信息学报, 2007, 29(9): 2050-2053 .