一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别

摘要
图/表
参考文献
相关文章 (15)

全文: PDF (1526 KB)
输出: BibTeX | EndNote (RIS) 背景资料

摘要视觉特征提取是听视觉语音识别研究的热点问题。文章引入了一种稳健的基于Visemic LDA的口形动态特征,这种特征充分考虑了发音时口形轮廓的变化及视觉Viseme划分。文章同时提出了一利利用语音识别结果进行LDA训练数据自动标注的方法。这种方法免去了繁重的人工标注工作,避免了标注错误。实验表明,将’VisemicLDA视觉特征引入到听视觉语音识别中,可以大大地提高噪声条件下语音识别系统的识别率;将这种视觉特征与多数据流HMM结合之后,在信噪比为10dB的强噪声情况下,识别率仍可以达到80％以上。

	服务

	把本文推荐给朋友
	加入我的书架
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	谢磊
	付中华
	蒋冬梅
	赵荣椿
	Werner Verhelst
	Hichem Sahli
	Jan Conlenis

关键词 ：语音识别, 听视觉语音识别, ASM, LinearDiscriminantAnalysis（LDA）, Viseme

Abstract：This paper presents a robust visual feature based on Visemic LDA for audio visual speech recognition, which captures dynamic lip contour information and reflects the viseme classes of visual speech. The paper also introduces an automatic labeling method using the speech recognition results for LDA training data, which avoids the tedious manually labeling work and labeling errors. Experimental results show that the audio visual speech recognition system based on the visual features presented in this paper can greatly increase the speech recognition rate in noisy conditions. The combination of the visual feature with multi-stream HMM can bring the recognition rate of over 80% at a 10dB SNR noisy condition.

Key words： Speech recognition Audio visual speech recognition ASM Linear Discriminant Analysis （LDA） Viseme

收稿日期: 2003-07-11

PACS:

TP391.42

引用本文:

谢磊; 付中华; 蒋冬梅; 赵荣椿; Werner Verhelst; Hichem Sahli; Jan Conlenis. 一种稳健的基于Visemic LDA的口形动态特征及听视觉语音识别[J]. 电子与信息学报, 2005, 27(1): 64-68 . Xie Lei^①; Fu Zhong-hua^①; Jiang Dong-mei^①; Zhao Rong-chun^①; Werner Verhelst^②; Hichem Sahli^②; Jan Conlenis^②. A Robust Dynamic Mouth Feature Based on Visemic LDA for Audio Visual Speech Recognition. , 2005, 27(1): 64-68 .

链接本文:

http://jeit.ie.ac.cn/CN/ 或 http://jeit.ie.ac.cn/CN/Y2005/V27/I1/64