DAMO语音识别啥意思

DAMO语音识别是基于微软语音识别引擎编写的TTS语音识别程序，将文字转换成声音。DAMO语音识别使用js调用音频播放，可加入音频控制播放样式来识别语言。将音频流实时识别为文字，适用于长句语音输入，视频字幕，会议，演讲字幕同屏等，智能语言处理，对识别中间结果进行智能纠错，快速识别音频流。

语音识别的主要问题：

1、对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。

2、语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。

3、语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。

4、单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。

5、环境噪声和干扰对语音识别有严重影响，致使识别率低。

以上内容参考：百度百科-语音识别