语音识别系统关键技术的探究 下载本文

内容发布更新时间 : 2025/1/5 9:12:28星期一 下面是文章的全部内容请认真阅读。

语音识别系统关键技术的探究

摘 要: 语音识别是让机器“听懂”人类语音,并做出正确反应,其终极目标是实现人类与机器的自然交流。随着科学技术的发展,语音识别技术正逐步形成一套比较完整的理论体系,并且语音识别系统在现代社会的应用越来越广泛。本文将在开头说明语音识别系统的概念、分类、性能指标以便我们了解语音识别系统是什么,接下来主要研究语音识别系统的关键技术,这些技术的实现往往要依靠算法的实现与应用,目前主流的算法有动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经元网络(ANN)、支持向量机(SVM)。

关键词:语音识别系统 技术 语音识别 识别算法 DTW HMM ANN

Speech recognition system is the key technology to explore

Abstract: speech recognition is let the machine \right reaction, the ultimate goal is to realize the natural human and machine communication. With the development of science and technology, voice recognition technology is gradually form a relatively complete theoretical system, and speech recognition system in modern society used more widely. This paper mainly studies the key technology of speech recognition system, the realization of the technology often depends on the realization of the algorithm and application, at present three mainstream algorithm is dynamic time neat (DTW), vector quantization (VQ), and hidden markov model (HMM), artificial neural network (ANN) and support vector machine (SVM). Analyzing their principle, characteristics and implementation.

Keywords: speech recognition system technology speech recognition algorithm identification DTW HMM ANN

1

目录

1 引言 .............................................................................................................................................. 1 2 语音识别系统 ............................................................................................................................... 1

2.1 语音识别系统的概念 ........................................................................................................ 1 2.2 语音识别系统的分类 ........................................................................................................ 1 2.3语音识别系统的组成 ......................................................................................................... 2 2.4 语音识别系统的性能指标 ................................................................................................ 2 3 动态时间规整(DTW)算法 ........................................................................................................... 2

3.1 动态时间规整(DTW)算法的概念 .................................................................................... 2 3.2 DTW的问题: ................................................................................................................ 2 3.3 动态规划算法总体思想 .................................................................................................... 3 3.4 动态规划基本步骤 ............................................................................................................ 3 4 矢量量化(VQ) .............................................................................................................................. 3 5隐马尔可夫模型(HMM) ............................................................................................................... 4 6人工神经元网络(ANN) ................................................................................................................ 5

6.1人工神经网络的概念 ......................................................................................................... 5 6.2 人工神经网络的特点 ........................................................................................................ 5 7支持向量机(SVM) ...................................................................................................................... 6 8 总结 .............................................................................................................................................. 6

2

1 引言

所谓语音识别,就是计算机通过对人类语音的识别和理解,将人类的语音信号转变成相应的文本或命令的技术,也就是让计算机听懂人说话。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。本文主要研究语音识别的关键技术,并分析它们的特点、原理以及实现过程。

2 语音识别系统

2.1 语音识别系统的概念

语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC)的出现。

2.2 语音识别系统的分类

语音识别系统会有不同的系统设计和实现, 因而会有不同的应用范围及限制。现在举出几个比较重要的不同的操作方式, 及其可能的应用范围。 (1) 孤立语音和连续语音识别系统,自然的语音, 只在句尾或是文字需要加标点的地方必须间断, 其他的部分可以连续不断地发音。随着近年来的研究和发展, 连续语音识别技术已渐趋成熟, 这个最自然的说话方式, 将成为语音识别系统的主流。

(2) 大词汇量和小词汇量语音识别系统,从理论上说来,一个计算机如果能听懂“是” 及“ 不是”的语音输入, 那它就可以采用语音方式进行操作。在语音识别技术的发展过程中,词汇量也正是从小到大发展的, 随着词汇量的增大, 对系统各方面的要求也越来越高, 它的成本也越来越高了。

(3) 特定人和非特定人语音识别系统,特定人系统是指系统在使用前必须由用户输入大量的发音数据、对其进行训练。非特定人系统则试图达到在系统构建成功之后, 用户不需要事先输入大量的训练数据, 即可使用的目的。语音信号的可变性很大,因为这个学习和训练的过程相当复杂, 所用的语音样本也要预先