基于filler模型的语音关键词识别-南京廖华答案网

基于filler模型的语音关键词识别下载本文

内容发布更新时间 : 2026/7/20 9:15:43星期一下面是文章的全部内容请认真阅读。

基于Filler模型的语音关键词识别

本论文解决关键词检测任务的系统框架为基于垃圾模型的方法。这种方法采用关键词和垃圾模型共同组成并行搜索网络，垃圾模型可以拟合自然界的所有发音现象，吸收所有的非关键词发音来检测出关键词，垃圾模型又称Sink模型或Filler模型，一般选用一些发音单元，如音素、音节或半音节。通过对关键词网络加上合适的奖赏或者给垃圾模型给予合适的惩罚，使得当语音中出现关键词时，关键词得分超过垃圾模组得分，从而得到检出结果。然后利用声学置信度对这些检出结果进行筛选，得到最终所需的关键词。该模型的方法的好处是实时性好，在命令检测、对话语音中得到很好应用，但不适合音频文档内容检测。

1.3 系统性能指标

关键词检测系统理论上来说存在两类错误[5]：类型I错误：错误拒绝(False Reject，FR)：系统没有检测到语音中应该出现的关键词；类型Ⅱ错误：错误接受(False Alarm，FA)：系统检测到的关键词在语音中没有出现，是假冒的关键词。显然，漏报减少就会导致虚警增加，反之亦然。在关键词检测系统中，一般都是尽可能多地检出关键词候选，然后通过置信度打分进行据识分析，高于置信度门限的候选接受，低于门限的拒绝。因此关键词检测系统的性能除了取决于检出模块外，也严重依赖置信度的评估方法。系统往往调整置信度门限，使关键词检测系统的两类错误之间之问有一个折衷，这个门限称为系统的工作点。

在关键词系统中，定义衡量类型I类错误的指标为拒识率，类型Ⅱ错误的指标为误警率。

（1-1）

（1-2）

其中，待检关键词总数是指给定的关键词表中的关键词总数。C是一个常数，其作用是使误警率和拒识率处于同一尺度，本文评测规定C=1。

可以使用检出率来评价关键词的检测性能：

（1-3）

基于Filler模型的语音关键词识别

在关键词检测系统中，如果从低到高调整置信度判决门限，就可以得到一条误警率—拒识率变化曲线图，称之为检测错误折中曲线(Detection Error Tradeoff，DET)，如下图所1-3所示。

●理论等错误率

图 1-3 DET曲线图

DET曲线反映拒识率随着误警率变化的趋势，在置信度门限取某特定值时，可以得到误警率=拒识率，该点称为等错误率（EER）点。DET曲线反映系统的综合性能，DET下方所围的面积越小越好，EER反映系统工作点的情况，EER越小说明系统工作点性能越好。一般情况下，系统的工作点是随需求而定的，是在误警率和拒识率的一个折中，实际应用时应根据DET曲线性能，结合实际需求选择合适的置信度门限。由于误警率和拒识率与置信度门限有关，因此，DET曲线除了可以度量检测系统的性能，也可用来比较置信度计算方法的优劣。

召回率和查准率是信息检索的重要评估方法，也可以用来评估关键词系统的检出性能，对整个关键词检出结果集的质量进行量化评价。召回率(Recall)：又称查全率，对某一个查询项，检测出的正确关键词个数与参考关键词总数的比值。查准率(Precision)：对某一个查询项，检出的正确关键词个数占检出的关键词总数的比值。对关键词检出结果按照置信度得分由高到低排序，通过11点标准查全率下的查准率曲线来观察系统的性能，如图1-4所示。这11点对应查全率分别为(0％，10％，20％，…，100％)时的查准率，缺值部分取附近的结果进行插值平滑。平均查准率是这11个点的算术平均，而平均召回率对应曲线在平均查准率处的结果。

基于Filler模型的语音关键词识别

0.70.6Precision Rate0.50.40.30.20.1000.10.20.30.40.50.60.70.80.91Recall Rate 图1-4 召回率-准确率曲线图 1.4 关键词识别与连续语音识别的关系首先，关键词识别的任务是在连续的话语中识别出给定的词，因而它首先是一种连续语音识别；但它又不要求把整个的语音流全部识别出来，因此可以说关键词识别是连续语音识别的一个分支。其次，对发音人的要求又不可能像对连续语音识别发音人那么高，因此关键词识别又不同于连续语音识别。考虑如下五个方面的差别，KWR与CSR有时又被当作两个不同的问题来处理： (1)模型的训练问题：CSR模型往往要经过已知的不同发音人(尤其是可以包括使用者在内)的大量数据进行训练。KWR则不大可能让被识别对象对其模型进行大量的训练。

(2)词汇表问题：CSR要求每个待识别的词(或单元)必须是一个有限词表中的一个，它的词汇表是封闭式的；而KWR允许输入的语音包含关键词词表外的任何词，它的词表是开放式的。 (3)语法或词法问题：CSR要求输入语音中的词序列受限于一个有限状态语法网络，也就是说它要求输入严格符合它所假定的一组句式模型；而KWR则无此要求，它不需要输入符合某种句式模型。 (4)发音人的态度：对一个CSR系统，发音人能够意识到自己正在与机器进行交流，希望所说的话能够被机器正确识别，故而他们一般持合作的态度，也能够根据系统的提示重新发音；但在KWR系统中，说话人常常是毫无准备的，多数情况是8

基于Filler模型的语音关键词识别

处于自然会话的发音方式，也不太可能重复不太清楚的语句。

(5)环境：CSR系统由于用户的配合往往在比较安静的环境中使用，而KWR 则可能遇到噪音大的环境。

由于这些差异，CSR的错误率用百分之几衡量，而KWR的(误警和漏识)错误率，则要高出一个数量级，常常用百分之十几来衡量。

1.5 论文研究的内容

论文对关键词识别技术的若干问题进行了研究，论文的研究工作涉及领域是基于垃圾模型的关键词检测技术。图1-5给出了作者的研究思路和方法。

基于垃圾模型的关键词检测技术主要应用于对话系统、命令控制和特定领域信息咨询，系统要求实时性高、误警要少。作者对影响系统性能的因素做了分析，设计了一个基于垃圾模型的关键词检测系统。为了增强系统的拒识能力，通过两种方法来提高确认效果，从算法上对传统的似然比确认方法进行了改进，提出了基于竞争模型的加权似然比融合语音确认方法。

关键词识别技术基于垃圾模型的关键词检测技术系统设计确认性能不佳基于竞争模型的加权似然比融合语音确认方法联合多特征确认（似然比,驻留概率,OLG得分）提高了系统语音确认效果图1-5 论文的研究思路和研究内容

基于Filler模型的语音关键词识别

由于理解一句话，可以从多个层次、多个角度去理解，从这个角度出发我们选择了关键词驻留概率和OLG得分，以及似然比得分来提高系统置信特征，提高了系统的语音确认效果。

1.6 论文结构安排

本论文共分为四章。

第一章，绪论，主要介绍关键词识别系统的产生和现状及研究意义和内容，以及关键词识别与连续语音识别的联系。

第二章，基于垃圾模型的关键词检测模块的设计，首先介绍了基于垃圾模型的关键词检出原理和常用方法，然后对影响系统性能的因素做了分析。设计了一个基于垃圾模型的基线系统。

第三章，对垃圾模型中关键词确认方法进行了研究，提出了一种基于竞争模型的加权似然比融合语音确认方法，通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计，引入了最小确认错误准则训练融合的权重系数。在置信预测特征选择方面，介绍了关键词动态垃圾得分与驻留概率置信特征，并联合这两个特征与似然比计算候选关键词的置信度。

第四章，总结与展望，对论文的所有工作进行总结，并对进一步的研究提出几点建议。

Word文档下载：基于filler模型的语音关键词识别.doc

搜索更多:基于filler模型的语音关键词识别