基于filler模型的语音关键词识别 下载本文

内容发布更新时间 : 2024/12/23 9:33:41星期一 下面是文章的全部内容请认真阅读。

基于Filler模型的语音关键词识别

本论文解决关键词检测任务的系统框架为基于垃圾模型的方法。这种方法采用关键词和垃圾模型共同组成并行搜索网络,垃圾模型可以拟合自然界的所有发音现象,吸收所有的非关键词发音来检测出关键词,垃圾模型又称Sink模型或Filler模型,一般选用一些发音单元,如音素、音节或半音节。通过对关键词网络加上合适的奖赏或者给垃圾模型给予合适的惩罚,使得当语音中出现关键词时,关键词得分超过垃圾模组得分,从而得到检出结果。然后利用声学置信度对这些检出结果进行筛选,得到最终所需的关键词。该模型的方法的好处是实时性好,在命令检测、对话语音中得到很好应用,但不适合音频文档内容检测。

1.3 系统性能指标

关键词检测系统理论上来说存在两类错误[5]:类型I错误:错误拒绝(False Reject,FR):系统没有检测到语音中应该出现的关键词;类型Ⅱ错误:错误接受(False Alarm,FA):系统检测到的关键词在语音中没有出现,是假冒的关键词。显然,漏报减少就会导致虚警增加,反之亦然。在关键词检测系统中,一般都是尽可能多地检出关键词候选,然后通过置信度打分进行据识分析,高于置信度门限的候选接受,低于门限的拒绝。因此关键词检测系统的性能除了取决于检出模块外,也严重依赖置信度的评估方法。系统往往调整置信度门限,使关键词检测系统的两类错误之间之问有一个折衷,这个门限称为系统的工作点。

在关键词系统中,定义衡量类型I类错误的指标为拒识率,类型Ⅱ错误的指标为误警率。

(1-1)

(1-2)

其中,待检关键词总数是指给定的关键词表中的关键词总数。C是一个常数, 其作用是使误警率和拒识率处于同一尺度,本文评测规定C=1。

可以使用检出率来评价关键词的检测性能:

(1-3)

6

基于Filler模型的语音关键词识别

在关键词检测系统中,如果从低到高调整置信度判决门限,就可以得到一条误警率—拒识率变化曲线图,称之为检测错误折中曲线(Detection Error Tradeoff,DET),如下图所1-3所示。

●理论等错误率

图 1-3 DET曲线图

DET曲线反映拒识率随着误警率变化的趋势,在置信度门限取某特定值时,可以得到误警率=拒识率,该点称为等错误率(EER)点。DET曲线反映系统的综合性能,DET下方所围的面积越小越好,EER反映系统工作点的情况,EER越小说明系统工作点性能越好。一般情况下,系统的工作点是随需求而定的,是在误警率和拒识率的一个折中,实际应用时应根据DET曲线性能,结合实际需求选择合适的置信度门限。由于误警率和拒识率与置信度门限有关,因此,DET曲线除了可以度量检测系统的性能,也可用来比较置信度计算方法的优劣。

召回率和查准率是信息检索的重要评估方法,也可以用来评估关键词系统的 检出性能,对整个关键词检出结果集的质量进行量化评价。召回率(Recall):又 称查全率,对某一个查询项,检测出的正确关键词个数与参考关键词总数的比值。 查准率(Precision):对某一个查询项,检出的正确关键词个数占检出的关键词总数的比值。对关键词检出结果按照置信度得分由高到低排序,通过11点标准查 全率下的查准率曲线来观察系统的性能,如图1-4所示。这11点对应查全率分别为(0%,10%,20%,…,100%)时的查准率,缺值部分取附近的结果进行插值平滑。平均查准率是这11个点的算术平均,而平均召回率对应曲线在平均查准率处的结果。

7

基于Filler模型的语音关键词识别

0.70.6Precision Rate0.50.40.30.20.1000.10.20.30.40.50.60.70.80.91Recall Rate 图1-4 召回率-准确率曲线图 1.4 关键词识别与连续语音识别的关系 首先,关键词识别的任务是在连续的话语中识别出给定的词,因而它首先是 一种连续语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关 键词识别是连续语音识别的一个分支。其次,对发音人的要求又不可能像对连续 语音识别发音人那么高,因此关键词识别又不同于连续语音识别。考虑如下五个 方面的差别,KWR与CSR有时又被当作两个不同的问题来处理: (1)模型的训练问题:CSR模型往往要经过已知的不同发音人(尤其是可以包 括使用者在内)的大量数据进行训练。KWR则不大可能让被识别对象对其模型进行大量的训练。

(2)词汇表问题:CSR要求每个待识别的词(或单元)必须是一个有限词表中的一个,它的词汇表是封闭式的;而KWR允许输入的语音包含关键词词表外的任何词,它的词表是开放式的。 (3)语法或词法问题:CSR要求输入语音中的词序列受限于一个有限状态语法网络,也就是说它要求输入严格符合它所假定的一组句式模型;而KWR则无此要求,它不需要输入符合某种句式模型。 (4)发音人的态度:对一个CSR系统,发音人能够意识到自己正在与机器进行交流,希望所说的话能够被机器正确识别,故而他们一般持合作的态度,也能够根据系统的提示重新发音;但在KWR系统中,说话人常常是毫无准备的,多数情况是8

基于Filler模型的语音关键词识别

处于自然会话的发音方式,也不太可能重复不太清楚的语句。

(5)环境:CSR系统由于用户的配合往往在比较安静的环境中使用,而KWR 则可能遇到噪音大的环境。

由于这些差异,CSR的错误率用百分之几衡量,而KWR的(误警和漏识)错误率,则要高出一个数量级,常常用百分之十几来衡量。

1.5 论文研究的内容

论文对关键词识别技术的若干问题进行了研究,论文的研究工作涉及领域是 基于垃圾模型的关键词检测技术。图1-5给出了作者的研究思路和方法。

基于垃圾模型的关键词检测技术主要应用于对话系统、命令控制和特定领域 信息咨询,系统要求实时性高、误警要少。作者对影响系统性能的因素做了分析, 设计了一个基于垃圾模型的关键词检测系统。为了增强系统的拒识能力,通过两 种方法来提高确认效果,从算法上对传统的似然比确认方法进行了改进,提出了 基于竞争模型的加权似然比融合语音确认方法。

关键词识别技术 基于垃圾模型的关键词检测技术 系统设计 确认性能不佳 基于竞争模型的加权似然比融合语音确认方法 联合多特征确认(似然比,驻留概率,OLG得分) 提高了系统语音确认效果 图1-5 论文的研究思路和研究内容

9

基于Filler模型的语音关键词识别

由于理解一句话,可以从多个层次、多个角度去理解,从这个角度出发我们选择了关键词驻留概率和OLG得分,以及似然比得分来提高系统置信特征,提高了系统的语音确认效果。

1.6 论文结构安排

本论文共分为四章。

第一章,绪论,主要介绍关键词识别系统的产生和现状及研究意义和内容,以及关键词识别与连续语音识别的联系。

第二章,基于垃圾模型的关键词检测模块的设计,首先介绍了基于垃圾模型的关键词检出原理和常用方法,然后对影响系统性能的因素做了分析。设计了一个基于垃圾模型的基线系统。

第三章,对垃圾模型中关键词确认方法进行了研究,提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。在置信预测特征选择方面,介绍了关键词动态垃圾得分与驻留概率置信特征,并联合这两个特征与似然比计算候选关键词的置信度。

第四章,总结与展望,对论文的所有工作进行总结,并对进一步的研究提出 几点建议。

10