内容发布更新时间 : 2024/12/23 20:23:50星期一 下面是文章的全部内容请认真阅读。
新一代低成本、高性能的语音处理专用
芯片—UniLite
新一代低成本、高性能的语音处理专用芯片—UniLite 类别:单片机/DSP
 语音处理技术是下一代多模式交互的人机界面设计中的核心技术之一。随着消费类电子产品中对于高性能、高稳健性的语音接口需求的快速增加,嵌入式语音处理技术快速发展。嵌入式语音处理系统在硬件上通常基于LSI、MCU、DSP等芯片方案,软件上采用语音识别、语音合成、语音压缩编解码、回声消除等技术,可以应用于手持设备、智能家电等多个领域,赋予这些设备人性化的交互方式和便利的使用方法;也可应用于益智类产品中,例如声控玩具、语言教学设备;还可以应用于车载通信设备中实现人机交流,提供安全、便捷、高效的操控接口。  目前,手机厂商推出的新款高档手机中已经加入非特定人姓名拨号、低速率语音压缩编解码、回声消除等语音处理的功能。然而,这些解决方案普遍存在不能同时兼顾性能和价格的弱点,不能满足和适应集成化要求高、成本控制严格的嵌入式系统要求。  基于UniLite芯片的嵌入式语音处理综合方案  根据市场对嵌入式语音处理系统的需求,凌声芯语音科技有限公司推出了新一代的低成本高性能嵌入式语音处理综合方案。该方案基于语音处理专用芯片UniLite,具有如下特
点:  1. 支持高性能中小词汇量文本输入的非特定人语音识别;  2. 支持低速率语音压缩,语音压缩率在8kbps以下;  3. 低成本,芯片的总成本控制在三美元以下;  4. 低功耗,系统的平均功耗控制在100毫瓦以内;  5. 基于SoC架构,集成度和稳定性高;  6. 系统具有较强的对外控制能
力;  7. 速度快,能满足语音处理的实时性要求。  UniLite芯片结构和参考设
计  UniLite芯片专为语音识别和语音处理应用领域设计,芯片采用高集成度的SoC结构,以0.18um工艺制造。其核心处理器件是一颗16位高速定点DSP,运算速度最高可达104MIPS,承担控制和运算的任务。这种简化的单DSP系统结构,使得系统资源得到有效调配,降低了系统的整体功耗。片内集成了16KB的SRAM程序存储器,用来存储应用程序和驱动程序;12KB的SRAM数据存储器,用来存储系统运行时所需要的数据;32KB的ROM程序存储器,用来存储语音识别以及语音压缩的算法;20KB的ROM数据存储器,用于存储语音处理算法中所用的常数表。  这种RAM与ROM存储器相结合的结构特点,在保证应用灵活性的同时大大降低了系统的整体成本。UniLite芯片中还集成了一路CODEC通道,采用Σ-Δ调制方式,能
够在8/16kHz的采样频率下得到12位线性量化的数据。这样可根据具体应用的要求处理不同质量的语音或音频信号。UniLite还集成了16个GPIO口和其它外围通信设备接口。实现与外部存储器,PC等外部设备的数据交换,提供与用户间的辅助交互接口。UniLite芯片结构如图1所示。  以UniLite芯片作为核心处理器件构成系统,外部只需扩展Flash存储器、电源芯片、启动芯片等少量芯片即可构成完整系统应用。图2是以UniLite芯片为核心的系统参考设计方案。其中:  1. 电源模块提供给系统三路稳定电源,分别为3.3V(20mA)、2.5V(20mA)、
1.8V(60mA);  2. 启动管理模块为UniLite启动所需的专用芯片;  3. SPI Flash存储器芯片为UniLite工作必需的芯片,存储程序和数据信息;  4. NAND Flash存储器芯片为系统选配芯片,可用于大容量存储语音数
据;  5. 功放芯片为系统外接喇叭时所需器
件。  图1:UniLite芯片的结构框图  图2:以UniLite芯片为核心的系统参考设计方案  基于UniLite芯片的嵌入式语音处理技术  1. 语音识别  自动语音识别是为了实现让机器理解人类语言而产生的一项技术,是研究如何从人的语音信号中提取有用的声学信息和语法信息,并且根据所得到的信息,确定语音信号的含义。按照服务对象划分,语音识别系统可以是只针对某一个用户的,称为特定人工作方式;系统如果是针对任何人的,则称为非特定人工作方
式。  特定人语音识别系统用户需要事先对待识别的每一个词条进行训练,在训练阶段,用户将词汇表中的每一个词依次说数遍,系统将其特征矢量序列存入模板库中。在识别阶段,系统将输入语音的特征依次与模板库中的每一个模板进行相似度比较,将相似度最高者作为识别结果输出。特定人识别系统识别的词条数目一般在50条左右,其优点是不受语种的限制。  非特定人语音识别系统采用基于统计模型的算法,系统开发者事先采集大量的语音数据进行训练,建立声学模型。在识别阶段,机器将用户的输入语音特征与通过声学模型构建的识别网络进行匹配解码,得到识别结果。一个典型的非特定人语音识别系统如图3所
示。  图3:非特定人语音识别的系统框图  非特定人语音识别系统对于用户而言,不需要引入繁琐的训练过程,方便了用户的使用;同时它可以供不同的人使用,因此大大拓宽了产品的应用范围。另一方面,由于采用了基于统计模型的算法,其稳健性和识别性能都比特定人识别系统大大的提高。非特定人识别系统识别的词条数目可以达到上千条,识别性能不会随着识别词条数目的增加有明显的下降,并且具有一定的抗噪能力。  UniLite芯片支持以上两种识别技术,并具有自身的特点。对于非特定人的中文语音识别技术,其特点在于:识别词表可达百词级别;识别性能达到中文100词识别率98.2%,识别响应时间为0.87倍实时;可存储多个识别词表,支持每次识别动态指定Active词表;支持每次识别动态传送Active词表,或对指定的某个已存储词表附加动态传送的Active词条。  支持识别词表的实时在芯片更新:无需借助PC等任何外部资源,无需任何额外训练环节和训练时间,只要以GB2312/GBK(包含繁体)/Unicode/汉语拼音等形式传送新的识别词
表到芯片中,就可在下次识别中立即生效。  对于特定人语音识别,其特点在于:支持多组词表,每组词表可达100词(建议应用到60词);智能指导用户训练的过程,不再依赖用户自行判断模板录音质量,可自动判别用户训练是否成功;独有“时间自适应”专利技术:随着时间推移人的口音会产生缓慢的变化,因此采用传统算法的特定人系统使用一段时间后识别区分度会显著下降,\时间自适应\技术使得系统能够自动维护识别模板的效能,保持识别性能的持续稳定。  2. 语音压缩编解码  语音压缩编解码广泛的应用于语音通讯、数字存储等领域。从算法上一般分为三类:波形编码、参数编码(声码器)和混合编码。  波形编码技术是在不建立语音模型下,直接对语音波形用编码方式逼近。它具有语音质量好、抗噪性强等优点,但压缩率不高;  参数编码是在一定的语音模型为基础下,在编码端分析出该模型参数,并选择适当的方式对其进行高效率的编码,解码端利用这些参数和语音模型,用合适的激励源(excitation)重新合成语音。它具有编码压缩率高、编码速率低的特点,但音质较差;  混合编码,又称基于合成分析法的线性预测编码(ABS-LPC),保留了参数编码的语音模型的假定,又利用波形编码的准则优化激励信号。它包括多脉冲激励线性预测编码(MPLPC)、规则激励线性预测编码(RPELPC)和码激励线性预测编码(CELPC)等,它在4~16kbps速率上能够得到高质量合成语
音。  UniLite芯片支持以上三种编码技术,速率范围从5kbps到32kbps。  基于UniLite芯片的语音协处理模块  为了简化用户的开发工作,加快产品上市的周期,凌声芯公司为用户提供基于UniLite芯片的语音协处理模块。该模块将语音识别和语音处理的相应功能封装入一个独立工作的嵌入式硬件/固件模块,提供十分简洁的输入输出接口同用户主控系统相连,模块基于UART数字通信端口受控于主控系统工作,为主控系统提供语音识别、语音编解码等语音处理功能。模块体积紧凑,用户可以直接将其植入样机或产品之中进行批量生产。图4是基于UniLite芯片的语音协处理模块接口示意
图。  图4:基于UniLite芯片的协处理模块接口示意图  各个信号的定义和功能如表1所示。  表1:协处理模块信号定
义  典型应用举例  基于UniLite芯片的嵌入式语音处理综合方案可以应用于多种产品中,其典型应用包括:语音遥控器/电话声控拨号/车载声控通信系统/工业用语音监录仪/智能玩具及幼教机/声控点歌MP3等。图5是以UniLite芯片为核心构成的语音遥控器方案示意图。  图5:基于UniLite芯片的语音遥控器方案示意图  该语音遥控器可以通过UART接口与电视机或PC机连接,下载频道信息并自动将其存储在系统的Flash中;用户使用时就可以用语音命令取代任何手动按键,来遥控设备欣赏不同的节目,享受智能化语音处理技术带来的快乐。  供稿:北京凌声芯语音科技有限公司  来源:电子工程专辑