专利名称: | 基于声纹识别帮助失聪患者判断声音类别的方法 | ||
专利名称(英文): | |||
专利号: | CN201610141941.6 | 申请时间: | 20160311 |
公开号: | CN105825857A | 公开时间: | 20160803 |
申请人: | 无锡吾芯互联科技有限公司 | ||
申请地址: | 214028 江苏省无锡市新区清源路20号太科园传感网大学科技园立业楼E212号 | ||
发明人: | 钦赛勇 | ||
分类号: | G10L17/08; G10L17/02 | 主分类号: | G10L17/08 |
代理机构: | 无锡市大为专利商标事务所(普通合伙) 32104 | 代理人: | 曹祖良; 张涛 |
摘要: | 本发明涉及一种基于声纹识别帮助失聪患者判断声音类别的方法,其包括如下步骤:步骤1、对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量;步骤2、对环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量;步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。本发明能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广,安全可靠。 | ||
摘要(英文): |
1.一种基于声纹识别帮助失聪患者判断声音类别的方法,其特征是,所述判断声音类别的方法包括如下步骤: 步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征矢量库; 步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量; 步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离; 步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。
2.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声; 所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或风吹声。
3.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对应模板声音特征矢量的过程包括如下步骤: 步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理; 步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测; 步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频谱; 步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通过对数能量处理,以得到对数频谱; 步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声音特征矢量。
4.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。
5.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检测。
1.一种基于声纹识别帮助失聪患者判断声音类别的方法,其特征是,所述判断声音类别的方法包括如下步骤: 步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取,以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征矢量构成模板声音特征矢量库; 步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境声音的环境声音特征矢量; 步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离; 步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声音。
2.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、铃声、水声或哨声; 所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或风吹声。
3.根据权利要求1所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对应模板声音特征矢量的过程包括如下步骤: 步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理; 步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行端点检测; 步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音的线性频谱; 步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对所述Mel频谱通过对数能量处理,以得到对数频谱; 步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数,以提取得到模板声音的模板声音特征矢量。
4.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。
5.根据权利要求3所述的基于声纹识别帮助失聪患者判断声音类别的方法,其特征是:对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检测。
翻译:技术领域
本发明涉及一种方法,尤其是一种基于声纹识别帮助失聪患者判断声音类 别的方法,属于声纹识别的技术领域。
背景技术
声纹识别(VoicePrintRecognition,VR),即说话人识别(SpeakerRecognition SR),属于生物特征识别技术的一种,是一项根据语音波形中反映声纹生理和行 为的特征的语音参数,自动识别声纹身份的技术。声纹识别是具有较好鲁棒性 和自适应的声纹识别算法的研究。与语音识别不同的是,声纹识别利用语音信 号中的声纹声音本身的特征,而不考虑语音中的字词意思,它强调声纹的个性; 而语音识别的目的是识别出语音信号的内容,并不考虑声纹是谁,强调声纹的 共性。
对有听力障碍的患者来说,提高听力能力的传统方法是通过助听器来帮助 患者听清声音,具体方法是通过拾音器获得外部声音,再通过声音放大器把获 得的声音放大,进而让患者听到声音。由于失聪患者对声音大小已经不再敏感, 失去了判断声音大小的能力,因此通过助听器等传统方法放大声音已经不适用 了,对这类患者来说不能通过传统意义上的方法进行治疗。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于声纹识别帮助 失聪患者判断声音类别的方法,其操作方便,能有效识别声音的类别,有助于 失聪患者对语音识别的能力,适应范围广,安全可靠。
按照本发明提供的技术方案,一种基于声纹识别帮助失聪患者判断声音类 别的方法,所述判断声音类别的方法包括如下步骤:
步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取, 以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征 矢量构成模板声音特征矢量库;
步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境 声音的环境声音特征矢量;
步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量 通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;
步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小 声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式 距离对应的模板声音。
所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、嘟嘟声、 扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、敲门声、 铃声、水声或哨声;
所述室外声音包括飞机声、掌声、鸟声、汽车喇叭声、拥挤声、狗或猫叫声、 发动机启动声、尖叫声、雷声、火车的运动声或风吹声。
所述步骤1中,对每个模板声音进行特征矢量提取,以得到每个模板声音对 应模板声音特征矢量的过程包括如下步骤:
步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理;
步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行 端点检测;
步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音 的线性频谱;
步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对 所述Mel频谱通过对数能量处理,以得到对数频谱;
步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征 参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数, 以提取得到模板声音的模板声音特征矢量。
对模板声音进行分帧时,使用的分帧帧长为30ms,帧移为10ms。
对模板声音采用Hamming窗进行加窗处理,采用双门限比较法进行端点检 测。
本发明优点:对模板声音进行特征矢量提取,以得到每个模板声音对应的 模板声音特征矢量,对环境声音进行特征矢量提取,以得到环境声音的环境声 音特征矢量;将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢 量通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离, 确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧 式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的 模板声音,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应 范围广,安全可靠。
附图说明
图1为本发明的数据流图。
图2为本发明得到MFCC特征参数的流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:为了能有效识别声音的类别,有助于失聪患者对语音识别的 能力,本发明判断声音类别的方法包括如下步骤:
步骤1、提供若干所需的模板声音,并对每个模板声音进行特征矢量提取, 以得到每个模板声音对应的模板声音特征矢量,所有模板声音的模板声音特征 矢量构成模板声音特征矢量库;
具体地,所述模板声音包括室内声音以及室外声音,所述室内声音包括哭声、 嘟嘟声、扫帚扫地声、吱吱作响的门声、关门声、门铃声、脚步声、吹风声、 敲门声、铃声、水声或哨声;所述室外声音包括飞机声、掌声、鸟声、汽车喇 叭声、拥挤声、狗或猫叫声、发动机启动声、尖叫声、雷声、火车的运动声或 风吹声。具体实施时,模板声音还可以为其他形式的声音类型,具体为本技术 领域人员所熟知,此处不再赘述。
如图2所示,对每个模板声音进行特征矢量提取时,先对模板声音进行预处 理,并对预处理后进行特征矢量的提取,以得到每个模板声音对应模板声音特 征矢量,具体过程包括如下步骤:
步骤1.1、对模板声音进行分帧,并对分帧后的模板声音进行预加重处理;
本发明实施例中,分帧的目的是将连续语音信号划分为段,以便于进行后续 的处理;由于人耳所听到的声音在20~30ms内是稳定的,即在20~30ms的时 间内,声音的变化不大且比较有规律,故设定帧的长度为20ms左右。同时,帧 与帧之间需保证一定的重叠(即帧移),以减小由于强行划分导致信息损失的可 能。本发明实施例中,使用的分帧帧长为30ms,帧移为10ms。
本发明实施例中,经过预加重处理以提高信号的高频部分的幅度,采用一 阶数字滤波器进行预加重,预加重系数为0.97。
步骤1.2、对上述预加重的模板声音进行加窗,并对加窗后的模板声音进行 端点检测;
为了平滑信号以减少每帧信号两端的预检测误差,避免频谱出现“破碎”的 现象,采用加窗处理。每帧用窗函数相乘以减少帧起始和结束处的信号的不连 续性。在语音信号的时域分析来说,窗函数很重要,虽然矩形窗平滑比较好, 但容易使波形细节丢失,并且产生泄露现象,本发明实施例中,采用Hamming 窗函数,具体地
其中,N为对模板声音进行采样量化的采样点数,n为关于采样点数N的变量, W(n)为窗函数。
端点检测是声纹识别中的一个重要环节,有效的端点检测方法不仅可以减 少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,从而使得声纹 识别更加准确,本发明实施例中,采用基于短时能量和短时过零率的检测算法, 即双门限比较法进行端点检测。
步骤1.3、对上述端点检测后的模板声音进行傅立叶变换,以得到模板声音 的线性频谱;
本发明实施例中,在经过上述的端点检测后,得到每个声音模板的时域信号 x(n),将时域信号x(n)后补若干个0已形成长为B(一般取B为512)的序列, 经过DFT(DiscreteFourierTransform、离散傅里叶变换)后得到线性频谱X(k), 变换公式为:
在具体实施时,也可以采用快速傅立叶变换进行处理,以得到所需的线性频 谱X(k),采用快速傅立叶变换的过程为本技术领域人员所熟知,此处不再赘 述。
步骤1.4、对得到的线性频谱通过Mel频率滤波器组,以得到Mel频谱,对 所述Mel频谱通过对数能量处理,以得到对数频谱;
本发明实施例中,Mel频率滤波器组是一组三角带通滤波器,0≤m≤M,M 为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m 值小时相邻f(m)之间的间隔也小,随着m的增加相邻f(m)的间隔逐渐变大。每 个带通滤波器的传递函数如下:
则由线性频谱X(k)到对数频谱S(m)的总传递函数为:
步骤1.5、将得到的对数频谱经过DCT变换到倒频谱域,以得到MFCC特征 参数,并将MFCC特征参数以及所述MFCC特征参数的一阶差分作为特征参数, 以提取得到模板声音的模板声音特征矢量。
本发明实施例中,将上述对数频谱S(m)经过DCT变换到倒频谱域即可得到 MFCC特征参数C(n):
由于人耳对动态特性更为敏感,为更好地拟合人声和人耳听觉的动态特性, 本发明实施例中,对得到MFCC特征参数进行一阶差分,以得到ΔMFCC,并把 MFCC+ΔMFCC作为特征参数的提取,得到模板声音的模板声音特征矢量。
在具体实施时,将所有模板声音的模板声音特征矢量集合后得到模板声音 特征矢量库。
步骤2、采集环境声音,并对所述环境声音进行特征矢量提取,以得到环境 声音的环境声音特征矢量;
通过录音设备或传感设备能采集得到所需的环境声音,本发明实施例中, 环境声音是指失聪患者所在环境中的声音。对环境声音提取特征矢量得到环境 声音特征矢量的过程可以参考上述模板声音特征矢量的提取过程,具体不再赘 述。
步骤3、将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量 通过DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离;
本发明实施例中,模板声音特征矢量库作为参考模板,环境声音特征矢量 作为测试模板,利用DTW动态时间规整方法将环境声音特征矢量与模板声音特 征矢量库中的所有模板声音特征矢量进行一一比对,比对后得到相应的声音比 对欧式距离,具体的比对过程为本技术领域人员所熟知,此处不再赘述。
步骤4、确定上述声音比对欧式距离中的最小声音比对欧式距离以及与最小 声音比对欧式距离对应的模板声音,则环境声音的类别为与最小声音比对欧式 距离对应的模板声音。
本发明实施例中,得到声音比对欧式距离的数量与模板声音特征矢量库中 的模板声音特征矢量的数量相一致。在所有的声音比对欧式距离中存在最小声 音比对欧式距离,在确定最小声音比对欧式距离后,能确定与最小声音比对欧 式距离对应的模板声音,则环境声音可以认为与最小声音比对欧式距离对应的 模板声音相同的声音类别。具体使用时,在判别环境声音的类别后,将所述判 别结果显示在移动设备上,所述移动设备包括智能手机等失聪患者能使用的终 端。
本发明对模板声音进行特征矢量提取,以得到每个模板声音对应的模板声 音特征矢量,对环境声音进行特征矢量提取,以得到环境声音的环境声音特征 矢量;将环境声音特征矢量与模板声音特征矢量库内的模板声音特征矢量通过 DTW动态时间规整方法进行一一比对,以得到若干声音比对欧式距离,确定上 述声音比对欧式距离中的最小声音比对欧式距离以及与最小声音比对欧式距离 对应的模板声音,则环境声音的类别为与最小声音比对欧式距离对应的模板声 音,能有效识别声音的类别,有助于失聪患者对语音识别的能力,适应范围广, 安全可靠。