梅尔频率倒谱系数

播报 编辑 锁定 讨论 上传视频 特型编辑
在声音处理领域中,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。
梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。 这样的非线性表示,可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。
中文名
梅尔频率倒谱系数
外文名
Mel-Frequency Cepstral Coefficients
简    称
MFCCs
定    义
组成梅尔频率倒谱的系数

梅尔频率倒谱系数简介

编辑 播报
在声音处理领域中,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。
梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。它衍生自音讯片段的倒频谱(cepstrum)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。 这样的非线性表示,可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。
梅尔频率倒谱系数(MFCC)广泛被应用于语音识别的功能。他们由Davis和Mermelstein在1980年代提出,并在其后持续是最先进的技术之一。在MFCC之前,线性预测系数(LPCS)和线性预测倒谱系数(LPCCs)是自动语音识别的的主流方法。
MFCC通常有以下之过程:
  1. 将一段语音信号分解为多个讯框。
  2. 将语音信号预强化,通过一个高通滤波器
  3. 进行傅立叶变换,将信号变换至频域。
  4. 将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口),得到梅尔刻度
  5. 在每个梅尔刻度上提取对数能量。
  6. 对上面获得的结果进行离散傅里叶反变换,变换到倒频谱域。
  7. MFCC就是这个倒频谱图的幅度(amplitudes)。一般使用12个系数,与讯框能量叠加得13维的系数。 [1] 

梅尔频率倒谱系数MFCC的原理

编辑 播报
声音信号是连续变化的,为了将连续变化信号简化,我们假设在一个短时间尺度内,音频信号不发生改变。因此将信号以多个采样点集合成一个单位,称为'''讯框'''。一个讯框多为20-40毫秒,如果讯框长度更短,那每个讯框内的采样点将不足以做出可靠的频谱计算,但若长度太长,则每个讯框信号会变化太大。
预强化的目的就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。
由于信号在时域上的变化通常很难看出信号的特性,所以通常透过傅里叶变换将它变换成频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。
由于能量频谱中还存在大量的无用讯息,尤其人耳无法分辨高频的频率变化,因此让频谱通过梅尔滤波器。梅尔滤波器,也就是一组20个非线性分布的三角带通滤波器(Triangular Bandpass Filters),能求得每一个滤波器输出的对数能量。必须注意的是:这 20 个三角带通滤波器在'''梅尔刻度'''的频率上是平均分布的。 梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的。 [1] 

梅尔频率倒谱系数噪声的敏感性

编辑 播报
MFCC特征在加性噪声的情况下并不稳定,因此在语音识别系统中通常要对其进行归一化处理(normalise)以降低噪声的影响。一些研究人员对MFCC算法进行修改以提升其鲁棒性,如在进行DCT之前将log-mel-amplitudes提升到一个合适的能量(2到3之间),以此来降低低能量成分的影响。 [1] 
参考资料
  • 1    Meinard Müller. Information Retrieval for Music and Motion. Springer. 2007: 65. ISBN 978-3-540-74047-6.