线性预测是Wiener Filter的应用,作为信号识别的特征以及信号编码的一种实现途径。
前向线性预测原理
以语音信号为例,声道模型的一种观点是:级联结构的共振峰模型。即:对于一般元音,可以用全极点模型,传输函数:
称系统
为线性预测器。$\hat{\boldsymbol{x}}(n)$是$x(n)$的估算值。${a_i}$为预测系数(Linear Prediction Coefficient, LPC),$p$为对应阶数。
对应单点预测误差:
对${a_i}$求偏导即可实现求解,得到的方程组通常称为Yule-Walker方程。
应用实例
利用预测系数估计逼近系统响应$H$,可以用该系数表征语音的特性,也可以用逼近的$H$观察声道特性,同样可以进行共振峰提取,这些都可以看作说话人的特征。
以下代码:
clear all; clc; close all;
filedir=[]; % 设置数据文件的路径
filename='a.wav'; % 设置数据文件的名称
fle=[filedir filename] % 构成路径和文件名的字符串
[x,fs]=wavread(fle); % 读入语音数据
L=240; % 帧长
p=30; % LPC的阶数
y=x(8001:8000+L); % 取一帧数据
ar=lpc(y,p); % 线性预测变换
nfft=512; % FFT变换长度
W2=nfft/2;
m=1:W2+1; % 正频率部分下标值
Y=fft(y,nfft); % 计算信号y的FFT频谱
Y1=lpcar2ff(ar,W2-1); % 计算预测系数的频谱
% 作图
subplot 311; plot(y,'k');
title('一帧语音信号的波形'); ylabel('幅值'); xlabel('(a)')
subplot 312;
plot(m,20*log10(abs(Y(m))),'k','linewidth',1.5);
line(m,20*log10(abs(Y1)),'color','r','linewidth',2)
axis([0 W2+1 -30 25]); ylabel('幅值/db');
legend('FFT频谱','LPC谱',3); xlabel(['样点' 10 '(b)'])
title('FFT频谱和LPC谱的比较 p=4');
subplot 313;
plot(m,20*log10(abs(Y(m))),'k','linewidth',1.5);
line(m,20*log10(abs(Y1)),'color','r','linewidth',2)
axis([0 W2+1 -30 25]); ylabel('幅值/db');
legend('FFT频谱','LPC谱',3); xlabel(['样点' 10 '(c)'])
title('FFT频谱和LPC谱的比较 p=30');
结果图:
可以看出,信号的频谱由慢变化分量调制高频信号,对应时域就是卷积,而声道模型对应卷积的$h(n)$,$p$选择过小估计不准,选择过大容易过拟合,这么看来lpc说是预测其实本质也是拟合的问题,同样有Over-fitting. 得到LPC谱之后,可以利用峰值查找等方式,进行共振峰估计。