GMM模型
高斯分布
高斯分布也称为正态分布,是在自然界中广泛存在的一种分布。根据中心极限定理,大量相互独立随机变量的均值依分布收敛于正态分布。因此使用正态分布描述语音特征的概率分布是合适的。
D维随机变量的高斯分布的概率密度函数为:
N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中,μ是D维向量,表示该高斯分布的均值;Σ是D*D的矩阵,表示该高斯分布的协方差矩阵。
最大似然估计
对于服从p(x∣θ)分布的随机变量x,我们要估计其参数θ,首先获得x的若干个相互独立的样本信息,记作x1,x2,...,xn。
似然函数定义为:
p(x1,x2,...,xn∣θ)=i=1∏np(xi∣θ)
两边取对数:
lnp(x1,x2,...,xn∣θ)=i=1∑nlnp(xi∣θ)
则参数θ的最大似然估计为:
θ=θargmaxlnp(x1,x2,...,xn∣θ)
高斯分布的最大似然估计
μ=N1i∑nxiΣ=N1i∑n(xi−μ)(xi−μ)T
高斯混合分布
p(x)=k=1∑KπkN(x∣μk,Σk)
其中,0≤πk≤1 且 ∑k=1Kπk=1,
πk,μk,Σk是待估计参数。
高斯混合分布的参数估计(EM算法)
1 初始化
初始化参数 πk,μk,Σk
2 E步
使用当前的参数,计算后验概率
γ(zik)=∑jπjN(xi∣μj,Σj)πkN(xi∣μk,Σk)
3 M步
根据后验概率,估计新的参数值
μk=Nk1i∑nγ(zik)xiΣk=Nk1i∑nγ(zik)(xi−μ)(xi−μ)Tπk=NNkNk=i=1∑nγ(zik)
4 重复
重新计算似然函数,重复2-4,直至满足收敛条件