#! https://zhuanlan.zhihu.com/p/45941482

9002: 连续隐变量的混合模型与卷积

CATSMILE-9002

前言

  • 不使用的后果,好处:可以更加高效地在同样维度下表征数据

  • 结论:

  • 动机:

    • 希望找到合适的隐变量模型

  • CHANGELOG:

    • 准备添加MPPCA相关内容

  • 展望方向:

    • SSC: sparse subspace clustering, 对于

MPPCA Mixtures of Probabilistic Principal Component Analyzers, Tipping and Bishop 1999(Connected Papers) https://www.semanticscholar.org/paper/Mixtures-of-Probabilistic-Principal-Component-Tipping-Bishop/291c1274ee45bf78662ed60831ef1bdaf89bed94

最近在看Bishop 2004 slides,Tipping 2006 paper)对经典PCA推广得出的概率型PCA(PPCA,probabilistic PCA)。出于某些原因并没有仔细研读Bishop的推导,而是发现自己对连续变量的混合模型(mixture model)并不是很熟悉。在经过两天的阅读和思考后,意识到混合模型的本质就是概率分布函数的卷积(convolution)。以下根据Bishop2004对PPCA稍作分解(exposition)。令隐变量zz服从单位高斯分布:

具体计算

\[p(z) = \mathcal{N}(z|0,I)\]

然后考虑给定隐变量zz后,观测变量xx的条件概率分布

\[p(x|z) = \mathcal{N}(x|Wz + \mu, \sigma^2 I)\]

考虑变换 $\( \begin{align} x &= Wz + \mu + \phi\\ \psi &=Wz + \mu \end{align} \)$

则有

\[\begin{split}\begin{align} \phi &= x - Wz - \mu \\ &= x -\psi \\ p(\phi | \psi) &= p(\phi | z) \\ &= \mathcal{N}(\phi|0,\sigma^2 I ) \\ p(\psi) &= \frac{1}{|\psi'(z)|} p(z) \end{align}\end{split}\]

其中 \(|\psi'(z)|\) 是线性变换 \(z\rightarrow Wz + \mu\) 的雅克比矩阵的行列式,对于非方阵,其行列式推广为 \(\sqrt{W^TW}\) 。但是直接考虑利用高斯变量的性质可得 $\( \begin{align} \psi_i &= \mu_i + \sum_j w_{ij} z_j \\ \text{Cov}(\psi_a,\psi_b) &= \text{Cov}( \sum_i w_{ai}z_i, \sum_j w_{bj}z_j) \\ &= (\sum_{i=j} + \sum_{i\neq j}) \text{Cov} (w_{ai}z_i ,w_{bj} z_j) \\ &= [\sum_{i=j}\text{Cov} (w_{ai}z_i ,w_{bj} z_j) + 0 ] \\ &= \sum_i w_{ai}w_{bi} \text{Cov}(z_i,z_i) \\ &= \sum_i w_{ai}w_{ib} \cdot 1 \\ \text{Var}[\psi] &= W W ^ T \end{align} \)$

求边际密度即是求卷积

\[p(\phi) = \int p(\phi | \psi) p(\psi) d\psi\]

又由于高斯分布的卷积仍然是高斯分布,因此可以直接写出其形式

\[\begin{split} \begin{align} \mathbb{E}[\phi] &= E[\psi] + E[\phi | \psi] \\ &= \mu + 0 \\ \text{Var}[\phi] &= \text{Var}[\psi] + \text{Var}[\phi| \psi ] \\ &= WW^T + \sigma^2 I \\ p(\phi) &=\mathcal{N}(\psi | \mu, WW^T + \sigma^2 I) \end{align}\end{split}\]

从某种角度讲,卷积是比边际化更为直观的一个操作。对比高斯混合模型(GMM),我们可以看出GMM对应的 \(p(\psi)\) 写作

\[p(\psi) = \sum_k \pi_k \delta(\psi - \psi_k)\]

如果使用完整的协方差矩阵,那么每一个脉冲 \(\delta(\psi - \psi_k)\) 都会对自己的高斯组分 \(p(\phi|\psi=\psi_k)\) 进行卷积。而如果考虑一个共享的协方差矩阵给定的p(\phi|\psi)p(\phi|\psi),则可以直接求卷积 $\(p(\phi) = \int p(\phi | \psi) p(\psi) d\psi\)$

另:Bishop2004的公式发现原公式是有误的。上传不了图片就口述一下:是 \(p(\phi)\) 的协方差有个地方写岔了。

参考: