生成模型和判别模型

一、定义

1. 判别模型

有特征x，有预测目标y，直接建模p(y|x)，即：给定每个特征取值，直接算出等于预测目标的概率

比如：给定体重/颜色/喜欢吃的东西，直接预测动物类别

2. 生成模型

建模p(x|y)和p(y)，通过贝叶斯公式(p(y | x)=\frac{p(x | y) p(y)}{p(x)})计算p(y|x)

比如：先计算每种动物的（体重/颜色/喜欢吃的东西）分布和动物类别的分布（稀有程度），再计算动物处于每一种类别的概率分布

二、举例

1. Gaussian Discriminant Analysis (GDA) model

y服从伯努利分布 x服从多维高斯分布

$\begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ p(x | y=0) &=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{0}\right)^{T} \Sigma^{-1}\left(x-\mu_{0}\right)\right) \\ p(x | y=1) &=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}\left(x-\mu_{1}\right)^{T} \Sigma^{-1}\left(x-\mu_{1}\right)\right) \end{aligned}$

极大似然求解
$\begin{aligned} \ell\left(\phi, \mu_{0}, \mu_{1}, \Sigma\right) &=\log \prod_{i=1}^{m} p\left(x^{(i)}, y^{(i)} ; \phi, \mu_{0}, \mu_{1}, \Sigma\right) \\ &=\log \prod_{i=1}^{m} p\left(x^{(i)} | y^{(i)} ; \mu_{0}, \mu_{1}, \Sigma\right) p\left(y^{(i)} ; \phi\right) \end{aligned}$

得到参数值

$\begin{aligned} \phi &=\frac{1}{m} \sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\} \\ \mu_{0} &=\frac{\sum_{i=1}^{m} 1\left\{y^{(i)}=0\right\} x^{(i)}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=0\right\}} \\ \mu_{1} &=\frac{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\} x^{(i)}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\}} \\ \Sigma &=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu_{y^{(i)}}\right)\left(x^{(i)}-\mu_{y^{(i)}}\right)^{T} \end{aligned}$

和LR逻辑回归的关系

GDA有更强的假设（高斯分布），用较少的数据即可拟合 LR假设弱，鲁棒性强，大数据下效果好 GDA可以转化成LR，但反之不可以

2. NaiveBayes朴素贝叶斯

朴素假设：每个xi都和其他xi独立，概率连乘形式简单 $\begin{array}{l}{p\left(x_{1}, \ldots, x_{50000} | y\right)} \\ {\quad=p\left(x_{1} | y\right) p\left(x_{2} | y, x_{1}\right) p\left(x_{3} | y, x_{1}, x_{2}\right) \cdots p\left(x_{50000} | y, x_{1}, \ldots, x_{49999}\right)} \\ {=p\left(x_{1} | y\right) p\left(x_{2} | y\right) p\left(x_{3} | y\right) \cdots p\left(x_{50000} | y\right)} \\ {\quad=\prod_{j=1}^{n} p\left(x_{j} | y\right)}\end{array}$

求得每个参数值 $\begin{aligned} \phi_{j|y=1} &=\frac{\sum_{i=1}^{m} 1\left\{x_{j}^{(i)}=1 \wedge y^{(i)}=1\right\}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\}} \\ \phi_{j|y=0} &=\frac{\sum_{i=1}^{m} 1\left\{x_{j}^{(i)}=1 \wedge y^{(i)}=0\right\}}{\sum_{i=1}^{m} 1\left\{y^{(i)}=0\right\}} \\ \phi_{y} &=\frac{\sum_{i=1}^{m} 1\left\{y^{(i)}=1\right\}}{m} \end{aligned}$

生成模型和判别模型