贝叶斯决策轮
- 概率模型
- 样本 $x$ 上的条件风险
$$ R(c_i\,|\,x) = \sum_{j=1}^{N}\lambda_{ij}\mathbb{P}(c_j\,|\,x) $$ - 总体风险 $$ R(h) = \mathbb{E}_x [R(h(x)\,|\,x)] $$
- 贝叶斯最优分类器 $$ h^*(x) = \arg\min_{c} R(c\,|\,x) $$
- 最小化分类错误率 $$ h^*(x) = \arg\max_{c} \mathbb{P}(c\,|\,x) $$
估计后验概率
- 判别式模型 - 对条件分布 $\mathbb{P}(c\,|\,x)$ 直接建模
- 生成式模型 - 对联合概率分布 $\mathbb{P}(c, x)$ 建模
$$ \mathbb{P}(c\,|\,x) = \frac{\mathbb{P}(c)\mathbb{P}(x\,|\,c)}{\mathbb{P}(x)} $$ - 类先验概率 $\mathbb{P}(c)$ 可以通过大数定律估计
- 类条件概率无法通过大数定律直接估计:样本状态空间>>样本空间 (计算-组合爆炸;数据-样本稀疏)
极大似然估计
- 参数化:假设类条件概率具有某种确定的概率分布形式,再基于样本估计参数
- 参数估计:频率主义学派 vs 贝叶斯学派
- 似然函数
$$ L(D_c\,|\,\theta_c) = \prod_{x\in D_c}\mathbb{P}(x\,|\,\theta_c) $$ - 对数似然函数
$$ LL(\theta_c) = \sum_{x\in D_c}\ln\mathbb{P}(x\,|\,\theta_c) $$ - 极大似然估计 $$ \hat{\theta}_c = \arg\max_{\theta_c} \,LL(\theta_c) $$
朴素贝叶斯分类器
- 属性条件独立性假设:将所有属性联合概率分布转换为单一属性概率分布
$$ \mathbb{P}(c\,|\,x) = \frac{\mathbb{P}(c)}{\mathbb{P}(x)}\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c) $$ - 朴素贝叶斯分类器
$$ h_{nb}(x) = \arg\max_{c} \mathbb{P}(c)\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c) $$
$$ \mathbb{P}(c) = \frac{|D_c|}{|D|} \quad \mathbb{P}(x_i\,|\,c) = \frac{|D_{c,x_i}|}{|D_c|} $$ - 拉普拉斯修正(初始集先验假设)
$$ \mathbb{P}(c) = \frac{|D_c|+1}{|D|+N} \quad \mathbb{P}(x_i\,|\,c) = \frac{|D_{c,x_i}|+1}{|D_c|+N_i} $$ - 实现方式:查表、懒惰学习、增量学习
半朴素贝叶斯分类器
- 独属性依赖假设
$$ \mathbb{P}(c\,|\,x) \varpropto \mathbb{P}(c)\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c, pa_i) $$
SPODE
- 超父属性
- 通过交叉验证法选择超父属性
TAN
- 最大带权树
- 树形属性依赖关系
AODE
- Bagging + SPODE
$$ \mathbb{P}(c\,|\,x) \varpropto \sum_{i=1,\,|D_{x_i}|\geq m’}^{d}\mathbb{P}(c,x_i)\prod_{j=1}^{d}\mathbb{P}(x_j\,|\,c, x_i) $$
贝叶斯网
- 结构:有向无环图DAG + 参数:条件概率表CPT
$$ \mathbb{P}(x_1,x_2,\cdots,x_d) = \prod_{i=1}^{d} \theta_{x_i\,|\,\pi_i} $$
结构
- 同父结构 - 条件独立性
- V型结构 - 边际独立性
- 顺序结构 - 条件独立性
有向图中条件独立性检验
- 给定父节点集,每个属性和它的非后裔属性独立
- 道德图:所有V型结构的父节点间加无向边
- 有向分离
结构学习
- 评分搜索法
- 建模:数据压缩任务 + 最小描述长度准则MDL
- 目标函数:结构风险 + 经验风险
$$ s(B\,|\,D) = f(\theta)|B| - LL(B\,|\,D) $$ - 近似求解:贪心算法 + 约束网结构
推断
- 根据贝叶斯网结构的联合概率分布精确推断后验概率是NP-Hard问题
- 近似推断:吉布斯采样 - 马尔科夫链 + 平稳概率分布 + 更新定理
EM算法
- 隐变量:未被观测到的属性
- E步:给定参数,求隐变量的期望值/概率分布
- M步:给定隐变量的期望值/概率分布,求参数的极大似然估计值/最大化对数似然关于隐变量的期望似然