Grit

贝叶斯分类器

贝叶斯决策轮

  • 概率模型
  • 样本 $x$ 上的条件风险
    $$ R(c_i\,|\,x) = \sum_{j=1}^{N}\lambda_{ij}\mathbb{P}(c_j\,|\,x) $$
  • 总体风险 $$ R(h) = \mathbb{E}_x [R(h(x)\,|\,x)] $$
  • 贝叶斯最优分类器 $$ h^*(x) = \arg\min_{c} R(c\,|\,x) $$
  • 最小化分类错误率 $$ h^*(x) = \arg\max_{c} \mathbb{P}(c\,|\,x) $$

估计后验概率

  • 判别式模型 - 对条件分布 $\mathbb{P}(c\,|\,x)$ 直接建模
  • 生成式模型 - 对联合概率分布 $\mathbb{P}(c, x)$ 建模
    $$ \mathbb{P}(c\,|\,x) = \frac{\mathbb{P}(c)\mathbb{P}(x\,|\,c)}{\mathbb{P}(x)} $$
  • 类先验概率 $\mathbb{P}(c)$ 可以通过大数定律估计
  • 类条件概率无法通过大数定律直接估计:样本状态空间>>样本空间 (计算-组合爆炸;数据-样本稀疏)

极大似然估计

  • 参数化:假设类条件概率具有某种确定的概率分布形式,再基于样本估计参数
  • 参数估计:频率主义学派 vs 贝叶斯学派
  • 似然函数
    $$ L(D_c\,|\,\theta_c) = \prod_{x\in D_c}\mathbb{P}(x\,|\,\theta_c) $$
  • 对数似然函数
    $$ LL(\theta_c) = \sum_{x\in D_c}\ln\mathbb{P}(x\,|\,\theta_c) $$
  • 极大似然估计 $$ \hat{\theta}_c = \arg\max_{\theta_c} \,LL(\theta_c) $$

朴素贝叶斯分类器

  • 属性条件独立性假设:将所有属性联合概率分布转换为单一属性概率分布
    $$ \mathbb{P}(c\,|\,x) = \frac{\mathbb{P}(c)}{\mathbb{P}(x)}\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c) $$
  • 朴素贝叶斯分类器
    $$ h_{nb}(x) = \arg\max_{c} \mathbb{P}(c)\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c) $$
    $$ \mathbb{P}(c) = \frac{|D_c|}{|D|} \quad \mathbb{P}(x_i\,|\,c) = \frac{|D_{c,x_i}|}{|D_c|} $$
  • 拉普拉斯修正(初始集先验假设)
    $$ \mathbb{P}(c) = \frac{|D_c|+1}{|D|+N} \quad \mathbb{P}(x_i\,|\,c) = \frac{|D_{c,x_i}|+1}{|D_c|+N_i} $$
  • 实现方式:查表、懒惰学习、增量学习

半朴素贝叶斯分类器

  • 独属性依赖假设
    $$ \mathbb{P}(c\,|\,x) \varpropto \mathbb{P}(c)\prod_{i=1}^{d}\mathbb{P}(x_i\,|\,c, pa_i) $$

SPODE

  • 超父属性
  • 通过交叉验证法选择超父属性

TAN

  • 最大带权树
  • 树形属性依赖关系

AODE

  • Bagging + SPODE
    $$ \mathbb{P}(c\,|\,x) \varpropto \sum_{i=1,\,|D_{x_i}|\geq m’}^{d}\mathbb{P}(c,x_i)\prod_{j=1}^{d}\mathbb{P}(x_j\,|\,c, x_i) $$

贝叶斯网

  • 结构:有向无环图DAG + 参数:条件概率表CPT
    $$ \mathbb{P}(x_1,x_2,\cdots,x_d) = \prod_{i=1}^{d} \theta_{x_i\,|\,\pi_i} $$

结构

  • 同父结构 - 条件独立性
  • V型结构 - 边际独立性
  • 顺序结构 - 条件独立性

有向图中条件独立性检验

  • 给定父节点集,每个属性和它的非后裔属性独立
  • 道德图:所有V型结构的父节点间加无向边
  • 有向分离

结构学习

  • 评分搜索法
  • 建模:数据压缩任务 + 最小描述长度准则MDL
  • 目标函数:结构风险 + 经验风险
    $$ s(B\,|\,D) = f(\theta)|B| - LL(B\,|\,D) $$
  • 近似求解:贪心算法 + 约束网结构

推断

  • 根据贝叶斯网结构的联合概率分布精确推断后验概率是NP-Hard问题
  • 近似推断:吉布斯采样 - 马尔科夫链 + 平稳概率分布 + 更新定理

EM算法

  • 隐变量:未被观测到的属性
  • E步:给定参数,求隐变量的期望值/概率分布
  • M步:给定隐变量的期望值/概率分布,求参数的极大似然估计值/最大化对数似然关于隐变量的期望似然