随机森林

机器学习

1 min read

决策树&随机森林

  1. 分类问题和回归问题都适用

  2. 叶子节点 < - 根节点

    分类问题

    多分类问题/二分类问题

    指标: 不纯度

    不纯度越低越好

    可以计算信息熵和基尼系数来衡量不纯度

    Entropy(t)=i=0e1p(it)log2p(it)Gini(t)=1i=0e1p(it)2Entropy(t)=-\sum_{i=0}^{e-1}p(i|t)\log_2p(i|t) \\ Gini(t)=1-\sum_{i=0}^{e-1}p(i|t)^2

    其中

    t 代表 给定节点 i代表标签的任意分类

    p(it)p(i|t) 表示标签分类i 在节点t 所占的比例

    基尼系数越小 说明数据集合的纯度越高

    信息熵越小说明纯度越纯

    信息熵: 模型选择信息增益(父节点和子节点的信息熵之差)最大的为分支特征

    基尼系数: 模型使用划分后基尼系数最小的特征作为最优划分特征

    阈值 也通过前两个指标自动得出

    求解

    假设对于给定数据集:

    d={(x1,y1),(x2,y2),...,(xN,yN}其中xi=(xi(1),xi(2)...xim)T为输入实例,m为特征个数,yi{1,2,3,...,K}为类标记,i=1,2,3...,N为样本容量d=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N\}\\ 其中 x_i=(x_i^{(1)},x_i^{(2)}...x_i^{m})^T 为输入实例,m为特征个数,\\ y_i \in \{1,2,3,...,K\}为类标记,i=1,2,3...,N 为样本容量

    三种方法:

    ID3 C4.5 CART

    ID3 利用信息熵原理选择信息增益最大

    信息熵: 信息熵越大 信息的不确定性越大

    回归问题

    预测一个连续的值

    指标:

    L2 损失(均方误差)

    MSE=1ni=1n(yiyi^)2MSE= \frac{1}{n}\sum_{i=1}^n (y_i-\hat{y_i})^2

    菲尔德曼均方误差

    L1损失

随机森林

多个决策树:最后结果是多个决策树的结果的综合

减少模型过拟合