随机森林

机器学习

January 1, 2025 1 min read

决策树&随机森林

分类问题和回归问题都适用
叶子节点 < - 根节点

分类问题

多分类问题/二分类问题

指标：不纯度

不纯度越低越好

可以计算信息熵和基尼系数来衡量不纯度
$Entropy(t)=-\sum_{i=0}^{e-1}p(i|t)\log_2p(i|t) \\ Gini(t)=1-\sum_{i=0}^{e-1}p(i|t)^2$
其中

t 代表给定节点 i代表标签的任意分类

$p(i|t)$ 表示标签分类i 在节点t 所占的比例

基尼系数越小说明数据集合的纯度越高

信息熵越小说明纯度越纯

信息熵：模型选择信息增益（父节点和子节点的信息熵之差）最大的为分支特征

基尼系数：模型使用划分后基尼系数最小的特征作为最优划分特征

阈值也通过前两个指标自动得出

求解

假设对于给定数据集：
$d=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N\}\\ 其中 x_i=(x_i^{(1)},x_i^{(2)}...x_i^{m})^T 为输入实例，m为特征个数，\\ y_i \in \{1,2,3,...,K\}为类标记，i=1,2,3...,N 为样本容量$
三种方法：

ID3 C4.5 CART

ID3 利用信息熵原理选择信息增益最大

信息熵：信息熵越大信息的不确定性越大

回归问题

预测一个连续的值

指标：

L2 损失(均方误差)
$MSE= \frac{1}{n}\sum_{i=1}^n (y_i-\hat{y_i})^2$
菲尔德曼均方误差

L1损失

随机森林

多个决策树：最后结果是多个决策树的结果的综合

减少模型过拟合