叶子节点 < - 根节点
分类问题
多分类问题/二分类问题
指标: 不纯度
不纯度越低越好
可以计算信息熵和基尼系数来衡量不纯度
Entropy(t)=−i=0∑e−1p(i∣t)log2p(i∣t)Gini(t)=1−i=0∑e−1p(i∣t)2
其中
t 代表 给定节点 i代表标签的任意分类
p(i∣t) 表示标签分类i 在节点t 所占的比例
基尼系数越小 说明数据集合的纯度越高
信息熵越小说明纯度越纯
信息熵: 模型选择信息增益(父节点和子节点的信息熵之差)最大的为分支特征
基尼系数: 模型使用划分后基尼系数最小的特征作为最优划分特征
阈值 也通过前两个指标自动得出
求解
假设对于给定数据集:
d={(x1,y1),(x2,y2),...,(xN,yN}其中xi=(xi(1),xi(2)...xim)T为输入实例,m为特征个数,yi∈{1,2,3,...,K}为类标记,i=1,2,3...,N为样本容量
三种方法:
ID3 C4.5 CART
ID3 利用信息熵原理选择信息增益最大
信息熵: 信息熵越大 信息的不确定性越大
回归问题
预测一个连续的值
指标:
L2 损失(均方误差)
MSE=n1i=1∑n(yi−yi^)2
菲尔德曼均方误差
L1损失