一、决策树基础
定义:
决策树是一种基于特征条件构建的分类与回归模型,通过树状结构模拟决策过程,因分支类似树的枝干而得名,是可解释性强的 “白盒模型”。
组成 :
- 内部节点:表示一个特征(如 “天气”“温度”)
- 叶节点:表示一个类别(如 “举行运动会”“不举行”)
- 有向边:对应特征的取值(如 “天气 = 晴天”“温度 = 寒冷”)
构建核心:通过选择最优特征顺序划分样本,使分支节点的 “纯度”(同类样本占比)逐渐提高,最终实现准确分类。
二、熵与条件熵
熵(Entropy)
- 作用:衡量随机变量的不确定性(混乱程度),熵值越大,样本越混乱。
- 定义:对于有 k 个类别的离散变量 X ,其熵为:H(X)=−∑i=1kpi log pi 其中 p i 是第 i 类的概率。
示例:抛硬币(2 类)的熵为 log2≈0.69 ,掷骰子(6 类)的熵为 log6≈1.17 ,单一类别样本的熵为 0(完全有序)。
条件熵
- 作用:已知某特征 X 的取值时,目标变量 Y 的不确定性。
- 定义:特征 X 取 x i 的概率为 p i ,则条件熵为: H(Y∣X)=∑ i=1 k p i H(Y∣X=x i )
示例:已知 “天气 = 阴天” 时,运动会 “举行” 的概率为 1,此时该分支的熵为 0,降低了整体不确定性。
三、特征划分选择
算法 评估标准 定义 特点 ID3 信息增益 g(D,X)=H(D)−H(D∣X) 衡量特征X降低数据集D不确定性的程度,值越大越好;但偏向取值多的特征(如 “编号”)。 C4.5 信息增益率 gR(D,X)=HX(D)g(D,X) 信息增益除以特征X自身的熵HX(D),修正了对取值多的特征的偏好。 CART 基尼系数 Gini(p)=1−∑i=1kpi2 衡量随机样本分类错误的概率,值越小纯度越高;计算无需对数,更高效。 补充:CART 还会用到基尼增益(G(D,X)=Gini(D)−Gini(D,X))和基尼增益率(基尼增益除以特征取值数),进一步优化特征选择。
四、连续值处理
连续特征(如温度、年龄)需先离散化:
1.对连续值排序,取相邻样本的中位点作为候选划分点(如 2 a i +a i+1 )
2.计算每个划分点对应的信息熵,选择使熵最小的点作为最优划分点(即该点划分后样本纯度最高)五、剪枝处理:防止过拟合
预剪枝(构建时剪枝)
限制树的最大深度
限制叶子节点的最大数量
限制叶子节点的最小样本数(如每个叶子至少含 20 个样本)
限制最小信息增益(如低于 0.8 则停止分支)后剪枝(构建后剪枝)
基于损失函数判断是否剪枝: L α (T)=Gini(T)×∣T∣+α∣T leaf ∣ ,其中 α 为惩罚系数( α 越大,越倾向简化树)
若剪枝后损失降低,则保留剪枝结果