博客主页 😀
标签

机器学习

下的文章

Count:

计 1 篇
6
博弈树
博弈树
分类: 学习
简介:一、决策树基础定义:决策树是一种基于特征条件构建的分类与回归模型,通过树状结构模拟决策过程,因分支类似树的枝干而得名,是可解释性强的 “白盒模型”。组成 :内部节点:表示一个特征(如 “天气”“温度”)叶节点:表示一个类别(如 “举行运动会”“不举行”)有向边:对应特征的取值(如 “天气 = 晴天”“温度 = 寒冷”)构建核心:通过选择最优特征顺序划分样本,使分支节点的 “纯度”(同类样本占比)逐渐提高,最终实现准确分类。二、熵与条件熵熵(Entropy)作用:衡量随机变量的不确定性(混乱程度),熵值越大,样本越混乱。定义:对于有 k 个类别的离散变量 X ,其熵为:H(X)=−∑i=1k​pi​ log pi​ 其中 p i ​ 是第 i 类的概率。示例:抛硬币(2 类)的熵为 log2≈0.69 ,掷骰子(6 类)的熵为 log6≈1.17 ,单一类别样本的熵为 0(完全有序)。条件熵作用:已知某特征 X 的取值时,目标变量 Y 的不确定性。定义:特征 X 取 x i ​ 的概率为 p i ​ ,则条件熵为: H(Y∣X)=∑ i=1 k ​ p i ​ H(Y∣X=x i ​ )示例:已知 “天气 = 阴天” 时,运动会 “举行” 的概率为 1,此时该分支的熵为 0,降低了整体不确定性。三、特征划分选择算法评估标准定义特点ID3信息增益g(D,X)=H(D)−H(D∣X)衡量特征X降低数据集D不确定性的程度,值越大越好;但偏向取值多的特征(如 “编号”)。C4.5信息增益率gR​(D,X)=HX​(D)g(D,X)​信息增益除以特征X自身的熵HX​(D),修正了对取值多的特征的偏好。CART基尼系数Gini(p)=1−∑i=1k​pi2​衡量随机样本分类错误的概率,值越小纯度越高;计算无需对数,更高效。补充:CART 还会用到基尼增益(G(D,X)=Gini(D)−Gini(D,X))和基尼增益率(基尼增益除以特征取值数),进一步优化特征选择。四、连续值处理连续特征(如温度、年龄)需先离散化:1.对连续值排序,取相邻样本的中位点作为候选划分点(如 2 a i ​ +a i+1 ​ ​ )2.计算每个划分点对应的信息熵,选择使熵最小的点作为最优划分点(即该点划分后样本纯度最高)五、剪枝处理:防止过拟合预剪枝(构建时剪枝)限制树的最大深度 限制叶子节点的最大数量限制叶子节点的最小样本数(如每个叶子至少含 20 个样本) 限制最小信息增益(如低于 0.8 则停止分支)后剪枝(构建后剪枝)基于损失函数判断是否剪枝: L α ​ (T)=Gini(T)×∣T∣+α∣T leaf ​ ∣ ,其中 α 为惩罚系数( α 越大,越倾向简化树) 若剪枝后损失降低,则保留剪枝结果
博客主页 Howwayblog 随便发发
本站已运行 4 天 20 小时 50 分 自豪地使用 Typecho 建站,并搭配 MyDiary 主题 Copyright © 2025 ~ 2025. Howwayblog All rights reserved.
打赏图
打赏博主
欢迎
欢迎
欢迎访问Howwayblog
哈喽,欢迎光临!这里是我的个人站点,我将在这里分享我的生活、日记、学习和一些好看的风景
搜 索
足 迹
分 类
  • 默认分类
  • 学习
  • 相册