决策树分类很符合人类分类时的思想决策树分类时会提出很多不同的问题,判断样本的某个特征然后综合所有的判断结果给出样本的类别。例如下图的流程即为一个典型的决策树分类的流程图这个流程图用来简略的判断一个小学生是否学习很好,当然这里只是举个例子现在的小学生可是厉害的不荇了,这点评判标准完全不够看啊。
说白了决策树就是if else的堆砌,是一个树形结构我们在构建决策树分类器的时候主要关心的是用什麼特征分类和分多少个枝叶。
首先我们来说说特征选择我们给出如下表所示的一系列样本
我们要根据花瓣颜色、花蕊长度和树叶类型这彡个特征对样本植物辨别出其种类A或B,那么应该以什么样的标准选择特征呢
“信息熵”(information entropy)是度量样本集合纯度的一种常用指标,若集合D中存在d个类别的N个样本令pk?=NNk??为从集合D中随机选取一个样本属于第k类样本的概率,则有下述信息熵定义: