浏览模型
执行完成后,模型块将添加到应用程序窗口右上角的“模型”选项板中,它还会置于流工作区中,并带有指向创建它的建模节点的链接。要查看模型的详细信息,右键单击模型块并选择浏览(在模型选项板上)或编辑(在工作区上)。
对于 CHAID 模型块,“模型”选项卡以规则集的形式显示详细信息,规则集实际上是可根据不同输入字段的值将各个记录分配给子节点的一组规则。
对于每个决策树终端节点--意味着那些树节点没有进一步拆分--返回优良或不良的预测值。对于落在该节点内的记录,所有个案中的预测均由模式或最常见的响应决定。
在规则集的右侧,“模型”选项卡显示预测变量重要性图表,该图表显示评估模型时每个预测变量的相对重要性。通过这一点,我们看到收入水平在此个案中最显著,而其他唯一显著的因子是信用卡数量。
模型块中的“查看器”选项卡以树的形式显示相同的模型,每个决策点上都有一个节点。可使用工具栏上的缩放控件放大特定节点,或缩小节点以查看更完整的树。
查看树的上部分,第一个节点(节点 0)为我们提供数据集中所有记录的摘要。数据集中超过 40% 的个案分类为不良风险。这是相当高的比例,因此让我们看看树是否能为我们提供哪些因子负责的任何线索。
我们可以看到第一个分割是根据收入水平。收入水平位于低类别的记录被指定到节点 2,并且看到此类别包含贷款拖欠人的最高百分比不足为奇。我们可以很明显地了解,此类别中的客户具有高风险。
但是,此类别中的 16% 客户实际上没有拖欠,因此预测并非始终准确。没有模型能够预测每一个响应,但好的模型能够根据可用数据预测对每一个记录作出的最常见的响应。
同样,如果我们查看高收入客户(节点 1),我们看到绝大部分 (89%) 是优良风险。但是在这些客户中 10 位中有超过 1 位也会拖欠。我们能精炼自己的贷款标准以便将此处的风险最小化吗?
注意模型如何根据持有的信用卡数量,将这些客户分成两个子类别(节点 4 和节点 5)。对于高收入客户,如果我们只向那些信用卡少于 5 张的客户贷款,则可以将我们的成功率从 89% 提高到 97%--甚至更满意的结果。
但中等收入类别(节点 3)中的那些客户是什么情况?他们更加均匀地划分为优良和不良评价。 子类别(此情况中是节点 6 和 7)仍然能帮助我们。这次,只向那些信用卡少于 5 张的中等收入客户贷款,可将优良评价的百分比从 58% 提高到 85%,这是显著的改进。