IBM SPSS Modeler 教程-(1) 下载本文

因此,我们了解到输入此模型的每项记录都将被分配到一个特定节点,并且根据该节点最常见的响应分配优良或不良的预测值。

为各个记录分配预测值的这一过程称为评分。通过对用于评估该模型的相同记录进行评分,可以评估该模型执行训练数据(我们知道结果的数据)的准确度。让我们看看如何做到这一点。

评估模型

我们浏览了模型以了解评分方式。但是,如果要评估模型的准确度,则需要对一些记录进行评分,并将模型预测的响应与实际结果进行比较。接下来对用于评估该模型的相同记录进行评分,以将观察到的响应与预测响应进行比较。

要查看分数或预测值,请将表节点添加到模型块,然后双击“表”节点,并单击运行

表在名为 $R-Credit rating 的字段中显示预测分数,该字段由模型创建。我们可以将这些值与包含实际响应的原始信用评价字段进行比较。

按照惯例,在评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀,例如 $R- 表示预测值,$RC- 表示置信度值。不同的模型类型使用不同的前缀集。置信度值是模型自己的评估,尺度从 0.0 到 1.0,表示每个预测值的精确程度。

与预期的一样,预测值与大多数(并非全部)记录的实际响应相匹配。原因是每个 CHAID 终端节点均有混合响应。预期值与最常见的响应相匹配,但对于该节点中的其他响应,该预期值是错误的。(记住,16% 的少部分低收入客户没有拖欠。)

若要避免出现此情况,应继续将树分割为更小的分支,直到每个节点都是不含混合响应的 100% 纯节点为止—即全部为优良或不良。但是,这样的模型可能会非常复杂,并且不易推广到其他数据集。

要查看具体有多少预测值正确,我们可通读表格,并计算预测字段$R-Credit rating 的值匹配信用评价的值的记录数量。幸运的是,这里有更简单的方式--我们可使用分析节点,它自动进行此项操作。 ? 将模型块连接到分析节点。

? 双击“分析”节点,然后单击运行。

分析表明,2464 个记录中有 1899 个记录(超过 77%)的模型预测值与实际响应相匹配。

此结果受到评分的记录和用于评估模型的记录相同的事实的限制。在真实情况中,可使用分区节点将数据分割为培训和评估的单独示例。

通过使用一个样本分区生成模型并使用另一个样本对模型进行检验,您会得到该模型推广到其他数据集的情况。

通常分析节点,可以针对已知道其实际结果的记录来检验模型。下一阶段介绍如何使用模型对我们不知道结果的记录进行评分。例如,这可能包括当前不是银行客户的人员,但他们是促销邮寄的潜在目标。

对记录评分

之前,我们对用于评估模型的相同记录进行了评分,以评价模型准确程度。现在,我们要查看如何对和用于创建模型不同的记录集进行评分。这是使用目标字段进行建模的目标:研究已知道其结果的记录,以标识您可以从中预测未知结果的模式。

可以更新 Statistics 文件源节点,使它指向其他数据文件,也可以添加一个新的源节点,从它读取要评分的数据。无论采用哪种方式,新数据集包含的输入字段必须与模型(年龄、收入水平、教育等)所使用的相同,但不包含目标字段信用评价。

另外,也可以将模型块添加到包含预期的输入字段的任何流中。无论是读取文件还是数据库,只要字段名和类型与模型使用的相匹配,源类型都无关紧要。

也可以将模型块保存为单独的文件、将模型导出为 PMML 格式以用于其他支持此格式的应用程序,或将模型存储到 IBM? SPSS? Collaboration and Deployment Services 存储库中,这样可以在企业范围对模型进行部署、评分和管理。

无论使用何种基础结构,模型自身都按相同的方式工作。

摘要

本示例演示创建、评估模型以及对模型评分的基本步骤。

? 建模节点通过研究已知道其结果的记录来评估模型,并创建模型块。这有时称为训练模型。 ? 可将模型块添加到包含预期字段的任何流中,以对记录进行评分。通过对已知道其结果的记录(如现有客户)进行评分,可以评估模型的运行情况。

? 如果您对模型的运行情况感到满意,则可以对新数据(如准客户)进行评分,以预测他们的响应。 ? 用于训练或评估模型的数据可以称为分析数据或历史数据;评分数据也可以称为操作数据。

对客户响应建模(自动分类器)

通过“自动分类器”节点,您可以为标志(例如某个客户是否很可能拖欠贷款或者是否会对特定的报价做出响应)或名义(集合)目标自动创建和比较大量的不同模型。在本例中,我们将查找标志(是或否)结果。在一个相对简单的流中,节点生成一组候选模型并对它们进行排序,选择最有效的模型,然后将