IBM SPSS Modeler 教程-(1) 下载本文

窗口右侧底部是工程工具,用于创建和管理数据挖掘工程(与数据挖掘任务相关的文件组)。有两种方式可查看您在 IBM? SPSS? Modeler 中创建的工程 - 类视图或 CRISP-DM 视图。

依据“跨行业数据挖掘过程标准”,这一业内认可且无所属的方法理论,“CRISP-DM”选项卡提供了一种组织工程的方式。不论是有经验的数据挖掘人员还是新手,使用 CRISP-DM 工具都会使您事半功倍。

“类”选项卡提供了一种在 SPSS Modeler 中按类别(即,按照所创建对象的类别)组织您工作的方式。此视图在获取数据、流、模型的详尽目录时十分有用。

IBM? SPSS? Modeler 中最常见的鼠标用法如下所示:

? 单击。使用鼠标左键或右键选择菜单选项,打开上下文相关菜单以及访问其他各种标准控件和选项。单击并按住按键可移动和拖动节点。

? 双击。双击鼠标左键可将节点置于流工作区并编辑现有节点。

? 中键单击。单击鼠标中键并拖动光标可在流工作区中连接节点。双击鼠标中键可断开某个节点的连接。如果没有三键鼠标,可在单击并拖动鼠标时通过按 Alt 键来模拟此功能。

建模简介

模型是一组规则、公式或方程式,可以用它们根据一组输入或变量来预测输出。例如,一家财务机构可根据对过往申请人的已知信息,使用模型预测贷款申请人可能存在优良还是不良风险。

能够预测结果是预测性分析的中心目标,并且了解建模过程是使用 IBM? SPSS? Modeler 的关键。 本示例使用决策树模型,该模型使用一系列决策规则对记录进行分类(并预测响应),例如:

如果收入 = 中等 并且卡 <5 则 ->“优良”

本示例使用 CHAID(卡方自动交互效应检测)模型时,旨在进行常规的介绍,大部分概念会广泛应用于 SPSS Modeler 中的其他建模类型。

无论要了解哪种模型,均需要首先了解进入该模型的数据。此示例中的数据包含有关银行客户的信息。其中使用了下列字段:

字段名 描述 字段名 年龄 收入 教育 Car_loans 描述 Age in years 收入水平:1=低,2=中,3=高 教育程度:1=高中,2=大学 贷款的汽车数量:1=没有或一辆,2=超过两辆 Credit_rating 信用评价:0=不良,1=优良,9=丢失值 Credit_cards 持有的信用卡数量:1=少于五张,2=五张或更多 银行可维护一个包含银行贷款客户历史信息,包括这些客户是正在还贷(信用评价 = 优良)还是在拖欠贷款(信用评价 = 不良)的数据库。银行希望使用现有的数据建立一个模型,允许他们预测未来贷款申请人拖欠贷款的可能性。

使用决策树模型,您可分析两组客户的特征,并预测拖欠贷款的可能性。

本示例使用了名为 modelingintro.str 的流,该流位于 streams 子文件夹下的 Demos 文件夹中。数据文件是tree_credit.sav。请参阅 主题 Demos 文件夹 详细信息。 我们来看一下流。

? 从主菜单中选择下列选项: 文件 > 打开流

? 单击“打开”对话框的工具栏上的金色模型块图标,然后选择 Demos 文件夹。

? 双击 streams 文件夹。

? 双击名为 modelingintro.str 的文件。

构建流

要构建流以创建模型,至少需要三个元素:

? 一个从某些外部源读取数据的源节点,在本示例中为 IBM? SPSS? Statistics 数据文件。 ? 一个指定字段属性的源节点或“类型”节点,字段属性包括测量级别(字段包含的数据类型)以及每个字段在建模过程中的角色是目标还是输入等。 ? 一个在运行流时生成模型块的建模节点。