【原创】WEKA对UCI乳腺癌数据数据挖掘实
验报告(附代码数据)
【原创】 定制撰写数据分析可视化项目案例调研报告 有问题到淘宝找“大数据部落”就可以了
WEKA 对wisconsin-breast-cancer数据挖掘分析报告 一、 数据集
实验采用UCI数据集中的Wisconsin医学院的William 博士提供的乳腺癌的数据样本。所有数据来自真实临床案例,每个案例有10个属性。其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。 肿块厚度 Clump_Thickness integer [1,10] 细胞大小的均匀性 Cell_Size_Uniformity integer [1,10] 细胞形状的均匀性 Cell_Shape_Uniformity integer [1,10] 边缘粘性 Marginal_Adhesion integer [1,10] 单上皮细胞的大小 Single_Epi_Cell_Size integer [1,10] 裸核 Bare_Nuclei integer [1,10] 乏味染色体 Bland_Chromatin
integer
[1,10]
正
常
核
Normal_Nucleoli integer [1,10] 有丝分裂 Mitoses integer [1,10] 肿瘤性质 Class { benign, malignant}
该数据集共有669个实例。
本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的性质;聚类中,寻找各个簇病人的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。 二、 分类 1. 数据预处理
将wisconsin-breast-cancer数据集分割为两个,分别作为trainset和testset。 2. 实验过程
用j48分类树对trainset进行分类运算,结果如下: 1 / 5
【原创】 定制撰写数据分析可视化项目案例调研报告 有问题到淘宝找“大数据部落”就可以了
结果表明,模型分类的准确率达到了96%。Confusion Matrix表明有13例良性肿瘤被错位的归类为恶性;有6例恶性肿瘤被错误的归类为良性。 将以上模型应用于testset以检验预测准确率,运行结果如下:
结果表明,预测准确率达到了99%。Confusion Matrix表示有2例良性肿瘤被错误的归类为恶性;而恶性肿瘤均被
正确分类。 3. 结果分析
首先,通过检验,j48方法通过训练集生成的决策树对肿瘤性质的预测准确率可以稳定在较高水平,因此可以将此模型用于临床诊断。这对于因医疗条件不佳而不能进行 2 / 5
【原创】 定制撰写数据分析可视化项目案例调研报告 有问题到淘宝找“大数据部落”就可以了
活检或病灶位置不易进行活检的病人来说具有较高的实用价值。
其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。
最后,通过对Confusion Matrix的分析可知,该模型存在两类错误:将良性误诊为恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明,犯第二
类错误的概率较低,特别在测试集中,准确率达到了100%。 三、 聚类 1. 数据预处理
于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将Class属性类型Nominal转换为Numeric。用0表示benign,即良性;1表示malignant,即恶性。这样各个簇中的数值越接近1,表明该簇中恶性肿瘤比例越高。 2. 实验过程
用SimplekMeans算法,设置参数numClusters=5,seed=50进行聚类运算,得到结果如下: 3. 结果分析
上述聚类结果共有五个簇,而且恰巧Class属性的均值均为整数,这表明每一个簇中的各实例的肿瘤性质相同。 3 / 5