基于K―means聚类算法成绩分析的应用探究 下载本文

基于K―means聚类算法成绩分析的应用探究

摘 要:数据挖掘是在海量的数据中寻找模式或规则的过程。随着学校招生规模的扩大,在校学生成绩分布越来越复杂,传统的成绩分析有一定的局限性,该文介绍了K-means聚类算法的原理和算法流程,针对学生成绩数据进行选择、预处理,运用K-means聚类算法对学生成绩数据进行聚类挖据分析等。通过聚类结果分析,打破原有成绩分析得局限,使现有数据体现更好的价值,从而辅助教学管理者做出相应决策,更好地提高教学质量。

关键词:数据挖掘 K-means算法 聚类分析 成绩分析 中图分类号:TP31 文献标识码:A 文章编号:1674-098X(2016)01(c)-0090-03

Abstract:Data mining is the process of finding patterns or rules in massive data. With the expansion of school enrollment,students in grades distribution are more and more complex,the traditional performance analysis has some limitations.This paper introduces the theory and algorithm process of K-means clustering algorithm,to choose for student achievement data,preprocessing, on student achievement data clustering mining to analysis using the K-means clustering algorithm.Through the

analysis of clustering results,breaking the original performance analysis is limited,so that the existing data to reflect the better value,so as to assist the teaching managers to make corresponding decisions,to better improve the quality of teaching.

Key Words:Data mining;K-means algorithm;Clustering analysis;Performance analysis

在现代信息化被广泛应用的时代,在我们日常教学中,面对错综复杂的学生成绩信息和各种各样的学习方法和学习方式,针对学生不及格的课程成绩信息群体,我们传统的数据分析有一定的局限性,通常还是停留在简单的统计、查询和汇总等层面,往往对这些数据背后的深一层原因无所了解,而聚类分析通过数据挖掘技术对这个数据群体进行处理,通过聚类、划分、分群,将有助于学校从堆积如山的数据中,发掘有利于教学的具有针对性的信息。利用聚类分析方法能从数据中找出相关的特征或模式,可以帮助学校针对不学生的学习状况,制定针对性的教学策略,对学生信息聚类和分组可以帮助改善学生学习成绩,并且可以根据此数据信息预测将来的成绩趋势,辅助学校进行教学管理。 1 聚类分析

数据挖掘的方法中聚类是对记录分组,把相似的记录放在一个类别里。聚类和分类的区别是聚类不依赖于预先定义

好的类,不需要训练集。

聚类分析中,首先需要确定基本聚类分析原则,在各聚集内部数据对象间之间,追求的是相似度最大化。而在各聚集对象之间,追求的是相似度最小化。在进行聚类分析时,聚类分析所获得的组可视为同类别的归属,也可视为该类归属的数据对象集合。聚类分析已经在模式识别图像处理、市场分析和数据分析等领域得到了广泛应用。 2 K-means聚类算法

学生成绩挖掘分析主要目标是针对学生成绩数据进行聚类分析,挖掘出数据隐含的不同学生群体信息。而K-means聚类算法是数据挖掘基于划分最经典的聚类方法,也是易于实现的算法。主要思想是首先初始化K个聚类簇中心,使用一定的准则将所有样本点分到不同的K个簇中;接着计算现有的K个簇的质心,确定新的簇心。一直循环迭代,直到簇心的移动距离小于某个给定的阈值。如果初始簇心选择不好时,K―means的结果会很差,所以一般是多运行几次,按照一定标准选择一个比较好的结果。 K-means聚类算法的主要流程如下。 (1)初始化K个聚类中心。

(2)计算每个点到聚类中心的距离,将每个点划分到离该点最近的类别中去。

(3)更新个类别中所有点的坐标均值,并将其作为新

的聚类中心。

(4)反复执行(2)(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止。 算法的流程图如图1所示。 3 K-means聚类算法应用

在使用K-means聚类算法聚类分析之前,必须对数据进行预处理,信息数据预处后,才可以利用K-means聚类算法对处理后的成绩数据聚类分析,最后将聚类结果可视化展示。 3.1 数据预处理

学生成绩数据库中,由于少数学生的个别错误信息和虚假信息可能导致聚类中心偏移,从而对聚类结果产生影响。需要在研究各属性值的总体分布后,删除这些对聚类结果准确性有所影响的部分极值。因此要对数据进行清洗、去重和修正等操作。

在进行学生成绩信息分析挖掘过程中,不是所有的属性信息都和学生成绩信息分析任务有关,比如进行学生聚类分析时的学生专业等属性。因此,在进行数据转换过程中,把和学生成绩数据分析挖掘不相关的属性去除有助于提高数据挖掘的效率,节省分析挖掘时间,将与挖掘分析任务相关的数据进行格式转换,对一些属性值进行数字量化,使得转换后的数据更好地适合数据挖掘分析。 此次数据源是以东莞理工学校2014级计算机专业学生成绩为数据源,