福建省第三届小学语文教研员研修班暨学业测试与评价研讨活动 下载本文

还不如这一次命题、这一份试卷所得的多。为什么?因为这次是我们三个人反复琢磨、反复推敲的。在命题前,陈老师、丁老师把命题意图给我说了,然后我再次学习课程标准阶段目标、学习教育部的学业水平测试卷、学习上海教育考试学院雷院长关于大规模考试命题技术的培训材料后开始命题。命好后,丁老师、陈老师逐题斟酌,稍有瑕痴马上改、马上换,然后再斟酌。所以我说,十多年命题加起来还不如这一次收获大。这份卷接受了三双眼睛的审视,现在期待接受一百三十双眼睛的审视,希望在座的教研员以批判的精神再来审读它,集思广益,群策群力完善它。

说到命题,“四度一表”绕不过。“四度一表”就是信度、效度、难度、区分度和双向细目表。下面,我试图用最通俗的语言、结合这份卷子说一说这“四度一表”。 一、“四度”。

1.信度。通俗地说,就是考试结果的可信程度。比如,要量一个物体的长度,你是用标准的钢尺量还是用弹性很大的橡皮尺量?显然,用钢尺量可信程度更高,因为它测量的结果更接近物体的实际长度,每次量的结果出入不会太大,也就是误差小,而橡皮尺由于弹性大,你拉紧一点与放松一点,量的结果可能就不同,误差大。我们的试卷就要像用“钢尺”量物体长度一样,能够更准确地测出你要检测的东西。 当然,考试不同于物理测量,我们不可能用同一份试卷反复考同一拨人,那样肯定越考越好。我们要做得就是尽量减少误差。

这里还有一个评分者信度。评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。评卷中,客观题的评分很少出现误差,但主观题的评分常常存在误差,有时误差还很大,尤其是习作。我看到一个例子,说有人在1983年高考作文试卷中取出一个考生的作文《一幅漫画的启示》,连同教育部规定的评分标准复印后寄给近百名中学教师评分。收回的67位教师的评分统计表明,这篇作文所评分数从6分到25分之间,分数达17种之多,最高与最低分相差19分。因此,评分者信度也是影响考试信度的一个重要因素,应该重视。所以,有专家说,客观题出题难、评卷易;主观题出题易、评卷难。一份试卷,客观题和主观题的比例应该适当,尤其是考查学生的阅读能力和习作能力,应以主观题为主,即“能级”越高,主观题越多。 信度的计算很复杂,我讲不了。

2.效度。顾名思义,就是一次测试的有效程度。说得明白一点,就是我想要测什么,结果就测出了什么。比如,我想测记忆能力,就测出了记忆能力;想测概括能力,就测出了概括能力。

与考试命题关系密切的是内容效度,即看考试题目能不能体现教学目标与教材要求。如果说一份试卷的题目涵盖了语文教学所要达到的各项教学目标及教材的重要内容,那么我们就说这份试卷、这次测验具有较高的内容效度。

如何分析内容效度呢?

常用逻辑分析法,即制定“题目双向细目表”,把所有题目按考试内容分布和考查目标分布进行双向分类。一般地先制定题目双向细目表

(命题计划),然后按题目双向细目表命题,最后对测验的内容效度进行分析,即把基于实际测验题目分析得到的题目双向细目表与事先制定的进行对照分析,了解实际命题在多大程度上偏离了原命题计划,通过实际考试检验这种“偏离”的利弊,为改进下一次命题作准备。 3.难度。通俗地说,就是试题的难易程度,用符号P表示。其计算方法有多种,通常用全体被试的得分率来表示,即被试在某题的平均分除以该题的满分,或者被试在某题的实得总分除以该题的应得总分。 另一种计算方法是分别计算高分组被试和低分组被试的得分率,然后求取二者的平均值。这种计算方法的优点是以计算区分度联系起来。 整个测验所有题目的难度系数分布在0.30至0.70之间,并且整个测验的难度系数在0.5左右时,可使测验对被试有较大的鉴别力,而且可以使测验分数接近正态分布。

4.区分度。是题目区别被试水平能力的量度,用符号D表示。通俗地说,区分度就是高水平被试在测验题目上能得高分,而低水平被试只能得低分,那么测验题目区分被试水平的能力就强,如果没有什么差别,区分能力就弱,如果相反,高水平的被试得低分,低水平的被却得了高分,就只能起干扰破坏作用。

区分度的值域范围在-1.00至+1.00之间。通常D为正值,称作积极区分;D为负值,称作消极区分;D为0,称作无区分作用。具有积极区分作用的项目,其D值越大,区分的效果越好。 项目区分度评价标准(美国测验专家艾贝尔) 区分度值 评 价 区分度值 评 价 0.40以上 0.30—0.39 优 良 合 格 0.20—0.29 0.19以下 尚可,需修改 应 淘 汰 区分度D的计算方法,常用高低分组法,用被试高分组在特定题目上的得分率和低分组在相同题目上的得分率之差作为题目区分度的指标(高分组、低分组人数比例各占总人数的27%),即D=Ph-Pl。 二、“一表”。

为了使试题的取样对教学内容与教学目标有较好的代表性,既能覆盖学科教材的全部内容,又能反映各部分内容和各认知层次的相对比重,还能确定各部分内容和各认知层次测验题目的数量比率,使测试更加有效,就必须制定一份反映测验内容和学习水平的命题双向细目表。我上网搜了各地高考、中考的命题双向细目表,参考教育部学业考试命题双向细目表以及雷院长的理科双向细目表,结合我们小学语文的习惯表达方式,制定了《2009年小学六年级语文考试》命题双向细目表,并将试题分解。

2009年小学六年级语文考试双向细目表

范 围 序号 能 级 内 容 A B C D 容易读错字字音辩析 固定轻声词、多音字辩析 E 题型 取材 分值 难区分度 度 积累与运汉语用 拼音 1 + + 客观 课本 1 2 + + 客观 课本 2