现实检验:评估学生的数学成绩
Posted: Tue Mar 25, 2025 4:30 am
反对者往往反对标准化测试的两个方面:测试本身以及测试结果的使用方式。丹麦最近的一项研究着眼于后者,试图确定家长对孩子数学测试成绩的批评性反馈是否会对学生的学业和社会情感产生不利影响。但事实上,研究结果恰恰相反:负面反馈似乎会促进学生进步。
丹麦有一套全国性的考试系统,要求二至八年级的学生参加阅读、数学、地理和科学等科目的测试。分析师分别将 2010 年至 2013 年的四批三年级学生与 2013 年至 2016 年的六年级学生的成绩进行匹配。他们匹配了近 95% 的三年级学生,总计近 192,600 名学生。丹麦学校必须通过考试系统自动生成的信件向家长报告考试结果,信件可以通过邮寄或学校在线门户网站分发。
信件中不包括孩子的原始分数,而是将分数转 viber数据 换为以下五个类别之一的标签:远低于平均水平、低于平均水平、平均水平、高于平均水平或远高于平均水平。产生评级的量表分数由教师严格保密(事实上,校长、学校董事会和市政委员会只能查看按学年和群体划分的平均考试成绩)。分析人员查阅了原始测试分数数据,并使用了不连续回归设计,比较了得分略低于每个类别阈值的学生的结果(因此通过相应的负面标签获得更多负面反馈)与得分略高于阈值的学生的结果。他们根据五个表现水平的临界值得出了估计值。他们还将学生水平的分数与关于幸福感多个方面的学生水平调查数据相结合。
关键发现是,与收到相对较好标签或“信号”的学生相比,在三年级数学中收到负面反馈(具体来说,是听起来更负面的标签)会使六年级的数学成绩显著提高 6% 标准差 (SD)。无论孩子的能力水平如何,情况都是如此,这意味着分析师在整个表现分布中观察到了类似的改善模式。不过,那些低于最低门槛的学生(被标记为远低于平均水平)似乎从测试信息中受益更多(即,对表现最差的学生的影响更大,为 0.12 标准差,而对平均水平的学生的影响为 0.06 标准差)。
丹麦有一套全国性的考试系统,要求二至八年级的学生参加阅读、数学、地理和科学等科目的测试。分析师分别将 2010 年至 2013 年的四批三年级学生与 2013 年至 2016 年的六年级学生的成绩进行匹配。他们匹配了近 95% 的三年级学生,总计近 192,600 名学生。丹麦学校必须通过考试系统自动生成的信件向家长报告考试结果,信件可以通过邮寄或学校在线门户网站分发。
信件中不包括孩子的原始分数,而是将分数转 viber数据 换为以下五个类别之一的标签:远低于平均水平、低于平均水平、平均水平、高于平均水平或远高于平均水平。产生评级的量表分数由教师严格保密(事实上,校长、学校董事会和市政委员会只能查看按学年和群体划分的平均考试成绩)。分析人员查阅了原始测试分数数据,并使用了不连续回归设计,比较了得分略低于每个类别阈值的学生的结果(因此通过相应的负面标签获得更多负面反馈)与得分略高于阈值的学生的结果。他们根据五个表现水平的临界值得出了估计值。他们还将学生水平的分数与关于幸福感多个方面的学生水平调查数据相结合。
关键发现是,与收到相对较好标签或“信号”的学生相比,在三年级数学中收到负面反馈(具体来说,是听起来更负面的标签)会使六年级的数学成绩显著提高 6% 标准差 (SD)。无论孩子的能力水平如何,情况都是如此,这意味着分析师在整个表现分布中观察到了类似的改善模式。不过,那些低于最低门槛的学生(被标记为远低于平均水平)似乎从测试信息中受益更多(即,对表现最差的学生的影响更大,为 0.12 标准差,而对平均水平的学生的影响为 0.06 标准差)。