10月22日
在上一篇对NAEP的背景和监测框架的介绍基础之上,本篇主要介绍NAEP的项目实施、结果应用及对中国的启示。
三、项目实施
NAEP从设计到实施是一个相当复杂、系统化的过程,主要包含框架制定、工具开发、样本选取、具体施测、评分过程、结果报告六个阶段(杨涛,李曙光,姜宇,2015)。
(一)框架制定
由美国国家监测管理委员会(NAGB)负责统领整个监测的设计与实施(马健生, 宋薇薇,2014)。在制定监测框架时,NAGB会依据国家课程标准和监测水平,同时考虑州和地方标准,在此基础上确定各年级学生应该达到的知识和能力水平(陈晨,2010)。通过各领域的专业人员和公众的积极参与和反复修订,通力合作设计完整的、科学的监测框架。
(二)工具开发
主要由美国教育考试服务中心(ETS)负责,严格按照工具编制的标准化程序进行试题的开发。首先,美国教育考试服务中心测验开发人员和课程顾问根据工具制定委员会的指导和建议,权衡框架中规定的内容、题型、试题难度、成就水平等,在此基础上编制大量试题。其次,美国教育考试服务中心组织富有经验的各科测验开发专家对这些试题和练习的相关内容进行审核和修改,并通过小规模预试,再次对题目进行修改。最后,通过实地测验,对结果进行评分和分析,选择最佳的试题。在三次修改之后,最终确定正式监测中所使用的试题册(杨涛,李曙光,姜宇,2015)。
(三)样本选取
1. 学生样本选取
美国国家教育统计中心采用分层抽样的方式选择学校和学生参与监测。抽样主要依据地理位置、城市化程度、少数民族学生注册人数、中等收入家庭数量、学校性质(公立学校和非公立学校)抽取学校。在选定的学校中按照事先确定的比例从指定的年级中随机抽取学生。为保证了样本的科学性、代表性,NAEP也包括存在学习障碍、英语能力不足以及身患残疾的学生。一般来说,在一个仅有全国监测没有州监测的年份,每个科目通常需要各个年级6000到10000个学生样本(NCES,2010)。
2. 试题样本选取
由于NAEP试题库(item pool)很大,无法让每个参与监测的学生完成所有题目,因而NAEP在试题编制完成之后,采用矩阵取样技术抽取部分试题,并将这些试题分成不同的组块(item blocks),编订成测验题册。每本手册中的试题内容、题型、难度以及题目数量相当,且都能够满足NAEP测试内容和时间上的要求。一般来说,每个年级每个科目至少有二十套测验题册(陈晨,2010)。
(四)具体施测
主要由西斯特公司负责完成数据采集与监测实施的工作。全国监测、州监测、长期趋势监测在监测周期、监测对象、监测科目以及监测的时间上存在差异,对比总结如表2。
表2美国国家教育进步监测(NAEP)项目对比
全国监测 | 州监测 | 长期趋势监测 | |
监测周期 | 每年一次 | 每两年一次 | 每四年一次 |
监测对象 | 四年级、八年级、 十二年级 | 四年级、八年级 | 九岁、十三岁、十七岁学生 |
监测科目 | 阅读、数学、科学、写作、美国历史、经济学、公民学、地理、艺术 | 数学、阅读、科学、写作 | 数学、阅读、科学、写作 |
监测时间 | 每年一月份的最后一周开始到三月份的第一周结束 | 隔年一月份的最后一周开始到三月份的第一周结束 | 十三岁学生的监测在秋季进行,九岁学生的监测在冬季进行,十七岁学生的监测在春季进行 |
全国监测包括九个科目,但是每轮监测通常只选择其中的两到三个科目和两个年级的学生参加;州监测各州必须参加数学和阅读监测,其他两个科目则遵循各州自愿的原则。表3总结了2005年至2018年的全国监测、州监测以及长期趋势监测的实测科目。
表32005-2018年美国国家教育进步监测(NAEP)科目统计
年份 | 全国监测 | 州监测 | 长期趋势监测 |
2005 | 阅读数学科学 | 阅读数学科学 | |
2006 | 美国历史公民学 经济学 | ||
2007 | 阅读数学写作 | 阅读数学写作 | |
2008 | 艺术 | 阅读数学 | |
2009 | 阅读数学科学 | 阅读数学科学 | |
2010 | 地理美国历史 公民学 | ||
2011 | 数学写作 | 阅读数学 | |
2012 | 经济学 | 阅读数学 | |
2013 | 阅读数学 | 阅读数学 | |
2014 | 地理美国历史 公民学工程技术 | ||
2015 | 阅读数学科学 | 阅读数学科学 | |
2016 | 艺术 | 阅读数学 | |
2017 | 数学阅读写作 | 阅读数学 | |
2018 | 地理美国历史 公民学 |
(五)评分过程
评分由美国国家计算机系统(NCS)负责,选择题使用光电阅读器评分,开放式问题由经过培训的评分者依据评分指南和量表进行评分。美国国家计算机系统还开发了特有的电子图像处理评分系统,可以电子阅读学生的应答手册,使开放式问题数字化,并把图像储存到计算机监测系统之中,每一试题可能的分数范围会出现在电脑屏幕上,评分者只要按下合适的按钮就可以快速和准确地进行评分(杨涛,李曙光,姜宇,2015)。每组学生的试卷由两位随机组成的评分员来评,另外还对每个评分者评分的质量与一致性进行监控与监测(White , Smith & Vanneman,2000)。
(六)成绩报告
主要监测的每一监测科目结果都以量尺分数和成就水平两种方式呈现。量尺分数的汇总依据项目反应理论(Item Response Theory)。阅读、数学、历史和地理科目的量尺分数范围是0~500,科学、写作和公民的量尺分数的范围是0~300。监测报告将学生的成就水平分为三级——基础(Basic)、熟练(Proficient)和高级(Advanced),并对三种成就水平的含义做出详细解释。基础指能够部分掌握各年级的必备知识,这些必备知识是熟练学习与工作的基础;熟练意味着扎实的学术能力,达到这一水平的学生具备胜任挑战性工作的能力;高级代表优秀的表现。
监测报告不单独报告学生的个人成绩,而是按性别、种族、家庭经济状况、学校类型(公立或私立)等因素对学生进行分类来报告学生的群体成绩,以发现不同学生群体间成绩的差异,并找出造成差异的因素。此外,监测人员还采用垂直等值(Vertical Linking)的方法,将各年级学生成绩置于同一量表中,实现不同年级学生之间成绩的比较(张华华,王纯,2010)。
四、美国国家监测结果应用
教育监测报告是利用监测结果的最主要方式之一。NAEP的结果报告类型见表4。
表4美国国家教育进步监测(NAEP)的报告类型
(辛涛,李勉,任晓琼,2015)
报告类型 | 主要对象 | 内容介绍及相关说明 |
标准报告卡 (NAEP Report Card) | 无特定人群 | 主要呈现了学生在各学科的总体表现结果,以及不同学生群体(包括不同种族、性别、不同家庭收入)的表现差异 |
重点报告 (Highlights Report) | 无特定人群 | 主要就监测中的重要发现和结果进行深入的分析,以引起相关方面的重视 |
州快照报告 (Snapshot Reports) | 政策制定者、相关州教育官员、学校管理者 | 呈现州的测查结果,包括该州的总体表现(与全国水平相比)和州内不同学生群体的差异分析 |
趋势报告 (Trend Reports) | 无特定人群 | 呈现NAEP长期监测趋势的分析结果(注:NAEP就长期趋势监测进行了专门的研究设计) |
焦点报告 (Focused Reports) | 相关研究人员、感兴趣的公众 | 探讨富有教育含义的深度问题 |
技术及方法报告 (Technical/Methodological Reports) | 相关研究人员 | 包括框架设计、样本设计、试题开发、数据收集及分析等相关技术内容 |
专题报告 (Studies) | 相关研究人员 | 主要对五大类专题教育问题进行研究,包括特许学校试验性研究、中学毕业成绩单研究、全国印第安教育研究、口语阅读研究、私立学校学生成绩研究 |
指导手册 (Brochures) | 对相关技术细节感兴趣的人员及数据使用者 | 包括NAEP项目简介、年度结果简介、网站的使用简介、NAEP监测的技术步骤等 |
NAEP对美国基础教育政策具有巨大的影响力。这种影响力一方面体现在全国教育政策的制定方面,例如在1994年的《改革美国学校法案》、2001年的《不让一个孩子掉队法案》、2002年的《教育科学改革法案》、2009年“力争上游计划”、2010年的《共同核心标准》等国家政策文件的制定及推行中,都可以看到NAEP的深远影响;另一方面,NAEP的影响力也体现在各州、各学区具体的教学改革上,例如2005年北卡罗来纳州为了解决8年级阅读成绩低于全国监测水平聘请了200多名专家对各学校阅读学科的教师进行培训;2009年密歇根州底特律市响应4、8年级阅读表现全国最差的测评结果,发起了“全民共同阅读”的倡议,鼓励市民自愿参与到公立学校中指导学生阅读(李凌艳,蔡静,郑巧,2016)。
五、对中国的启示
第一,教育监测要为促进教育质量提升服务。NAEP强调对学生“知道什么,能做什么”进行考查,只报告学生群体量表分数和成就水平而不涉及学生个体成绩,淡化监测的对学生的影响(张华华,2013)。在此基础上,NAEP还按组别、区域和背景对数据进行分析,试图解释学生之间差异形成的原因,并据此提出教育改革的可行建议。我国中小学基础教育质量监测应借鉴NAEP的经验,根据学生以及学校的相关特征因素,报告学生的群体成绩,积极探索影响学生学习的因素,并适当实施干预,以期真正实现“为了改进而监测”。
第二,关注弱势学生群体,促进教育公平。NAEP关注移民学生、流动学生、残疾学生、及低收入家庭学生等处境不利学生的教育。在NAEP国家报告和州测试报告中,都特别关注不同经济社会文化背景对学生学业成就的影响以探究教育结果公平情况。我国同样重视流动儿童、留守儿童、残障儿童等弱势群体学生的教育问题,借鉴NAEP对特定学生人群划分的标准,我国同样可以根据弱势群体特征建构分数报告指标,如将学生的流动状况、家庭经济文化背景、获得的教育资源等作为监测结果报告的分类指标,以诊断弱势群体学生的学业成就状况并采取相应教育补救措施(刘春香,2013)。