教师效能的有效评价:路在何方?
刘铁川,王闪闪
(赣南师范大学教科院,赣州,341000)
摘要:由于传统的教师评价方法忽略了学生的起点及背景因素对学习成果的影响,增值评价引起了国内外教育工作者的广泛重视。然而,在研究和实践中增值评价方法的局限也日益明显,尤其美国统计协会关于增值评价使用的声明引起了普遍关注。本文结合近年来国内外增值评价研究的最新观点,分析了使用增值评价模型评价教师效能时的优势与不足,并给出实践应用时的一些建议。
关键词:教师效能;增值评价;高利害;问责制
传统教师评价方式由于极少考虑学生的基线水平,过分依赖于平均分、优秀率、及格率、排名、上线率等单一的、终结性指标。然而,影响学生最终学业成就的因素很多不受教师或学校控制,如家庭背景,社会经济地位等。因此,传统的教师评价方式极易挫伤教师的教学积极性,误导教师忽略学习基础差的学生,造成了学校之间抢夺生源等恶劣影响。
事实上学生成绩是学生个人、学校、教育政策系统等多个层次上的多种因素相互作用的结果。增值评价模型(Value-Added Models, VAM)可准确区分不同层面、不同因素对学生学业发展所起的作用,并得出各个因素所做的贡献(边玉芳,王烨晖, 2013),因此在近年来的教育效能研究中引起广泛重视。目前增值性评价的主要统计方法有概要统计模型(描述统计分析)、多元线性回归分析(将学生或学校层面的各种影响因素纳入到统计模型中加以分析)和多水平分析模型(通常将学生水平作为第一层,学校水平作为第二层)(萨丽,托马斯, 2005)。虽然统计方法不同,但基本思路都是:增值=输出值-输入值。这里的输入和输出指的都是标准化测试成绩,对所有的学校和学生使用相同的程序,再使用复杂的统计模型得出教师的增值分数。VAM中纳入了更多的影响学业成就的因素,使用较复杂的量化模型来分析教师对学生的标准化测验成绩,因此比其他评价方式得到的结果更加客观性和权威性(Association & Association, 2014)。
英美国家率先引入增值评价模型来评价教师效能,最早是由威廉·桑德斯(William L.Sanders)教授及其团队创立的田纳西州增值评价系统(Tennessee Value-Added Assessment System,TVAAS),也是目前发展的比较完善、应用广泛的增值评价系统。紧随美国之后,1967年的“普洛登报告”使教育公平问题受到高度重视,是英国增值评价的起点。国际上关于教师增值性评价在广度和深度上进行了大量的模型理论探讨和实证研究,在合理利用其优势的同时也在逐步完善和修正它的不足之处,而且越来越重视它在教师评价中的地位。在Race to the Top,再投资法案(Reinvestment Act),Teacher Incentive Fund和ESEA waivers等政策支持下更多的学校把VAM纳入到教师评价框架的一部分。经济合作与发展组织(OECD)主导的教育系统国际指标项目(INES)考虑将“增值”评价方法纳入到国际教育指标系统,以增强国际间学校效能的比较指标的效度(托马斯萨丽,彭文, 2005),并于 2008 年出版专题报告《测量学习成果的改进:评价学校增值的最佳实践》,拟在成员国范围内推广教育增值评价方法。国外注重对增值模型在有关问责制,信效度和模型的开发拓展研究上,国内注重模型的优势,局限性和结合国情的适用性上。国内关于教师增值性评价的研究起步较晚进展缓慢,理论研究不多,大多是对国外教师增值性评价研究现状的述评(边玉芳,孙丽萍, 2015)。我国01年起陆续有学者研究田纳西增值评价体系、增值在国外的应用及对我国的启示等。09年后,实证研究增多,足矣看出我国学者对增值评价的研究热情和增值评价在我国应用的趋势。比较有代表性的有王家美以江西省上饶市30所高级中学语文学科的评估为例,做的增值评估的实证研究(王家美, 戴海琦,周延, 2009);熊志权、杨煌(2016)以珠海市香洲区4年的实践为例,也进行了增值评价的背景意义、实践效果以及研究困惑的研究;彭湃(2014)就教育效能实证研究的前沿方法进行了系统的研究。
增值评价方法的发展尤其是评价教师效能的使用已经在教育领域引起了广泛的关注并且成为了研究热点。边玉芳称增值评价为一种绿色升学率理念下的发展性学校评价模式(边玉芳 & 林志红, 2007)。2000年我国香港特区政府开始以增值评价法为基础建立香港学校增值资料系统(School Value Added Information System,SVAIS),每年为学校的发展提供年度研究报告(张咏梅,田一, 2011)。河北省教育考试院干部及其考试助理研究员发表在教育测量与评价中的一篇文章中指出基于增值评价的理念开展学校效能评价,对于推进绿色评价模式发展,科学、客观地评价学校教育教学成效具有重要意义(刘娟, 高振华, 卢志舟, 马春环 & 李鹏, 2015)。VAM的优势得到了普遍认同,然而其用于高利害决策时的局限很多教育工作者并未有深刻认识。下文将介绍国内外VAM的最新研究现状,然后细致分析其存在的局限,并给出教师效能评价中使用VAM时一些建议,期待能引起相应教育研究与实践工作者的重视。
ASA声明内容主要体现在以下几个方面:
1.ASA支持用以提升教育质量的数据,统计模型,和实验设计的明智使用。
2.VAMs是复杂的统计模型,需要高水平的统计专业人员来发展这个模型和解释他们的结果。
3.来自VAMs的估计应该附有精确的方法,假设的讨论和这个模型的可能的局限性。尤其是VAMs使用在相关性特别高的高利害目的中。
1)VAMs一般基于标准测验分数,并不直接测量学生其他成果的潜在教师贡献。
2)VAMs一般测量相关性而这种相关性实际上可能并没有因果关系:由教师引起的效应(影响是积极/消极)事实上可能是由其他没有包含在模型中的其他因素引起的。
3)在某些条件下,当使用不同的模型和测验时,VAM分数和排名可能大幅改变,所以应该进行一个透彻的分析来评估不同模型估计的灵敏度。
4.应该在质量改进方面看待VAMs。VAMs能够把归因于该评估系统的效应同归因于个别教师,教师资格教育,或者学校的区分出来。大部分的VAM研究发现在测验分数中教师占这些变异的1%-14%,而在系统水平条件下教学质量有很大提升空间。如果仅通过他们的VAMs分数排名教师可能意外地降低教学质量。
学生的学业成绩是学校、教师、家庭和自身因素等共同作用的结果,学生成绩的变化也可以间接反映教师的教学质量和教学能力。增值评价在控制家庭和社会背景等因素后定量的分离出教师对学生成绩的独特贡献,只要使用得当,VAM可以提供用于提升教育进程的定量信息。例如,VAM可以提供学生成绩变异性重要来源的信息,教师和学校也可以看到他们的学生相对于以往测验得分相似的学生在测试上表现如何,有利于教师和学校开展针对性的教学活动。
大部分的VAM预测的最多不过是测验上的表现,未必是长期学习成果。然而各种研究表明教师的VAM分数和学生未来的学业成绩及其他长期结果是正相关的。(Chetty, Friedman, & Rockoff, 2014)在对其的讨论中提出,VAM实际上是能够看到教师对学生其他成绩的影响的。例如,高增值教师的学生更可能升学、增加收入等积极方面的长期影响。尽管这些效应在短期中淡出,VAM测量仍然可以预测学生已经离开一名教师的班级很久以后关键的生活成果(Corcoran & Goldhaber, 2013)。教师效应的渐弱,是因为对测验的高度关注鼓励教师以牺牲长期学习为代价追求短期测验成绩。
另一方面,VAM预测学生其他方面的成果取决于他们和测验分数相关性如何。例如,教师在鼓励学生发挥创造力或者帮助同事提升教学方面的贡献,在VAM中就不能被明确地识别(Association & Association, 2014)。ASA指出学生测验分数的大部分是“教师控制之外的因素”是正确的,但是这并不意味着教师对学生没有影响。
总结ASA对VAM的声明发现:第一,不使用VAM会使竞争环境下的教师对服务于弱势背景的教师产生偏见,VAM 有助于实现教育公平竞争;第二,虽然单单一名教师不太可能把一个学生转变为优等生,但是教师对学生的长期影响的研究(Chetty, R., Friedman, J. N., & Rockoff, J. E., 2014)表明教师对学生确实有深远的影响。
研究者普遍认同以下事实:其一,依照标准测验测量教师效能对学生成绩有教育上的显著影响(新的证据表明对以后的生活也有影响);其二,大部分教师正式评价非常不严格,他们很大程度上忽视了教师之间的表现上的差异;其三,VAM结果可能包括真实的教师效能信息,能够用来指导人事决策和政策制定,但是也受潜在的偏差影响;其四,VAM测量是有误差的(noisy),教师在连续的几年或者班级之间VAM分数这种误差不一定是真实效能上的误差;其五,在职教师和有教师择业意向的人对使用VAM测量在评价他们工作表现上的反应如何我们知道的很少(Corcoran & Goldhaber, 2013)。部分学者认为尽管观察到的个别教师间差异不足以做出高利害决策,不过连续几年的重复观察会减弱这一不足。最普遍的教师评价方式,校长观察和评价和课堂观察可能比VAM信度更小(Gansle, K. A., Noell, G. H., Grandstaff-Beckers, G., Stringer, A., Roberts, N., & Burns, J. M, 2015)。另外,教师效能的增值评价与其他常用的评价方式如校长评价、课堂观察之间存在一定的正相关(许立新, 2015)。
VAM的典型做法是使用回归模型的形式预测来自不同背景(包括先前的测验分数)的学生标准测验得分或者增长,在模型中包括教过这个学生的教师。如果一名教师的学生相对于其他有相似起点的学生有更高的成就增长,那么教师就有一个高的增值得分。
理想条件下,VAM所使用的测试内容应该在广度和深度上完整测量学生成就。然而,在实践中没有测验满足这个严格的标准。增值评价最终能否改善或者破坏教师评价效果取决于VAM指标能否精确识别个别教师对学生学习的影响并因此提供一名教师效能的可靠的测量。在技术和实施方面,VAM能够做到这一点必须满足几个条件:
1.反映出学生成绩的测验能够很好地测量学生的学习,个体学生的实际成就是沿着一个垂直量表,这能够全面的表现出测量相等时间间隔的可能成就。
2.校内或校际间学生随机分配给教师。即分配给一名教师的学生群体的学习条件及特征和分配给其他教师的没有本质区别。
3.用来测量增长的这段时期教师是唯一影响学生学习的因素。
当然,这样的假设不成立,测量学习增长的误差的程度和把他们归因于一个特定教师的程度取决于他们多大程度上违反了这些条件以及统计方法多大程度上能够补救这些问题。一个学生一段时期给定一个科目的学生成绩除了和个别教师而且和很多因素都有关系:学校因素,例如班级规模,所选课程,教学时间,可用的专家,导师,书籍,计算机,实验室和其他资源;之前的教师和学校,其他现在的教师—他们之间专业学习和协同计划的机会;同伴文化和成绩;家庭因素,例如父母协助家庭作业,保障饮食和住宿的能力,身体或者精神支持或者虐待,等等;个体学生需要,健康和出勤率。鉴于所有这些对学习影响的因素,教师在学生成就变化中只占很小的比例也不足为奇了,一般估计低于10%。
另一方面,在文献中大部分对教师贡献的估计在1%—14%。这并不是说教师对学生影响甚微,而是教师引起的变异占分数变化的一小部分,另外归因于系统的要同归因于个别教师,教师预备计划(teacher preparation programs)和学校的区别开来。当前的模型不能准确的测量大量学生增长,也是在一个统计管理不能操纵的高度不平等教育和社会制度内操作,所以实际应用中注定不准确和有误差(Darling-Hammond, 2015)。
ASA指出从班级差异水平计算VAM分数,在回归模型中通过背景变量是无法解释的。这些班级差异水平可能是由于不包括在模型中的其他因素(例如,班级规模,教授特殊需求学生,或者有接受课外辅导的学生)。作为教师贡献的一种测量,VAM分数的效度取决于采用的特定的回归模型多大程度上能够调整那些产生系统影响的其他因素、偏差和教师的VAM分数。例如,天才学生或者在测验分数中表现收益更少的残疾人,如果模型不能准确的考虑到他们的情况,可能导致有偏差的VAM分数。
尽管使用连续几年的数据计算并且在最好的条件下建模,VAM分数本身还是有很大的标准误,从而使排名不稳定。一方面结合连续几年的VAM可以减少VAM得分的标准误。另一方面,当一个模型系统地低估那些工作在特定的环境或者服务特定类型学生的教师效能时,多年的数据对引起的问题并不起作用,因为系统低估将会出现在每一年的数据中。
随机误差意味着增值测量随时间的不稳定性,例如,假期前的分数不能预测学生假期后的分数(假期期间是否通过学习)。如果VAM偏差很大或者不可靠,可能导致错误的人事决策和资源分配,可能阻止有教师择业意向的人进入这个行业。尽管从统计学家的观点来看VAM测量有可接受的属性,对从业人员而言他们复杂的计算和固有的变化性能够降低表面效度。以Corcoran 为代表的悲观主义论认为,VAM测量缺乏透明度和不精性,所以关于VAM测量显著提高教学效能和专业质量的潜能显然是被夸大了。信度是指研究的方法、条件和结果的可重复性、可验证性。一些偶然误差,例如标准化考试测量误差、学生考试期间生病、某一年分配给教师的生源差别大等可以解释教师增值的不稳定。Dan Goldhaber通过模拟实验理论上表明Rothstein提出的测验(Rothstein falsification test)证明了VAMs无偏是错误的,但是不能证明VAMs有偏是错误的(Goldhaber & Chaplin, 2015)。Josh Kinsler发展了一个易于管理的考虑非观察的教师质量和它的持久性的联合估计的学生成绩的累积模型,该模型能够调节不同的持久率(persistence rates),学生异质性和随时间变化的教师贡献(Kinsler, 2012)。
计量模型中对增值估计后的二次分析,用两个指标,斯皮尔曼等级相关系数(Spearman\'s rho)和评分一致性系数(Cohen\'s kappa)。研究发现,学校增值在不同学科间一致性程度较低,基于同一届学生计算的学校增值在不同年份中缺乏稳定性(彭湃,胡咏梅, 2015)。
Margaret Wu在EMS(education measurements solutions)上的一篇报道,针对把学生的测验分数和教师问责联系起来这种现象明确指出了统计滥用的后果。他指出教师问责制不能通过学生测验分数来建立,因为推断是猜想而不是证据,而且推断总是有误差的;即使控制了学生的社会经济地位仍然有学校控制之外的其他因素,对于一个有学习困难的学生即使它的误差很小但是用于评价教师是无效的,因为与教师表现关系不大。单独使用统计推断不能用作任何高利害决策因为,其一测量得到的是团体效应而不是个体效应。举一个例子:假如一名教师的分数用100名学生的数据计算的结果,如果量表精确到“分”这个单位,50名增加的分数是1分,另外50名增加0分,平均增加就是0.5分,但实际上并不是每个人都增加了0.5分。其二误差很大。一名教师对自己表现的描述:我做我每年做的,教授我每年教授的,第一年我受到奖励,第二年我受到批评,第三年打破纪录,但是我每一年教学方法和教学内容哪里不同了?应该认识到,统计推断并不意味着采用大量的例子,而在缺乏其他证据的时候来提供支持的证据。
VAM可能是相对表现的有用的指标,能够分离出非常高或非常低表现的教师。校长可以充分利用这种信息作为一个早期预警信号或者(极端情况下)作为解雇的理由。然而对大量教师来说VAM作为工作绩效指标的使用又是另外一件事情。鉴于VAM固有的不稳定性,在高利害系统使用VAM需要保守的设计,比如惩罚和奖励只针对那些明显非常高或非常低的表现,和统计不确定性的一个可接受的低的水平。一个满足这些保守标准的VAM系统最后只用在极端的案例中,而对大部分的教师提供很小的反馈。这就引出一个问题:除了能够识别出最差的教师外,VAM还能为校长和其他教育工作者做什么(Corcoran & Goldhaber, 2013)。
当增值评价纳入到问责体系中,会涉及到很多利益相关问题,也势必会引发一些法律问题,至少在教育改革领域要有相应的措施来保障被评估教师的权益。
增值评价在我国不管用于高利害目的还是低风险目的还没有相应的法律条文明确它的使用。国外的学者对此进行了探讨。在广泛的当代公共政策背景下的教育改革,渴望政府的问责制下的透明度,批评学校教师及工会的大量资金滥用,意味着鼓励VAM的使用还是盛行的。教育研究者对VAM的重视,教育和评估项目信效度的法律义务应该需要教育决策者采取进一步研究。与此同时,社会科学工作者也应该拿出更多关于VAM信效度和它的潜在使用的大量的新的和有说服力的证据。对于公共决策者,实施高利害决策的建议,充其量是潜在的不成熟的,对它较高使用的成功的法律挑战。不管它在法律上是否是站得住脚的,VAM的使用作为一个工具对教育改革都有相当大的局限性(Pullin, 2013)。
VAM分数是怎么来的,为什么能够用来评价教师对学生成绩增长的贡献,我们要让被评价的教师接受这种评价方式。通过开发和改进用于教育的统计模型,在设计实验和解释统计结果中提供指导,应用专业知识帮助指导存在不确定性时的判断。VAM是复杂的统计模型,并且他们需要高水平的统计专业知识。Glory Tobiason也提出了认识到增值建模中产生的八个专业技能差距(expertise gap),比如给定一个班级的学生在一学年结束的变化为x,当不同的分数放在同一个增值模型中,教师排名是不同的。这就意味着统计学家不咨询相关评估专家就很容易陷入专业差距之中(Tobiason, 2014)。开发和解释他们尤其是成为高利害问责制的一部分时需要使用良好的统计实践。这些实践包括评价模型假设,检查模型与数据的吻合程度如何,研究模型各方面估计的灵敏性,报告估计精度的措施,如置信区间或标准误,评价模型的有效性来回答所需要的教师效能问题和如何改善教育系统。当然不能完全单纯依赖于统计数据,VAM分数在统计特性上足够良好不代表就是完美的,我们也要结合其他使用其他工具。
增值使用的一个重大转变是作为一个“筛选过程”。增值测量用来识别最初表现有问题的教师,但是最后决定表现是基于收集的其他信息(例如课堂观察)。筛选方法,能够避免数据缺失问题和解决教育者其他对增值测量的担忧,比如增值可以作为防止无度和可提高信度的制衡系统的一部分(D. N. Harris & Herrington, 2015)。教师增值可能不能完全考虑学生追踪数据(学生转入和转出班级),这样结果就更不稳定。因此可以把教师作为一名教师团队来评价,即合作教学的增值评价方法,因其包含更多的学生信息避免了数据追踪问题,能够减少系统和随机误差,还可促进每一个团队内的教师之间的合作和协调。合作教学中最常见的是三种方法:部分学分法(一名教师的学生下一年到另一名教师,那么每一名教师都是0.5,主要用来评价学校增值)、教师团队法(个人和团队的平均值)和 Hock and Isenberg (2012)提出的完整名单方法Full Roster Method (FRM)(每一个师生关系的权重),这种方法的改进称为Full Roster-Plus Method(允许共同教过的学生收到他们教师的完整的权重,但是计算学生特点和成绩的关系时,所有的学生有同样的贡献)(Isenberg & Walsh, 2015)。教师效能的增值模型是从一个统计方法中进化而来,被大量教育研究者用来评价教师效能,成为寻求严格的方法来评价教师效能地区决策者的一种工具。应用于高利害决策时需要学生成绩分数的高质量数据、其他背景特征和师生关系的相关信息 (Isenberg & Walsh, 2015)。
大部分的增值研究关注于小学,对中学和高中教师有一定的挑战性(D. Harris & Anderson, 2013),因为小学生都是同一名教师经历大部分的学习时间,因此,更容易把阅读和数学成绩归因于该教师。蒂莫西.罗杰斯通过研究指出,中学教育中应用到的增值测量技术与用来测量高等教育增值的比较增值法(CVA)类似,并且高等教育增值测量需要更加复杂的技术。张文静用增值法做了教师变量对小学四年级数学成绩的影响的研究(张文静, 辛涛, & 康春花, 2010);杜屏和杨中超(2011)基于我国西部五省农村初级中学学校效能调研数据的实证分析中在分析了学校效能差异基础上进一步提出了学校是通过学校生源质量、教育教学水平、办学基本条件共同作用的(杜屏,杨中超, 2011);吕菲(2014)和杜庆(2015)对增值评价法在高职教师专业发展中的应用做了一个理论的分析;谷明非(2014)对本科生学业成绩增值评价的可行性分析中得出将增值评价应用于本科生学业成绩评价的可行性比中小学评价的可行性小得多的结论。当在学校间比较标准测验的学生表现时要考虑到学习内容,增值的概念在高等教育研究者和学校间颇多争议,尽管学校对学生学习有重大责任,但是也受学校控制之外的学生动机,学业投入,大学准备度和职业抱负的影响。当增值排名的结果对学校有一个深远的影响时,我们提醒利益相关者谨慎解释增值分数以及学生学习和学校效能之间建立连接(Liu, 2011)。
国内学校班级之间存在明显的分层现象:普通班、重点班、特优班等,那么增值性评价是否同样适用于这样的现象?标准化考试中的“天花板效应”即高分群体增值不明显,这就可能引导教师更关注那些低分群体。这也有助于生源较差的学校找到自信,只是如何对高起点的学校进行增值评价又成了一个问题。模拟效能测量(simulation-based effectiveness measures ,SBEMs)创新了教学技术和教育测量领域以获取更好的高质量教学。SBEMs基于教师在虚拟现实课堂的工作。由教师回顾课堂后完成。学生被设定为不同的个性,能力和行为。包括天才学生,一般学生和认知障碍的三年级学生,要求完成两位数运算SBEMs能获取教师是否分别用不同的方法来解决不同层次的学生的问题。优势之一就是教师能收到测验分数和学生对教师努力的反应。学生和教师交流他们错误的想法。允许SBEMs开发者测量教师对学生问题的反应。挑战在于测量需要的技术,把教师放在一个从新手到专家的连续的发展性教学技能的识别(Welsh, 2011)。
原则上每一名教师每一年有一个真实的增值分数,但是我们从未看过“真”分数,而是合理分数范围内的单一估计。合理增值分数的范围---置信区间---能使得许多教师的分数区间或者排名大大重叠。因此,我们不能轻易识别许多教师真实的增值分数。两种情况下能够让我们达到高信度的增值估计:第一,是否教师的增值测量更精确;第二,教师的真实的增值分数是否显著不同。当基于增值对教师进行分类时可能出现两种解释性的错误:第一,对在某种百分比之上但是却被错误的归类为之下的教师的“假识别”(false identifications);对实际上在某种百分比之下但是被错误归类为之上的“假非识别(false non-identifications)”。错误识别教师为阈值之下对教师是有风险的,但是不能识别真正的无效教师对学生是有风险的。能够进行一个程序来鉴定真实的增值分数对分类的潜在错误的贡献多么不确定。第一,指定你希望识别的教师的群体。然后,指定你愿意忍受的错误识别的分数(fraction)。最后,指定这一年和下一年增值分数之间的相关(Raudenbush & Jean, 2012)。大多数现实世界中的设置,不确定的程度将导致相当大的教师错误分类的比例。
需要进一步了解的包括增值测量技术性能的大量信息,比如对这些测量如何应用于实践知之甚少(学生对教师的分配、更激励性的数据收集的目标和结合其他测量)。另外,通过实验证据没有得到解决的问题:是否和怎样使用VA取决于实际情况(政策灵活性和选择的反响、信息的相关性、测验知识和技巧的重要性以及VA的花费,系统计算增值和收集其他信息的能力)(Loeb, 2013)。