摘要:口语测试能够有效地测试、评估学生运用英语进行口头表达的能力,效度较高;但口语测试评分主要依靠评分员主观判断,评分员的业务水平、测试经验和个性特点等方面的存在差异必然影响评分员的评分,评分标准的掌握很难完全一致,因而确保评分者较高的信度比较困难。本文在语言测试理论、口试信度理论以及国内研究成果的基础之上对提高口试考官评分的信度进行讨论,探索一条口语考试前评分员的规范化培训,从而使英语口语测试的评分信度有所提高,最后使这项主观性强的测试变得尽可能地客观、科学。
关键词:口语测试;测试信度;评分信度;规范化培训
引言 随着社会的发展,世界WTO的形成,国际间交流合作越来越广泛。英语已成为当今国际间所通用的流行性的语言。作为一门语言,学习它的最终目的是为了应用,因此英语口语交际显得越来越重要。在这样的基础上英语口语被提到非常重要的位置,从而被带进课堂,成为英语教学上的一个重点。为了更好的改变英语教育的现状,提高英语口语教学质量,英语口语测试应运而生。随着英语口语测试的普遍开展通过英语口语测试,教师可以检查学生学习英语的情况,以及运用英语进行交际的能力,加深对学生的了解,从中发现问题,改进教学,提高教学效果;学生参与英语口试,可以使他们感受到学习成功的喜悦,激发他们积极参与课堂的学习和课外活动,树立起能学好英语的自信心,敢于大胆开口说英语。然而就口语测试自身而言,它的信度被广泛大众所质疑,尤其是它的评分信度。曾有许多教师和测试专家都承认,口语测试评分很难做到客观公正。根本原因是其中要注意的成分太多,而且无法进行定量分析。Heaton也认为口语测试对教学产生积极的反拨作用,有利于促进教学,促进学生口语能力的提高,应该尽可能坚持。但是,他也认为口语测试可能没有信度(信度低)。上述观点主要认为口语测试评分主观性强,信度难以得到有效保证。如何保证口语测试的信度,尤其是评分信度一直是摆在口语测试人员面前的一道难题;口试评分的信度问题一直是语言测试研究领域的重点和难点。
基于语言测试理论下的口语测试 语言是人类特有的,有着很多独特的特点。而口语更具有“瞬间性、临时性、短暂性”以及易变、不稳定等显著特点。因此,口语能力的测试,和其它外语能力的测试相比,是一种主观性的语言测试,更加难以把握。如果考生的数量达到成千上万的话,口语的标准化测试更是难上加难。
纵观外语测试史,外语测试经历了三种不同的测试体系:科学前测试体系、结构主义测试体系和交际测试体系。虽然外语测试的历史有上百年,但直到20世纪40年代以后,结构主义测试体系兴起,口语测试才成为语言能力评估的一部分。20世纪80年代,口语测试进入交际法语言测试时期。交际性测试理论对语言测试模式产生了巨大而深远的影响。现今交际性口语测试逐渐成为语言测试的一个热点,引起国内外学者的广泛关注。许多语言学家、测试专家正努力解决一些长期困扰他们的交际口语测试问题,如为什么要测试、如何测试、测试什么内容、测试对象等。其中,国外做出大量研究的学者有Robert Wood,J.Charles Alderson,Caroline Clapham,Dianne Wall等许多学者,国内有李筱菊,邹申,文秋芳等学者对口语测试也做出了大量的研究。现在许多口语考试就是以交际能力理论为基础设计的,其目的就是为了能够尽可能准确地检查考生的语言交际能力。
Bachman认为交际能力包括三大部分:语言能力、策略能力、以及生理一心理语言机制。Bachman所说的交际能力是一种复杂的综合能力。这种能力可以通过口语交际和书面交际两个方面表现出来。因此,语言交际能力的培养是语言教学的首要目标,同时衡量语言交际能力也成为语言测试的首要任务。此时的语言测试由第二阶段的一味追求测试的信度转向信度与效度的综合考虑,并趋向更高的信度和效度。
现在的交际性口语测试以真实性,交互性,功能性,情景性和综合性为主要特点。题型以角色扮演、面谈和讨论为主,采用双向或多向交互模式,注重需求分析,评分为等级评分制,将考生的水平分成等级,对每一等级有相应的详细分项和总体说明。和结构主义测试相比,交际性口语测试的内容涵盖面广,更能反映真实能力。
测试信度下的评分信度 信度指测试结果的可靠程度,即考试结果不受考试时间、监考人员、场地等因素的影响。著名心理测验专家阿纳斯塔西给信度下的定义是:同一个人在不同场合参加同一测试或参加内容与难度相当的不同测试其成绩保持一致的程度。
刘润清认为语言测试的信度是指考试结果的可靠性和稳定性。而左焕琪(2002)则认为信度的基本概念是避免测试误差的程度。
信度包括三个方面:测试本身的信度、受试者在不同情况下的表现以及评分的信度。下面主要介绍下在英语口语测试下的评分信度:
口语测试评分员的评分信度可以分为两个方面,一是同一个评卷人前后评卷标准的一致性,即具有评分员内部信度,二是不同评卷人所用标准的一致性,即具有评分员间信度。如果同一评卷人评卷前后所持的标准不一致,或不同评卷人之间使用了不同的评分标准,那就会在很大程度上削弱测试的信度。对于大规模语言测试来说,大规模考试的评分点不止一个,所以还有评分点之间信度。就口语测试而言,评分员间信度指不同评分员对同一口试样本是否给出同一个正确的分数;评分员内部信度指同一评分员对同一口试样本在不同场合出现是否判定同样的分数。
影响口语测试评分信度的因素 口语测试的目的是测试考生口头语言表达能力,属于主观性考试。它和选择题、填空题,这些客观题不同,它要加上人的主观判断,而考试当中一旦有人的主观判断,就不可避免的会产生误差。近年来,随着外语教学理论越来越强调学生交际能力的培养,测试类型也越来越倾向直接性口语测试,而在这种测试中考官评分误差表现得尤为明显。直接口试虽有较高的表面效度,其评分过程却存在着缺陷,即“直接口语测试的评分信度通常较低”。消除口试评分误差,提高口试评分信度的研究一直在进行,可惜的是直到今天我们也不能完全消除这种评分所带来的误差。在面对面的直接性口试评分过程中,评分员不可避免地受到主观因素的影响,对试题答案、评分标准常有不同的判断,从而导致对评分标准理解的不统一而产生评分误差。其次,考官的专业素质、评分的瞬间性和口试过程中的非预测性等因素,都在不同程度上影响口试成绩。由此可见,考官评分信度是影响口语测试信度的关键因素之一,分析英语口语测试的评分信度差异产生的原因是很必要的。下面主要介绍下影响英语口语测试评分制度的因素:
(1).口语评分的主观性,即评分员的主观判断。口试评分来自考官对口试客观标准的把握和对考生水平的主观认定。标准和认定之间给考官留有很大的余地和空间,这使考官之间、考官自身和评分组之间产生不一致性,甚至较大不一致性成为可能。不同的考官会对同一考生的口头交际水平量分不同,有的趋严,有的趋松;同一考官对同一考生在不同时候, 如同一天的不同时间也可能做出不同判断,易出现忽高忽低现象;不同评分组或不同评分点也可能对同一考生的能力做出不同评估。因此,直接面试的较强主观性是影响评分信度的最主要原因之一。