六、将测验标准化
—套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差,就要控制无关因素对测验目的的影响,这个控制的过程,称作标准化。具体包括以下几方面:
(一)内容
标准化的首要条件,是对所有受测者施测相同的或等值的题目。测验的内容不同,所得的结果便无法比较。
(二)施测
尽管对于所有的受测者使用了相同的题目,但如果在施测时各行其是,所得的分数也不能进行比较。为了使测验条件相同,必须有统一的指导语和时间限制。
1.指导语
给受测者的指导语属于测验刺激的一部分,它的内容通常包括对测验目的说明和受测者应该如何作答的指示(包括如何选择反应、记录反应、以及时限等)。对于纸笔测验来说,这些指示一般印在测验的开始部分,也可以印在另外一张纸上。要求简单明确,不引起误解。如果题目形式对被试是生疏的,还应该有一些例题。
指导语会直接影响受测者的作答态度与方法。有人以不同的指导语对几组被试实施同一个能力测验,结果表明,将该测验说成“智力测验”的一组,成绩高;将之说成“日常测验”的一组,成绩纸。
为了保证测验情境的一致,还要有对主试者的指导语,主要是对测验细节作进一步解释,以及其它一些有关事项,包括测验房间场地的安排(照明、桌掎、隔音、温度等),测验材料的分发,如何计时、记分,对被试的各种提问如何回答,以及在测验中途发生意外情况(如停电,有人迟到,生病;等应该如何处理。由于主试者的一言一行,甚至表情动作都会对受测者产生影响,所以主试者一定要严格遵守施测指导,不要任意发挥和解释。总的要求是,无论什么人、在什么时候、什么地点使用同一测验,都必须做同样的事,说同样的话。对主试者的指导语与测验是分开的。
2.时限
确定测验的时限,要考虑施测条件和实际情况的限制(如一节课时间的长度),以及被试的特点(如对儿童、老人、病人施测时间不宜过长),不过更重要的是考虑测量目标的要求。
对于人格测验来说,反应速度是不重要的,可不必规定严格的时限,但是在测量能力和学绩成就时,速度是需要考虑的一个重要因素。依据速度在活动中所起的作用,可以把测验分成速度测验和难度测验。纯速度测验时间应当严格限制,使被试中没有人能在规定时间内做完全部题目。纯难度测验只考察被试解决难题的水平而不考虑完成时间。实际上,大多数能力和学绩测验介于上述二者之间,既考察反应的速度也考察解决难题的能力。通常所用的时限是使大约90%的受训者能在规定时间内完成全部测验,如果题目由易到难排列,应使大多人在规定对间内完成他会答的问题。
确定时限一般采用尝试法,即通过来决定。假设根据第一次试测的经验,我们估计大部分被试可以在25分钟内做完,在第二次试测时,可以先叫被试用黑铅笔做20分钟,然后换成红铅笔,再过5分钟换成蓝铅笔,这样便可了解被试在规定时间内完成题目的数量。另一种方法是在施测现场挂一只钟,每个被试做完后即将当时时间写在试卷末尾。试卷收齐之后再根据被试完成情况规定合适的时限。
(三)评分
标准化的第三个要素是客观评分。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才能够把分数的差异完全归诸受测者的差异。一般说来,自由反应的题目(如问答题、论文题等)评分者之间很难取得完全一致,而选择题的评分较为客观,因此有人将选择题组成的测验叫客观性测验。
无论哪种测验,为使评分尽可能客观,有三点要求:
1. 对反应的及时的和清楚的记录。特别是对口试和操作测验,此点尤为重要,必要时可以录音和录象。
2. 要有一张标准答案或正确反应的表格,即计分键。选择题测验的计分包括一系列正确的答案和容许的变化;论文题的计分键包含各种可能答案的要点;人格测验不可能有明确而统一的答案;计分键上指明的是具有或缺少某种人格特征者的典型反应。
3. 将受测者的反应和计分键比较,对反应进行分类。对于选择题来说,这个程序是很容易的,但是当评分者的判断可能是一个起作用的因素时(如问答题、论文题),就需要对评分规则作详细的说明,评分时将每一个人的反应和评分说明书上所提供的样例相比较,然后按接近的答案样例给分。
无论采用何种评分方法,都必须符合客观、正确/经济/实用四项原则。
(四)常模
一个标准化测验,不但内容、施测和评分要标准化,对分数的解释也必须标准化,如果同一个分数可做出不同的推论,测量便失去了客观性。
多数测验用常模作解释分数的依据。测验分数必须与某种标准比较,方能显出它所代表的意义。例如。某学生成绩单上写着:物理——85分。我们仅从这个分数很难断定他学得如何,因为没有一个比较的标准。在传统心理测验中,是把个人所得的分数与代表一般人同类行为的分数相比较,以判别其所得分数的高低。此处所指的“代表一般人同类行为的分数”,即为“常模”。例如,以摄氏温度计,便可确诊为发烧,因为一般人的正常体温是37℃,这就是成人体温的常模。
建立常模的方法是,在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整体,得出一个具有代表性的分数分布。标准化样本的平均数,即为该测验的常模。
常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地域常模、民族常模、职业常模等。