【目标参照测验】的意思_什么是目标参照测验

百科名片

它为人们提供了有关被试是否达到某种行为标准水平或要求的信息是一种与以经典测验理论为基础的常模参照测验相对的测验类型

标准参照测验思想的源渊可以追溯得较远但是标准参照测验理论的产生与发展则是本世纪50年代以后的事情弗拉纳根在1951和埃贝尔在1962年都比较过两种信息的价值这两种信息就是从一个具体的领域或内容中作出推理被试的信息有关一个团体中等第关系的被试的信息但是"标准参照测验"术语的明确提出则要归功于格拉泽和克劳斯1962而对该术语的明确解释则是格拉泽的贡献格拉泽于1963年在美国心理学家杂志上撰文论述了这两种信息的定义并进行了比较然而由于格拉泽论述的晦涩和深奥以及这种新思想的陌生因而这种思想未能立即转化为实践正如波帕姆和赫塞克的评述"除了在技术词汇中增加了两个新概念之外在测量实践中并没有对它们进行区分"

1969年波帕姆和赫塞克在教育测量杂志上发表了标准参照测验的应用一文此文不仅评述了以前的发展状况而且进一步阐述了格拉泽的思想并且列举了在教学决策中常模参照和标准参照两种方法和利和弊这篇论文引起了教育和心理测量专家们的广泛注意从而使得70年代成为标准参照测验赢得测量待业关注的10年这可从两个统计数据中得到印证格拉泽1963年发表的论文至1986年8月止已被124篇文章引用其中只有10篇是1971年以前发表的从1967~1978年20年间美国教育资料情报中心ERIC收集到了1913篇有关标准参照测验研究课题的论文

70年代期间教育与心理测量专家对标准参照测验的概念进行了进一步探讨而且对该测验的编制原理及方法标准水平的确立方法信度估计及效度验证等方面进行了研究并提出了一系列数学化模型1980年标准参照测验领域已变得十分复杂乃至尼特克撰写了长达24页的评述性论文以帮助我们区分标准参照测验不同类型的差异

自1968年以后标准参照测验的实践也得到了发展波帕姆及其同事们构建和散发了许多标准参照测验每一套都与一套可测量的或详述的目标相联系这些测验在许多课堂中得到了使用并使课堂使用者成为标准参照测验的狂热支持者1982年有调查表明美国全国教育学会发言人明确表示他们宁可要标准参照测验而不要常模参照测验许多州立教育部门也编制了与州所设立的课程相关联的标准参照测验

标准参照测验从兴起到发展之所以如此迅速有其深刻的原因本世纪五六十年代美国的教育改革轰轰烈烈声势浩大人们提出"为掌握而教学""个别化教学"等教学改革主张为了能有效地实现这些改革教师必须能为某种知识技能的"掌握"下定义并且在实践中能识别学生是否已达到了掌握和程度这就对传统的测量方法提出了挑战此时如果成绩评定准则仍然是相对性竞争性即根据学生在常模组内的相对位置来判断他的成绩则虽然学生在团体组内的等第次序变化也能为说明其学习是否进步提供证据但如果把这种变化仅仅看作是竞争性的那么这种成绩评定准则可能会摧毁学生的学习和发展其原因在于为了检查学生对某学科内容的掌握情况如采用以传统的区分度指数为根据的常模参照测验的选题程序编制测验则会将人们本来希望在测验中包含的题目剔除因而不能实现测量目的同时常模参照测验的内容领域通常较广难以确切说出被试实际掌握了多少其分数结果不宜用来判别学生是否已达到所希望的要求因而人们提出了绝对标准的成绩评定思想这是一种排除相对性的成绩评定准则可鼓励学生经过努力都能达到这一标准这样新型的测验类型--标准参照测验应运而生且由于其有着传统的常模参照测验所不具有的某些优点如各个被试的成绩水平能直接说明其具有的真实水平状况等等百获得迅速发展

标准参照测验基本思想

编制的基本原则

标准参照测验的主要目的在于确定被试对某一知识或技能的掌握的真实状况因而其编制的基本原则为1测量目标必须明确和具体并且在一测验中不能包含过多的测量目标测量目标模糊或过多都不利于测验结果精确描述被试的知识或能力的真实状况2测题必须与测量目标之间具有较高的一致性每一测验题目的反应必须能体现出所要测量的测量目标上的得为表现同时测量同一目标的测题数量既要足够又要具有较高的同质性但在测量不同目标的测验题目之间不要求有同质性

项目分析参数

标准参照测验同样需要难度区分度等参数进行项目分析但是这些参数的含义已区别于常模参照测验中难度区分度的含义

难度已不能简单地解释成题目的难易程度或题目的通过率而必须理解为测验者对测验内容要求的高低它通过测量目标反映出来测验者对测验内容要求越高测题的难度相应地也越大反之则越低在题目分析的过程中常采用掌握组中的通过率及未掌握组中的通过率来表示因而难度系数值大小的选择既可遵循统一的标准又可反映被试对测量目标掌握的程度

区分度反映的则是测题对区别掌握与未掌握两类被试的能力而非笼统地指对被试能力的鉴别程度由于人们通常将被试的掌握或未掌握的原因归咎于教学的因素帮"教学敏感性系数"常被采用为项目区分度的一种指数并且人们提出了多种教学敏感性系数常见的有D指数B指数等

及格的标准水平

标准参照测验的分数解释不依赖于测验组的常模而是根据测验者编制通常在测验实施之前就制订的及格的标准水平显然被试是否及格不依赖于同伴的测验结果完全依赖于其自身的行为表现结果

及格的标准水平是测验分数量表上的某个点可以根据这一点在量表上的位置将被试划分成对测量内容具有不同熟练掌握水平的不同类型及格的标准水平是测验结果解释的直接依据如何制订出合理的及格标准水平是一个需要测验编制者深思熟虑的问题因为这种标准水平的确立包含了较多的人的主观性成分至目前为止人们已纷纷提出了许多种确立及格的标准水平的方法

效度验证

效度是衡量测验有效性的重要指标通常它指测验对于它所欲测量的属性能够测到的程度同样对于标准参照测验而言需要评定其内容效度效标关联效度以及结构效度但强调的侧重点不同于以往标准参照测验更侧重于对其内容效度的要求

内容效度指测验内容对所欲测量内容的代表性程度因而考察标准参照测验的内容效度主要从以下两方面入手测验题目的正确性和测验题目的代表性测题的正确性是指测题正确地反映测量目标所欲测量的知识技能的程度对它的检查主要包括测题的技术质量和测题与测量目标之间的一致性程度对前者的要求相一致人们较易掌握而对测题与测量目标之间一致性程度的评定则较困难通常只能采用一些经验方法加以评判有专家评判法和学生评判法两大类方法测题的代表性要求组成标准参照测验的测题必须对测验领域总体有一定的代表性从而使测验具有较高的内容效度为了保证测题的代表性标准参照测验编制中往往需要制订双向细目表同时人们也提出了利用"重复实验"方法来检查标准参照测验中测题的代表性

除了确保标准参照测验的内容效度之外还必须对标准参照测验的效标关联效度和结构效度加以验证因为内容效并尽管非常重要但它只是关心测验内容而不是测验分数它并不随着被试组的不同或时间的变化而变化而测验分数解释的正确性却随着测验情形的变化而变化因而仅靠测验的内容效度并不能确保测验的有效性效标关联效度的验证方法仍可沿用以往的常用方法关键问题仍在于效标的选择及其效标的正确性上

标准参照测验中的结构效度验证是指从理论上证明测验分数解释的合理性由于标准参照测验的内容效度看上支似乎提供了足够的效度证据同质性的标准参照测验分数分布限制了用相关性进行结构效度验证的途径因而标准参照测验理论中的结构效度验证的途径因而标准参照测验理论中的结构效度验证的研究至今仍是一个较薄弱的领域还未出现一种令大多数人能接受的有效的结构效度验证方法汉布尔顿曾提出使用格特曼量图分析和因素分析法进行结构效度验证的可能作为结构效度的一种具体类别决策效度是指根据标准参照测验分数对被试所作出的掌握分类决策的正确性其检查过程就是收集掌握与未掌握分类决策正确性的证据可用正确分类或不正确分类的概率表示但关键的问题在玩弄其一如何才能证明确立的分类标准是正确的其二怎样才能知道被试的真实状态即掌握还是未掌握

总体上说来标准测验的效度验证理论还未发展成熟和完善有待于进一步的研究和拓广深化

信度估计

至目前为止研究文献中已提供了较多的标准测验信度估计方法这些方法与常模参照测验中的信度估计方法完全不同通常将标准参照测验信度估计方法分为三大类

第一决策一致性信度标准参照测验的目的之一在于票据标准水平将被试划分成不同的类型如掌握与未掌握这时可以用掌握分类决策的一致性指数表示标准参照测验的信度计算决策一致性信度的方法很多既可以利用两个平等形式的复本测验或再测验来估计也可以不需要复测或再测直接利用一次测验结果估计决策一致性信度通常采用PO及u表示决策一致性信度系数但对PO及u的估计有许多不同的方法这一方面取决于测验的条件另一方面取决于对一致性信度精确性的要求其中哈伊恩方法和萨伯考维克方法等尤为有用

第二领域分数估计的信度标准参照测验的另一重要目的在于测量学生对测验内容掌握的多少一般说来测题是从测量该内容的所有题目中抽样出来的所以根据被试的测验分数推测其在整个内容领域上的领域分数即真分数的过程中必然会涉及测验分数估计的可靠性程度因而必须估计领域分数估计的信度这种信度的估计既可以采用测量的标准误估计如米尔曼和汉布尔顿克龙巴赫等提出的估计方法同时也可以采用概化系数ρX来表示前者反映的是各个体领域分数估计的可靠性后者体现了总体上反映所有被试的领域分数估计的可靠性

第三误差平方损失一致性系数当运用及格的标准水平对被试进行掌握分类时处理分类误差有两种情况第一种情况是在作出分类决策时不论被试的观察分数与标准水平的远近情况如何一律将误差视为具有同等严重性在计算决策一致性信度时就以这种方式处理误差第二种情况是认为对远离标准水平的被试作出错误分类的严重性比对靠近标准水平的被试作出错误分类的严重性要大人们通常将这种描述分数与标准水平的离差平方的信度系数称作为误差平方损失一致性系数常见的估计方法有利文斯顿提出的K2XT系数和布伦纳与凯恩提出的MC系数这两种系数的估计均采用方差分析来实现

标准参照测验的标准化

测验的标准化是经典测验理论中方法体系的一个重要方面对于标准参照测验而言同样需要对它实现标准化从而提高测验分数解释的正确性标准参照测验的标准化同样包括以下几个方面1测验编制过程的标准化即为测验编制者提供统一的精确界定的测量目标测验题目都是测量内容的典型代表物测题具有较高的技术质量等等2测验实施的标准化即为被试提供相同的指导语测验的外在物理条件相一致等等3测验评分的标准化即评分应有统一的评分标准排除评分者的主观偏见4测验分数解释的标准化即评判各被试成绩水平的及格标准水平必须始终如一

标准参照测验研究展望

在过去的20多年间标准参照测验研究虽然取得了较大的发展并较多在转化为实践但是由于研究点主要集中在常模参照测验和标准参照测验之间比较和标准参照测验理论上因而其方法还处于一个相对薄弱的境地从目前整个心理和教育测量领域的发展来看标准参照测验的研究将呈现出以下几个趋势

1项目反应理论及方法将越多地应用到研究标准参照测验领域中例如项目反应模型运用于测题的选择项目反应信息函数运用于项目分析项目反应理论中能力参数的估计用于标准参照测验分数的估计等等项目反应理论在标准参照测验领域中的应用很可能为标准参照测验理论及方法的成熟和完善作出杰出的贡献

2标准参照测验的研究将会越来越多地引进数理方法事实也已表明数理方法如因素分析方差分析等的引入丰富和充实了标准参照测验的理论将来诸如贝叶斯估计等方法也将进入标准参照测验研究领域标准参照测验中效度验证等问题必须借助于更多的数理方法才能趋于成熟

3与整个测量领域相一致的是计算机技术也将在标准参照测验领域大展宏衅这涉及标准参照测验题目的编制选择测验的组合测验的实施及其评分等

4标准参照测验与常模参照测验之间的关系不可能出现谁战胜谁的局面它们只是两种不同类型的测验而已在研究者之间实践者之间将达成一致的共识即它们各自具有自身的优缺点在不同的情形中发挥各自的优点在教育测量领域中可能越来越多地采用标准参照测验形式但在心理测量领域中常模参照测验形式可能仍占极大多数

目标参照测验百科内容来自于：

百科名片

标准参照测验回顾

标准参照测验基本思想

编制的基本原则

项目分析参数

及格的标准水平

效度验证

信度估计

标准参照测验的标准化

标准参照测验研究展望

修改单词

目标参照测验 百科内容来自于：

百科名片

标准参照测验回顾

标准参照测验基本思想

编制的基本原则

项目分析参数

及格的标准水平

效度验证

信度估计

标准参照测验的标准化

标准参照测验研究展望

修改单词

目标参照测验百科内容来自于：