编制的基本原则
标准参照测验的主要目的在于确定被试对某一知识或技能的掌握的真实状况因而其编制的基本原则为1测量目标必须明确和具体并且在一测验中不能包含过多的测量目标测量目标模糊或过多都不利于测验结果精确描述被试的知识或能力的真实状况2测题必须与测量目标之间具有较高的一致性每一测验题目的反应必须能体现出所要测量的测量目标上的得为表现同时测量同一目标的测题数量既要足够又要具有较高的同质性但在测量不同目标的测验题目之间不要求有同质性
项目分析参数
标准参照测验同样需要难度区分度等参数进行项目分析但是这些参数的含义已区别于常模参照测验中难度区分度的含义
难度已不能简单地解释成题目的难易程度或题目的通过率而必须理解为测验者对测验内容要求的高低它通过测量目标反映出来测验者对测验内容要求越高测题的难度相应地也越大反之则越低在题目分析的过程中常采用掌握组中的通过率及未掌握组中的通过率来表示因而难度系数值大小的选择既可遵循统一的标准又可反映被试对测量目标掌握的程度
区分度反映的则是测题对区别掌握与未掌握两类被试的能力而非笼统地指对被试能力的鉴别程度由于人们通常将被试的掌握或未掌握的原因归咎于教学的因素帮"教学敏感性系数"常被采用为项目区分度的一种指数并且人们提出了多种教学敏感性系数常见的有D指数B指数等
及格的标准水平
标准参照测验的分数解释不依赖于测验组的常模而是根据测验者编制通常在测验实施之前就制订的及格的标准水平显然被试是否及格不依赖于同伴的测验结果完全依赖于其自身的行为表现结果
及格的标准水平是测验分数量表上的某个点可以根据这一点在量表上的位置将被试划分成对测量内容具有不同熟练掌握水平的不同类型及格的标准水平是测验结果解释的直接依据如何制订出合理的及格标准水平是一个需要测验编制者深思熟虑的问题因为这种标准水平的确立包含了较多的人的主观性成分至目前为止人们已纷纷提出了许多种确立及格的标准水平的方法
效度验证
效度是衡量测验有效性的重要指标通常它指测验对于它所欲测量的属性能够测到的程度同样对于标准参照测验而言需要评定其内容效度效标关联效度以及结构效度但强调的侧重点不同于以往标准参照测验更侧重于对其内容效度的要求
内容效度指测验内容对所欲测量内容的代表性程度因而考察标准参照测验的内容效度主要从以下两方面入手测验题目的正确性和测验题目的代表性测题的正确性是指测题正确地反映测量目标所欲测量的知识技能的程度对它的检查主要包括测题的技术质量和测题与测量目标之间的一致性程度对前者的要求相一致人们较易掌握而对测题与测量目标之间一致性程度的评定则较困难通常只能采用一些经验方法加以评判有专家评判法和学生评判法两大类方法测题的代表性要求组成标准参照测验的测题必须对测验领域总体有一定的代表性从而使测验具有较高的内容效度为了保证测题的代表性标准参照测验编制中往往需要制订双向细目表同时人们也提出了利用"重复实验"方法来检查标准参照测验中测题的代表性
除了确保标准参照测验的内容效度之外还必须对标准参照测验的效标关联效度和结构效度加以验证因为内容效并尽管非常重要但它只是关心测验内容而不是测验分数它并不随着被试组的不同或时间的变化而变化而测验分数解释的正确性却随着测验情形的变化而变化因而仅靠测验的内容效度并不能确保测验的有效性效标关联效度的验证方法仍可沿用以往的常用方法关键问题仍在于效标的选择及其效标的正确性上
标准参照测验中的结构效度验证是指从理论上证明测验分数解释的合理性由于标准参照测验的内容效度看上支似乎提供了足够的效度证据同质性的标准参照测验分数分布限制了用相关性进行结构效度验证的途径因而标准参照测验理论中的结构效度验证的途径因而标准参照测验理论中的结构效度验证的研究至今仍是一个较薄弱的领域还未出现一种令大多数人能接受的有效的结构效度验证方法汉布尔顿曾提出使用格特曼量图分析和因素分析法进行结构效度验证的可能作为结构效度的一种具体类别决策效度是指根据标准参照测验分数对被试所作出的掌握分类决策的正确性其检查过程就是收集掌握与未掌握分类决策正确性的证据可用正确分类或不正确分类的概率表示但关键的问题在玩弄其一如何才能证明确立的分类标准是正确的其二怎样才能知道被试的真实状态即掌握还是未掌握
总体上说来标准测验的效度验证理论还未发展成熟和完善有待于进一步的研究和拓广深化
信度估计
至目前为止研究文献中已提供了较多的标准测验信度估计方法这些方法与常模参照测验中的信度估计方法完全不同通常将标准参照测验信度估计方法分为三大类
第一决策一致性信度标准参照测验的目的之一在于票据标准水平将被试划分成不同的类型如掌握与未掌握这时可以用掌握分类决策的一致性指数表示标准参照测验的信度计算决策一致性信度的方法很多既可以利用两个平等形式的复本测验或再测验来估计也可以不需要复测或再测直接利用一次测验结果估计决策一致性信度通常采用PO及u表示决策一致性信度系数但对PO及u的估计有许多不同的方法这一方面取决于测验的条件另一方面取决于对一致性信度精确性的要求其中哈伊恩方法和萨伯考维克方法等尤为有用
第二领域分数估计的信度标准参照测验的另一重要目的在于测量学生对测验内容掌握的多少一般说来测题是从测量该内容的所有题目中抽样出来的所以根据被试的测验分数推测其在整个内容领域上的领域分数即真分数的过程中必然会涉及测验分数估计的可靠性程度因而必须估计领域分数估计的信度这种信度的估计既可以采用测量的标准误估计如米尔曼和汉布尔顿克龙巴赫等提出的估计方法同时也可以采用概化系数ρX来表示前者反映的是各个体领域分数估计的可靠性后者体现了总体上反映所有被试的领域分数估计的可靠性
第三误差平方损失一致性系数当运用及格的标准水平对被试进行掌握分类时处理分类误差有两种情况第一种情况是在作出分类决策时不论被试的观察分数与标准水平的远近情况如何一律将误差视为具有同等严重性在计算决策一致性信度时就以这种方式处理误差第二种情况是认为对远离标准水平的被试作出错误分类的严重性比对靠近标准水平的被试作出错误分类的严重性要大人们通常将这种描述分数与标准水平的离差平方的信度系数称作为误差平方损失一致性系数常见的估计方法有利文斯顿提出的K2XT系数和布伦纳与凯恩提出的MC系数这两种系数的估计均采用方差分析来实现
标准参照测验的标准化
测验的标准化是经典测验理论中方法体系的一个重要方面对于标准参照测验而言同样需要对它实现标准化从而提高测验分数解释的正确性标准参照测验的标准化同样包括以下几个方面1测验编制过程的标准化即为测验编制者提供统一的精确界定的测量目标测验题目都是测量内容的典型代表物测题具有较高的技术质量等等2测验实施的标准化即为被试提供相同的指导语测验的外在物理条件相一致等等3测验评分的标准化即评分应有统一的评分标准排除评分者的主观偏见4测验分数解释的标准化即评判各被试成绩水平的及格标准水平必须始终如一