人才测评:方法与应用(第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2 人才测评原理

人才测评有许多无法回避的基本问题,包括人才测评的理论基础、人才测评的信度和效度。对这些问题的回答不仅可以揭示人才测评存在的价值和意义,而且有助于我们在实践中评价各种测评工具的技术质量指标。

本章导航

2.1 人才测评的理论基础

人才测评主要是针对人的心理特征的测量与评价。人与人的心理特征是否有差异、心理特征是否具有稳定性、心理特征能否通过一些办法进行测量,这些基本问题直接关系到人才测评存在的必要性和可能性,是现代人才测评的重要基石。另外,人才测评的根本目的是要帮助组织寻求合适的候选人,帮助个体寻求合适的工作职位,所以人职匹配理论又是现代人才测评的另一重要基石。

沃尔玛和UPS:招聘讲究“人职匹配”

世界500强中的零售业巨子沃尔玛曾连续两天在人才市场摆擂台,为即将开业的上海五角场店招募各类基层员工,而UPS也现身航运物流人才市场摆擂大招“分拣操作工”等。无独有偶,两家名企都在招聘过程中不约而同地传递出“人职匹配”的理念。据称,沃尔玛在华企业平均每开一家门店,就能解决400人的就业问题,其中还不包括促销员等厂方人员。张榜公布的十余项职位大多只需具备“高中学历以上”。与管理人员职位不同,基层员工大多需要的是动手能力和实践技能。与其他零售类企业相比,“资产保护部防损员”和“索赔文员”是沃尔玛招聘启事上“人无我有”的职位名称,前者职责为“维护安全有序的公司交易和工作环境,保护商品和公司财产不受损失”,通常这一职位在其他零售企业中被简单归入“保安”职责,而在沃尔玛,“防损员”还需具备“查账”等技能。“索赔文员”较前者学历要求虽稍高,却也止于“大专学历以上”,招聘条件很实际,具体地注明“需具备票据、索赔、条形码等方面的工作经验”。

在招聘现场,一位名校珠宝鉴定专业的应届高校毕业生踯躅场外,对照招贴上的“沟通协调能力、团队精神”等软指标反复自问,仍心生疑虑。据称,沃尔玛将对新进员工进行为期两月的培训,而这位毕业生虽已做好了当“营业员”的心理准备,却仍对应聘成功与否缺少足够的把握。而外资名企用人讲求的是实效,在一名毫无经验的初出茅庐者和拥有成熟行业经验者之间,取舍标准不言自明。

“高学历、低就业”的还不止于此。桌上堆积了厚厚一叠硕士、博士学历人才简历的UPS现场招聘人士也说:“‘最好的未必是最合适的’,应届生大多冲着名企或品牌的魅力和光环而来,殊不知UPS的雇用理念是需要‘终身为之服务’的雇员,这一点高学历人才未必能做得到。而且类似当天招聘职位,只需要高中学历、勤奋等就行了,本科学历当然可以做,却是一种人才浪费,硕士、博士人才冲着名企光环来应聘一线岗位是一种不理智的盲目行为。”

2.1.1 心理特征的差异性

正像没有完全相同的两片树叶一样,世界上也没有两个人是完全相同的。即使有相同基因的双胞胎(同卵双胞胎),也会分别发展成为有着不同价值观和个性的人。单从外表或身体方面来看,人与人的差异就非常明显。我们中的大多数人都能列出人与人之间在身体方面的差异,如身高、体重、外貌等。心理特征则没有身高和体重那么明显,但大量理论和实践都证明人与人之间的心理特征存在着巨大差异。

由于遗传和环境的共同作用,人们的心理特征千差万别,主要表现在能力、个性和行为三个方面。就能力来说,有的人逻辑思维能力很强,有的人形象思维能力很强;就个性来说,有的人脾气暴躁,有的人性格温和;就行为来说,有的人做事认真,有的人行事草率。心理特征的这种个体差异性,是推动人才测评产生和发展的永恒动力,也是人才测评的重要依据。没有人与人之间的这种差异性,人才测评就无从谈起。

2.1.2 心理特征的稳定性

人与人之间的心理特征不仅具有差异性,而且具有稳定性。也就是说,一个人的心理特征不是个体身上表现出来的暂时的特点,而是稳定的个人特点。一个人在出生后,经过长期的社会生活,逐步形成了自己对待生活的态度和个人的行为风格,这种特点一旦形成,就不容易改变。比如,一个性格开朗的人,不仅在家里爱说爱笑,而且在单位也往往好与人打交道,在社交场合也会是一个活跃分子;不仅最近是这样开朗,而且过去乃至多年前也往往是这样,我们还可以预测他明年还会是这样。

正因为个人心理特征的这种稳定性,才使人才测评具有意义,我们才能够根据测评的结果做出适当的推论,即从过去的表现推论将来的表现,从一种情境中的表现推论到更大范围的情境中的表现。在选人的时候,也是通过一个人在接受选拔时表现出来的能力、个性等特点来推论他在日后可能的表现。

2.1.3 心理特征的可测性

心理特征既然是稳定的,那么能否通过一定的手段进行测量呢?心理学家曾对此进行了很长时间的摸索。心理特征看不见、摸不着,无法直接测量。于是,心理学家通过人对外界刺激的反应来间接测量心理。这就像我们不能直接测量温度而是通过水银汞柱的体积变化来测量一样,是一种间接测量。现代人才测评技术正是通过人的外显行为来推断其心理特征的。例如,一个人喜欢拆卸各种机械设备,热心于修理家用电器,由此我们便可推断此人具有机械兴趣方面的心理特征。另外,我们对人的行为的测量,要看每个人在群体中处在什么位置上,一个人能力的高低、兴趣的强弱,都是与所在团体的大多数人的行为中某种人为确定的标准相比较而言的。大量的人才测评实践表明,这种测评方式既具有一定的可靠性,又具有一定的准确性。这说明人的心理活动是可以有效地加以测量的。目前,国际上已形成了三大心理测量理论,分别是经典测量理论(Classical Test Theory, CTT)、概化理论(Generalizability Theory, GT)、项目反应理论(Item Response Theory, IRT)。

2.1.4 人职匹配理论

人职匹配理论是关于人的心理特征与职业性质相一致的理论。这一理论认为,个体差异是普遍存在的,无论是能力水平还是个性特征,不同个体都存在巨大的差异。而每种职业由于其工作性质不同,对从业人员的知识、技能、能力、性格等心理特征也有不同的要求。当一个人的心理素质与他所从事的职业要求协调一致时,即人职匹配时,他的工作效率就会提高,事业成功的可能性就会很大。反之,当一个人的心理素质与他所从事的职业要求不一致时,他的工作效率就会降低,事业成功的可能性也会较低。因此,无论是个人选择职业还是组织招聘人员时,必须考虑人职匹配问题。而要做到人职匹配,首先需要对人和职位的客观认识与评价。为了了解和评价人,就产生了职业能力测验、结构化面试、评价中心技术等现代人才测评手段;为了了解职位,就有了工作分析、胜任特征分析等岗位评价和分析手段。心理特征与职位要求的匹配关系如图2-1所示。目前,比较有影响的人职匹配理论有特性—因素理论和人格类型理论。

图2-1 心理特征与职位要求的匹配关系

2.2 人才测评的信度

信度是衡量人才测评工具质量的一个重要指标。若测量工具的信度不理想,测量结果就无法被认为是应试者的一致、稳定和真实的行为表现,测量就没有任何意义。

2.2.1 信度的概念

信度主要是指测量结果的可靠性或一致性。由于接受测量时应试者的行为可能会由于各种原因而产生变动,偏离其真实行为,这就会导致测量结果产生误差。测量结果的可靠性与测量结果受误差影响的程度密切相关。误差大,分数的可靠性就降低。信度便是说明测量的可靠性或一致性的指标。这个概念表述起来似乎有点费劲,但其实道理很简单。大家都知道,在物理测量中,拿一把尺子去量一张桌子的长度,今天量的结果和明天量的结果总是一样的,张三量的结果与李四量的结果也会是一样的,这就说明不同测量间的一致性很高。对同一位应试者的不同测量间也应该有一致性,当然,由于人才素质的测量比物理测量要复杂得多,所以不同的人才测量间会有差异,但这种差异应该有一个范围,否则我们就认为测量信度太低,测量结果不可信。

为了说明人才测评的误差类型,我们不妨用物理测量来增进理解。假如用一根皮尺来测量人的身高,每次测量都会有一定的误差。首先,皮尺本身作为一种量具是有一定的精度限制的,也就是说,量具本身就有误差,这种误差是必然的但同时又是有规律的,这种误差叫作系统误差。其次,我们每次测量都可能有操作上的差异,或者由于不可预见的外界因素的影响,从而造成误差,这些误差也是难免的,却是毫无规律的,这种误差叫作随机误差。一个好的人才测评工具不仅要有尽可能高的精度,还必须能把误差控制在一个有规律的范围以内,这样测量得到的结果才比较稳定可信。信度实际上就是对随机误差的一种度量。

在考察测评工具的信度时,首先要考虑稳定性问题,包括:

1)测量结果的一致性程度,即不同时间、不同条件下所得测量分数之间的一致性有多大。

2)一个人的获得分数与“真实分数”之间接近程度如何。

3)测量一致性是否可以达到实际应用的程度。

其次,要考虑影响测量稳定性的原因,即分数不稳定、不一致的原因,包括:

1)什么因素造成了这种差异。

2)这些效应的相对作用如何。

2.2.2 信度的作用

信度高低的指标通常以相关系数表示,称为信度系数(Reliability Coefficient)。信度系数一般是同一样本所得的两组资料的相关,在理论上表示为实得分数与真实分数相关的平方:

式中,有时也称为信度指数,是真实分数标准差与实得分数标准差的比率。

误差的大小与测量的信度有直接关系:两次测验分数的差异越大,信度就越低。

在测量中,对信度系数进行确定通常有以下两方面的作用:

1)解释真实分数与实得分数的相关。信度可以解释为总的方差中有多少比例是由真分数的方差决定的,即测量分数的变化中有多少是真正反映了被评价者分数的变化的。例如,当rxr=0.90时,我们可以说,实得分数中有90%的方差来自真实分数的差别,只有10%来自测量的误差。在极端情况下,若rxr=1,则表示完全没有测量误差,所有的变异均来自真实分数;若rxr=0,则所有的变异和差别都反映的是测量误差。应该注意的是,信度系数的分布是从0.00到1.00的正数范围,代表了从缺乏信度到完全可信的所有状况。

2)说明可以接受的信度水准。信度究竟多高才可以接受呢?一般来说,信度系数不能低于0.70,当信度系数大于0.70时,可以用于团体间的比较;当信度系数大于0.85时,可用于鉴别个人的某些特性。不同的测评工具对信度的要求也有一定的差别,实践中对不同类型的评价工具有不同的标准。表2-1给出几种测量工具的信度系数。

表2-1 几种测量工具的信度系数

一般来说,当rxx小于0.70时,不能用测验对个人做评价,也不能在团体间做比较;当rxx大于0.70时,可用于团体间比较;当rxx大于0.85时,可用于鉴别个人。

2.2.3 如何评估信度

1.重测信度

重测信度又称稳定性系数,它的计量方法是采用重测法,即用同一测评工具,在不同时间对同一群体施测两次,这两次测量分数的相关系数即重测系数。根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度越高,说明测量的结果越一致、越可靠。例如,我们选用测验A测量某儿童的智商,第一次的测量结果是100(中等智商),而一周以后再测,结果发现他的智商变成150(超常儿童),若没有特殊原因,一个儿童的智商不应该在一周之内发生如此大的变化,由于两次测量的结果不一致,我们很难下结论说这个孩子的智商是多少。所以,在一般情况下,我们会认为这个测验的重测信度很低,是不可信的。

在评估测评工具的重测信度时,必须注意重测间隔的时间。间隔时间太短,被评价者对测试题记忆犹新,必然会造成假性高相关;而间隔时间太长,测试结果又会受被评价者的身心特质改变的影响,使相关系数降低。重测间隔时间的长短,必须根据测验的性质和目的来确定。如果希望测量结果能够预测较长时间的变化,则重测间隔的时间应该长一些。表2-2给出了一项有关智力测验施行重测法的信度系数的例子。

表2-2 重测法的信度系数

在进行重测信度的评估时,还应注意以下两个重要问题:

1)重测信度一般只反映由随机因素导致的变化,而不反映应试者行为的长久变化。例如,应试者智力的发展和能力的提高,不是重测信度考虑的因素,由于这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。

2)不同的行为受随机误差影响不同。例如,手指敏捷性就比推理能力更易受疲劳、环境等因素的影响。因此,我们必须分析测验的目的和了解测验所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。

2.复本信度

复本信度又称等值性系数,是以两个测验复本(功能等值但题目内容不同)来测量同一个群体的,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。同样是测量数学运算能力的测验,如果一个测验复本侧重于考察加减运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会太高,即复本信度低。

复本信度的主要优点在于:

1)能够避免重测信度的一些问题,如记忆效果、练习效应等。

2)适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响。

3)减少了辅导或作弊的可能性。

然而,复本信度也有其局限性:

1)如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响。

2)有些测验的性质会由于重复而发生改变,如某些问题解决型的测验,如果掌握了解题原则,就有可能产生迁移。

3)有些测验很难找到合适的复本。

3.内部一致性信度

重测信度和复本信度分别注重考虑测量跨时间的一致性和跨形式的一致性,而内部一致性信度系数主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

(1)分半信度

分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。一般采用奇偶分半的方法,即将测验按奇数题和偶数题分成两半,并分别计算每位应试者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半测验内容取样的一致性程度,因此也称为内部一致性信度系数。

计算分半信度系数可以采用常用的积差相关方法。但是,这种相关系数实际上只是半个测验的相关系数。如100道题的测验,两半的分数实际上是从50道题得到的。而在重测和复本信度中,分数是从所有100道题中得到的。在其他条件相等的情况下,测验越长,信度系数越高。因此,分半法经常会低估信度,必须进行修正。常用的修正方法是斯皮尔曼-布朗公式(条件是两半测验方差相等):

式中,rhh是两半测验的相关系数;rxx是估计或修正后的信度。

(2)同质性信度

同质性是指所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。例如,“3+4=? ”和“4+5=? ”这两个加法题是高度同质的,而“8+13=? ”就与上面的题目有些不同质,因为后面涉及进位加法。

同质性是保证测验只测量单一特质的必要条件。如果同质性差,则测验可能混淆了不同的内容,其结果就无从判断究竟反映了被评价者的什么特征。例如,在考察管理技能时,预测与决策、监督与控制等都是不太容易区分的,对题目的设计要求相当高,否则就会把不同技能混淆起来,导致结论错误和用人失误。

同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。例如,在测量小学数学工程类应用题时,题干表述过长而且难以理解,这样一个看似测量数学应用题解决能力的测验实际上还测量了语言理解能力,那些理解能力差的人根本不可能答对试题。

4.评价者信度

在有些测量情形中,评价者的评判也是误差的来源之一。如投射测验、无领导小组讨论、评价中心技术等,都依赖评价者的判断,这种判断的主观性往往造成不同评价者的评分很不一致,因此有必要考虑评价者信度。

评价者信度是指不同评价者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评价者打分,再求每份答卷两个评判分数的相关系数。如果评价者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评价者信度。其公式为:

式中,K为评价者人数;N为被评价者的人数或答卷数;; Ri为每个对象的被评等级。

例如,有4位评价者,对6份答卷进行评分,所评等级如表2-3所示。

表2-3 等级结果

可求得:

最后,我们将各种信度系数类型相应的误差方差来源进行列表(见表2-4)比较。

表2-4 各种信度系数类型相应的误差方差来源

一般情况下,间隔施测的复本信度(重测复本信度)值最低;修正后的分半信度值最高。

2.2.4 影响信度的因素

测量的信度会受到各种因素的影响,因此在解释信度时要充分考虑这些因素,在测评实施过程中要力图避免这些因素的影响。总的来说,对测验的信度造成影响的因素主要有样本团体的性质、测验的长度、测验的难度。

1.样本团体的性质

样本团体的性质对信度的影响主要有以下三个方面:

1)样本团体的分数分布。任何以相关系数表示的信度系数都会受样本团体分数分布的影响。分数分布越广,信度系数就会越高;分数分布越窄,信度系数就会越低。

2)样本团体的异质性。信度系数还会受到样本团体异质性的影响。一般来说,取样团体的异质性越大,信度系数就相对越高。例如,我们用一项数学测验来测试A、B两组应试者,A组应试者较为同质(某校数学实验班的学生),分数分布为70~90分;B组应试者较为异质(多个学校的各类学生),分数分布为20~90分。显然,由于B组应试者的分数分布比A组要广得多,所以,以B组应试者为样本团体得到的信度要比采用A组应试者得到的信度高。

3)不同团体间能力水平的差异。测验所施测的团体的平均能力水平的不同也会对信度产生影响。例如,在斯坦福-比奈量表中,不同年龄组的信度从0.83到0.98不等。因为对于年幼的团体,他们的平均能力水平低,他们的分数基本上是凭猜测获得的,其靠猜测的测验结果总是不会很稳定的,所以信度值较低。这种情况导致的信度偏差,很难用一般的统计公式来校正,只有通过对各种年龄及能力水平的检验来确定。

2.测验的长度

信度还会受测验长度(题目的多少)的影响。一般来说,测验越长,信度值越高。一方面,测验越长,题目取样或内容取样就越充分,结果就越可靠。举个极端的例子来说,如果英语词汇量的测试只包含一道题,仅依据应试者对一个单词的记忆,来确定其词汇量,其结果肯定是很不可靠的。另一方面,较长的测验也不容易受到猜测的影响。

需要指出的是,在增加测验长度时要注意:只有所增加的题目和原题目在性质上相同时,才能达到提高信度的效果。

3.测验的难度

测验的难度也会对信度产生影响。如果一个测验的难度太低,测验分数会非常集中并聚在高分端,即出现天花板效应;或者难度太大,所有分数都集中在低分端,出现地板效应,都会使测量到的分数分布太窄,导致信度降低。

只有当测验的难度水平能够使测验分数分布范围最大时,测验的信度才会比较理想。一般来说,当所有应试者的平均分为测验总分的一半(50%),并且分数从零分到满分均匀分布时,测量的信度最高。由此我们可以看到,测验的长度和难度会共同起作用。如果只增加测验的长度,但没有控制难度,使测验分数不能充分散开,那么增加长度的努力也会是徒劳的。

2.3 人才测评的效度

效度是衡量人才测评工具质量的另一个重要指标,效度的作用比信度的作用更为重要。如果一个评价工具的效度很低,无论它的信度有多高,这项评价工具都没有应用价值。

2.3.1 效度的概念

效度是一种测量工具测到所要测量的东西的程度,可以反映测量的准确性。在物理测量中,尺子测量的总是长度,磅秤测量的总是重量。但是在人才测评中,有时会发生用“尺子”测量“重量”、“磅秤”测量“长度”的现象,这种测量就缺乏效度。另外,就算测量的特质没有问题,也未必准确。比如,一台磅秤,由于长期使用,弹簧已经变形,一个100斤重的人站上去,显示的却是110斤,一天称10次,显示的都是110斤,测量的“信度”足够好,但准确度并不高,也就是说效度并不理想。影响测量效度的因素很多,主要包括对测量要素的界定是否清晰,试题是否能考察应试者的相关素质,评价者是否准确把握了要素的内涵及其操作定义等。

从测量理论角度讲,效度可以定义为:与测量目标有关的真实分数方差与总分方差的比率。“有关的真实分数方差”是由所要测量的目标变量所产生的方差。效度的定义用公式表示为:

式中,rxy为测验效度,是真实分数标准差与实得分数标准差的比率;为有效方差;为总方差。

效度定义也可以通过真分数的概念和方差分析方法加以说明。我们知道,一组测验分数的总方差等于真实方差与误差方差之和:

而真实方差还可以分为:有关的方差(由被测对象的变化引起的变化)和无关的但稳定的方差(与被测对象无关但由于量具的原因而有规律地存在的度量值的变化)两部分。后者也就是所谓系统误差带来的方差:

式中,代表有关(有效)方差;代表无关而稳定的方差。将式(2-3)代入式(2-2),可得:

因此可以说,一组测验分数之间的方差是由有效的方差、稳定但出自无关来源的方差和测量误差的方差三部分决定的。也就是说,造成测验分数变化的原因出自三大来源:测量对象本身的变化、量具的精度造成的系统误差、量具使用中造成的随机误差。

信度是效度的必要条件,但并不充分,效度要进一步解释经验水平的指标与理论概念的联系。由此可以把效度大体上分为两大类:一类是经验效度,这是比较普遍的一类,它们的主要表征为一些可观测变量间的关联程度,因此,这类效度通过分析两个或两个以上变量间的关系,可以用一些观测变量预测另外一些观测变量;另一类是理论效度,它主要表征观测变量与理论概念间的关系,这些理论概念往往是潜在变量,不可直接观测。

2.3.2 各种人才测评工具的效度比较

大量人事选拔有效性研究表明,人事选拔中各种测评技术方法的效度是很不一样的。墨菲(Murphy,1997)发现不同的预测源适合预测不同的效标,如能力适合预测个体任务绩效和有关技术熟练性方面的绩效;责任心适合预测组织公民行为;人格适合用来预测工作动机、团队合作、人际有效性等。

施密特和亨特(Hunter,1998)对17种选拔方法的效度进行了分析,当选用总体工作绩效评定(一般是上级评定)作为效标时,17种选拔方法的预测效度从高(如认知能力和正直测验的结合效度为0.65)到低(兴趣测验效度为0.10)存在不同的分布。效度校正的研究方面,Eran(2001)发现高效度的选拔方法包括结构化面试和认知能力测验,它们的平均校正效度超过0.45;中等效度的选拔方法包括传记资料、非结构化面试、人格测验和正直测验,它们的平均效度在0.25~0.45;低效度的选拔方法包括大五人格测验,它们的平均校正效度在0~0.25,其中效度由低到高依次为开放性、愉悦性、外倾性、情绪稳定性和责任心。

1986年至1998年间,M.Smith在英国曼彻斯特理工大学对常见测评方法的效度问题进行研究后公布了研究结果(见图2-2)。

图2-2 常见测评方法的效度比较

根据两个比较有影响的元分析结果,各种具体测评技术的效度如表2-5和表2-6所示。效度指标是预测结果与实际工作绩效的相关系数。

表2-5 人事选拔各种方法的效度比较

表2-6 人事选拔各种方法的效度比较

尽管表2-5和表2-6不完全相同,但总体上是一致的。我们还可以看到,各种测评技术效度的高低与其应用的普遍性并没有必然的联系,也就是说,效度高的技术并不一定用得最多,评价中心的效度最高,其应用却不是最普遍的;而申请表的效度比较低,而其应用非常广泛。不过这种状况正在发生转变,在人事选拔中评价中心和心理测验的使用越来越多,就英国来说,1971年仅有11%组织使用评价中心技术(Kingston);到1986年,这个比例增加到21.4%(Robert & Makin);而到了20世纪90年代,有58.9%的组织在人事选拔的某个阶段使用了评价中心技术(Shackleton & Newell,1991)。当然,这并不是说诸如申请表之类的方法正逐渐被评价中心等现代人才测评技术所代替,而是随着科技的发展,现代人才测评工作也正在传统方法的基础上不断地充实、完善,更全面深入地对候选人进行观察和了解,从而使选拔的准确性日益提高。

2.3.3 如何评估效度

根据评估效度方法的不同,效度可以分为内容效度、效标关联效度和构想效度三类。下面对这三类效度及其评估方法分别加以介绍。

1.内容效度

(1)内容效度的定义

内容效度是检查测验内容是不是所欲测量的行为领域的代表性取样的指标。在实际工作中,我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境,只能选择一个有代表性的样本,通过观察被评价者对个别题目的反应,来推测他的总体行为表现;因此,取样的恰当性就是影响测量效果的一个重要因素。如果所选择的题目偏重于某部分内容,或者过难或过易,就会使测验难以对目标行为或特点进行准确、全面的测量。

内容效度分析时要注意两方面的问题:

1)应避免将测验取样的行为领域过于泛化。如逻辑推理测验可以考察应试者的逻辑推理能力,但不能认为这个测验也能测量应试者的阅读能力或其他类型的推理能力。

2)要注意测验分数中无关因素的影响。如一个测量被评价者运算能力或机械能力的测验,可能会受到言语理解能力或操作及反应速度的影响。

(2)内容效度的评估方法

内容效度的确定一般没有可用的数量化指标,只能靠推理和判断来进行评估。较好的内容效度依赖于两个条件:

1)测验内容范围明确。

2)测验内容的取样有代表性。

因此,要保证良好的内容效度,应该从编制测验开始就谨慎地选择合适的测验题目。

确定内容效度的方法通常是由专家根据测验题目和假设的内容范围做系统的比较判断的。如果专家们认为测验题目恰当地代表了所测内容,则测验具有内容效度。这种方法的主要问题是:缺乏一种数量化指标来描述内容效度的高低;不同专家的判断可能不一致;如果测验内容范围缺乏明确性,会使效度的判断过程发生困难。

为了使内容效度的确定过程更为客观,可以依次采用如下步骤:

1)确定总体范围,即描述有关的知识与技能及所用材料的来源。

2)编制双向细目表,确定内容和技能各自所占的比例,并由测验编制者确定各题所测的是何种内容与技能。

3)制定评定量表来测量测验的整个效度及其他特点,如测验包括的内容、技能、材料的重要程度、题目对内容的适用性等,由每位评价者在评定量表上做出判断,总结获得测验内容效度的证据。

(3)内容效度的应用

内容效度最适合评估教育和职业成就测验。在这种应用中,通过对内容效度的评价可以回答以下两个问题:一是该测验是不是应考察的某种技能和知识的代表性样本;二是测验的成绩是否不受无关因素的影响。其中,内容效度对效标参照测验尤为重要,因为在效标参照测验中,被评价者的表现往往以测验内容来解释。效标参照测验应用的基本条件是具备足够的内容效度。

内容效度也适合某些用于选拔和分类的人事测验。这种测验中,测验内容是实际工作的一个样本,应包含实际工作所需要的技能和知识。在这种情况下,应该通过内容效度的分析来确定测验是否的确测量了实际工作中所需要的知识和技能。

内容效度的评估一般不适合能力倾向和人格测验。能力倾向和人格测验不太要求与所取样的行为领域的内在相似性,其测验题目的选择更多地受某种假设的指导,这种假设的正确与否最后由测验的其他效度形式来确定。此外,能力倾向和人格测验与成就测验不同,前者不是建立在某种教学课程或工作知识与技能的基础上的。在对相同题目做反应时,每个被评价者使用的方法和心理过程是很不相同的,同一测验对不同的被评价者来说测量的是不同的心理过程。在这种情况下,不可能从检查测验的内容来确定测验测量的功能。

2.效标关联效度

效标关联效度也称效标效度,它反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。

效标是考察测验效用的外在参照标准。例如,一个机械能力倾向测验,其效度的标准(效标)可以是某人成为机械师后的工作表现;对于一个管理能力测验而言,其效标可以是某人将来管理工作的绩效。效标关联效度往往用于预测性测验。这种测验中,根据测验分数做出的预测一般用于甄选决策,所以,只有当证明测验分数确实能够预测所欲研究的行为时,这种决策才可能正确。

效标效度主要考虑测验分数与效标间的关系。因此,效标效度也可以定义为测验分数与效标间的相关程度。效标的测量材料可以在与测验实施大致相同的时间获得,也可以在测验实施很长时间后获得。根据效标材料收集的时间不同,可以将效标效度进一步区分为预测效度和同时效度。

(1)预测效度和同时效度

预测效度的效标资料往往是测量结束后隔一段时间才获得的,它反映的是由测验分数对任一段时间间隔后应试者行为表现的预测程度。预测效度适用于那些对人员进行选拔、分类和安置的人事测验,这些测验需要对应试者未来的工作绩效进行可靠的预测。

预测效度的评估通常用追踪法来进行,通过长期观察,积累材料,以衡量测验结果对未来表现的预测能力。例如,可以对那些被测量的应试者进行长期观察,获得他们隔一段时间后的工作绩效的资料,看测验分数是否正确预测了他们的工作绩效的高低。

同时效度的效标材料可以和测验分数差不多同时收集;有时,同时效度可以替代预测效度。因为当测验施测于已存在有效效标材料的团体中时,就不必经过一段时间后再做比较。例如,大学生的测验成绩可以与其在学校的功课成绩直接比较,选拔测验的得分也可以与应试者在现在工作中的绩效做比较。因为同时效度的评估不需要长期追踪,所以应用更为普遍。

同时效度和预测效度的差异的根源不是收集效标的时间,而在于测验目的的不同。前者多用于诊断现在的状态,后者多预测未来的结果。这种差异可以用两种不同的询问方式来说明:

1)“某人成功了吗?”“某人患病了吗?”

2)“某人会成功吗?”“某人会患病吗?”

第一类问题属于具有同时效度性质的测验要求回答的问题;而第二类问题则属于具有预测效度性质的测验要求回答的问题,针对的是未来会发生的情形。

(2)效标和效标测量

效标是衡量测验有效性的参照标准,是一种可以直接、独立测量的行为。换句话说,要测量效标,就必须把效标行为转化为某种可以操作的测量指标,以便进行比较。这种可操作的测量指标就称为效标测量。因此,效标的概念可以细分为观念效标(效标的实质概念内容)和效标测量(效标的具体度量方法)。例如,对于筛选销售人员的销售技巧测验而言,其观念效标是“销售工作的成功”;而效标测量往往用“年销售量”来表示。

效标测量要求能真正反映效度,即它们的相关要高。技术水平可以作为某种机械能力倾向或职业选拔测验的观念效标。如果产品主要由个人的技术水平决定,而与工作环境和个人的其他因素无关,则产品数量可以作为技术水平的效标测量。另外,效标测量还必须具有较高的信度。

效标测量的一个重要特性是客观性。首先,避免偏见的影响,尤其当效标测量是等级评定时,可能会受评价者印象或成见的影响。其次,应防止效标污染。效标污染是指由于评价者知道测验分数而影响个人的效标成绩的情形。为避免效标受到污染,应该注意不让评价者看到测验分数,等效标评定材料收集完毕后再公布分数。这样可以保证效标测量结果与测验分数间的独立性。比如,一方面要评价管理者的管理技能,另一方面要评价管理者的管理业绩以作为效标。但往往在效标评价时,由于评价者知道被评价者的管理技能评分,因而影响对其业绩的评定。为此,最好将这两种评价分开操作。

(3)常用的效标

由于每个测验的用途不同,因此会有不同的观念效标。常用的效标有以下几种。

1)学术成就。这种指标常作为智力测验的效标,其逻辑假定是:智力高(以高IQ分数为标志)的人,其学术成就也应当越大。相应的常见的效标测量有在校成绩、学历、标准成就测验分数、教师对学生智力的评定、工作中的研究成果、有关的奖励和荣誉等。这些指标也属于对学术能力倾向测量的精确描述,因此,也可以作为某些多重能力倾向测验和人格测验的效标。

2)特殊训练成绩。能力倾向测验常用的效标是被评价者在将来某种特殊训练中所取得的成绩。例如,机械能力倾向测验的效标可以是在工厂技术培训中的成绩。以特殊训练成绩作效标,其测量值往往采用完成训练后的某种成就测验的成绩、正式安排工作的等级、指导教师的评定等指标。多重能力倾向测验常用学校中类似课程的成绩作为效标的测量值。例如,言语智商用语文成绩作比较标准,空间视觉能力分数用地理成绩作比较标准。

3)实际工作表现。在许多情况下比较令人满意的效标测量是实际工作表现,这种效标可用于起选拔作用的一般智力测验、人格测验及能力倾向测验等。

4)团体对比。采用团体对比法确定测验有效性的方法是:用两个在效标表现上有差别的团体,比较他们在预测源分数上的差别。例如,一个音乐能力倾向测验的效度,可以由比较音乐学院学生的分数与一般大学生的分数而获得;一个机械能力倾向测验的效度可以由比较机械学院学生的分数与一般大学生的分数而获得。这种对比团体几乎可以在任何效标基础上选择,如学校成绩、评定或工作表现,也可以使用现行的类别,如不同的级别、岗位、部门之间的对比。团体对比法在人格测验中也很常用,如对社交特质的测验效度,就可以比较推销员或行政官员的测验成绩和工程技术人员的成绩之间的差别。各种职业团体的比较常可作为兴趣测验的效标,而有些态度量表经常也以不同政治、宗教、地理的团体对比来确定效度。

5)等级评定。有时也可以采用其他人对应试者的效标行为的评定作为效标测量。这种评定往往由应试者的老师、同学、上级、同事等观察者做出。这种评定不局限于对应试者某种成就(如工作绩效)的评定,也可以包括观察者根据测验所欲测量的心理特质在应试者身上的表现而做出的一种个人判断。例如,对应试者的支配性、领导能力、诚实性、独创性或智力等进行评定。评定可以作为任何测验的效标,尤其适合人格测验,因为人格测验的客观效标很难找到。虽然这种评定是主观的,但只要在严格控制条件下,它仍不失为效标材料的有效来源。

6)先前有效的测验。一个新测验和先前有效测验的相关也经常作为效度的证据。这种效度叫作相容效度。当新测验只是现有有效测验的简式时,后者的成绩完全可以作为一种效标测量。同样,纸笔测验可以用效度已知的操作测验成绩作为效标测量;团体测验可用个体测验作为效标。必须指出,只有当新测验比先前公认的有效测验更简单、更省时、更经济时,才能用后者作为效标。

3.构想效度

测验的构想效度是指测验能够测量到理论上的构想或特质的程度。所谓构想,通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察,但是每个构想都有其心理上的理论基础和客观现实性,都可以通过各种可观察的材料加以确定。例如,言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。构想效度关注的问题是:测验是否能正确反映理论构想的特性。例如,一项言语流畅性测验所测量的是不是真正的言语流畅性,是否对言语流畅性的理论概念中包含的所有特点(如语速、语句间的逻辑性、口误的数量等)都进行了测量。

(1)确定构想效度的步骤

一般而言,要确定一个测验的构想效度,包括三个基本步骤:

1)建立理论框架,以解释应试者在测验上的表现。

2)依据理论框架,推演出各种有关测验成绩的假设。

3)以逻辑和实证的方法来验证假设,根据这些累积材料决定这种理论是否能恰当地解释现有材料;如果不能做出恰当解释,则应该修正上述假设,直到能做出恰当的解释为止。

构想效度的确定过程可以用一个简单的例子来说明。例如,某人对研究创造力这个构想感兴趣,他假设那些具有创造力的个体与那些不具备创造力的个体有某些不同,因此可以建立一个理论(或理论体系)来说明那些有创造力的个体(或具有创造力构想的个体)的行为与其他人的不同,从而使人们能够通过观察个体的行为和根据某种理论分类来辨别具有创造力的个体。如果希望编制一个测验来测量创造力,那么,这个创造力测验必须具有构想效度,即测验分数与根据创造力的心理学理论观察应试者行为所做出的判断相关。如果这种关系不成立,则该创造力测验缺乏构想效度的支持。如果关系不太大,可能有多种原因,例如,测验可能没有真正测量创造力,或者说关于创造力的理论是错误的。如果测验分数与根据理论做出的判断相关很高,表明测验具有构想效度。

由此可见,确定构想效度没有简单的逻辑分析或统计分析,而是从各种来源中逐渐累积资料以确定测验的构想效度。

(2)常见的确定构想效度的指标

确定构想效度的一般方法可以分为:

· 测验内部的方法,如测验内容效度、内部一致性等指标;

· 测验间的方法,如相容效度、因素分析、会聚效度和区分效度等指标;

· 效标效度的研究,如发展变化等指标;

· 实验和观察方法,检验是否有构想效度。

常用的指标有:

1)发展变化。智力测验中最常用的标准是年龄差异。通常是考察实际年龄来观察测验分数是否逐年增加。在儿童期,一般认为能力是逐年增强的,因此如果测验有效,测验分数应该反映这种变化。所以,验证智力测验的构想效度时,可以检查不同发展水平儿童的表现。在工作中,人们的经验会随时间而积累,所以,如果要考察某项技能的效标,可以假定该技能在一定时间范围内是随从事该项工作年限的增加而增加的。而这个假定实际上也是年资工薪的理论基础之一。工龄增加,经验丰富,技能增加,对组织的贡献也就增大,报酬自然也就应该多。当然,这个假定并不是对所有的人在所有的时间段内都成立的,这就需要加以考察验证。

2)与其他测验的相关。测量相同特质或构想的测验,彼此之间应该有高相关。因此,一个新测验与相似的旧测验之间的相关,可以作为衡量新测验所大致测量的相同行为的程度的标准。这种相关系数有时又称作相容效度。与效标效度不同,这类相关较高,但不很高。如果一个新测验与现有的有效测验的相关很高,而且不是更简便或易于实施的,那么就没有必要编制这个测验。与其他测验的相关还有另一种用途,就是表示新测验是否受到某些无关因素的影响。一般来说,测量不同构想或特质的测验之间相关要很低,因此,一个能力倾向测验不应该和人格测验有高相关,学术能力测验不应该与管理技能测验有太高相关。

3)因素分析。因素分析是分析行为资料内部关系、结构特性的一种统计技术,比较适合对构想效度的研究。通过因素分析可以找出测验中所包含的特质。卡特尔就是通过因素分析的方法从一系列形容词中归纳出16种共同因素,最终按照这16种特质构造成16因素人格测验的。

采用因素分析材料的构想效度分析过程可以这样进行:首先对测验的所有项目进行因素分析统计,抽取出能够解释测验结果的大部分变异的一些共同因子,这些共同因子可以用来对测验的组成进行描述,然后比较由这些共同因子描述的测验组成是否与测量目标(某种特质或能力)的理论构想一致。

4)内部一致性。有些测验,尤其是人格测验,多以内部一致性作为构想效度的指标,这是因为如果测验的所有题目被验证为具有很高的内部一致性,说明它们都是关于同一内容的,吻合于同一种构想。一般地,这种方法常以测验的总分为标准,有时也用获得不同总分的应试者的差异为标准。用来考察内部一致性的方法主要有三种:

· 考察总分数较高和较低两类人在各题目上通过率的大小,比较每个题目上总分最高的27%的应试者与总分最低的27%的被评价者,如果前者在该题上的通过率显著大于后者(一般要求在30%~40%以上),则认为题目是有效的,否则应淘汰或修改。

· 计算题目与总分的相关,如未达显著水准,应予淘汰;采用以上这两种方法选择题目,其结果内部一致性必然较高。

· 求分测验与总分的相关。例如,许多智力测验大多包括很多个分测验(如词汇、算术、推理等)。在编制这种测验时,常要求各分测验与总分有显著相关,如果这一相关未达显著水平,则应予删除。

5)会聚效度和区分效度。1960年坎贝尔指出,要确定一个测验的构想效度,则该测验不仅应与测量相同特质或构想等理论上有关的变量有高的相关,也应与测量不同特质或构想等理论上无关的变量有低的相关,前者称为会聚效度,后者称为区分效度。这就是坎贝尔和菲斯克(D.W.Fiske)1959年提出的构想效度的一种考验方法。例如,一个数学推理能力测验与数学课成绩的相关就是会聚效度;而该测验与阅读理解能力测验的相关显著低,就是区分效度。因为在测验设计时,已将阅读能力作为数学推理能力的无关因素来考虑。区分效度特别适合人格测验,因为人格测验比较容易受到各种无关变量的影响。

2.3.4 影响效度的因素

影响效度的因素有很多,包括测验、样本团体、效标、信度等。信度对效度的影响前面已做了介绍,现将前三种影响因素分别加以说明。

1.测验

凡是能造成测验结果误差的因素,都会影响测验的效度。一个测验的效度高低,很大程度上取决于该测验受无关因素影响的程度。受无关因素影响越小,则效度越高。由测验带来的影响因素有以下几点。

(1)测验题目的质量

题目的指导语不明确、试题的表达不清晰、试题太难或太容易、题目中出现额外的线索、诱答设计不合理、题目过少、试题的安排和组织不恰当、试题不符合测验目的等,都会影响测验的效度,使效度降低。

(2)实施测验时的干扰因素

测验的环境太差、应试者不遵从指导语、计分错误,都会使测验的效度降低。对于效标效度,效标获取的时间与测验时间相隔越长,测验结果与效标的关系受无关因素的影响就越大,所求得的效度必定越低。很显然,这些因素使得测量分数反映的不单是测量内容,而且是无关因素的干扰。

细心的读者会注意到,这些因素同样也会影响信度,因为它们会使测量结果波动不定。

(3)应试者的影响因素

应试者的反应定势、测验动机、情绪和身心状态都会对测验的结果造成影响,所以这些也将会影响测验效度。

(4)测验的长度

一般来说,增加测验的长度通常可以提高测验的信度,而效度系数能否达到最大值也受信度的影响,因此,增加测验的题目往往也能提高测验的效度。不过,效度增加的前提是这些增加的题目必须与测量的目标相关。

测验长度对效度的影响可以用下面的公式来表示:

式中,r(nx)y是测验增长到原来的n倍后,测验(X)与效标(Y)的相关系数(增长后的效度系数); n为测验增长的倍数;rxy为原测验的效度系数,rxx为原测验的信度系数。根据公式可以推知,要达到满意的效度水平,测验题目需要增加几倍。

2.样本团体

对效度的计算往往是通过对样本团体的分数进行各种分析而得到的,所以样本团体的性质也会对测验的效度产生影响。这种影响体现在三个方面。

1)同一测验对不同的团体所测量的功能可能是不同的。例如,同一项算术测验,对于能力较差的应试者可能测量的是数学推理能力,但对于能力强的应试者,可能测量的只不过是对以前所学内容的回忆能力和计算能力。在评价效度时,我们要力求使样本团体的性质与所要测量的团体的性质尽量相似,这样所求得的测验效度才会较高。

2)对于同一个测验,样本团体的性质不同,效度也会有较大的差别。样本团体的性质包括年龄、性别、教育水平、智力水平、动机水平、职业等有关特性。同一测验对不同性质的团体可能有不同的预测能力,因此我们将这些对测验的效度产生影响的因素称为干涉变量。例如,对出租汽车司机实施能力倾向测验后发现,测验成绩与司机的工作成绩的相关仅达0.20,这是相当低的预测效度。但是,当把对开车有兴趣的司机抽出来单独计算效度时,却发现效度是0.60。这说明该测验虽然对所有司机的工作成绩没有预测能力,但对于“有工作兴趣的司机”这一亚团体却有较好的绩效预测力。在这个例子中,兴趣就是一个干涉变量。

在进行效度分析时,必须将影响效度大小的干涉变量找出来。美国测量学家吉谢利(E.E.Chiselli)提出一种确定干涉变量的方法,其步骤如下:

· 用回归方程求得每个人的预测效标分数,将其与实际效标分数相比较,可以得到差数D,如D的绝对值很大,说明测验中可能存在干涉变量。

· 根据样本团体的构成分析,选择不同的对照组,分别计算效度,从而找出干涉变量。

· 根据干涉变量将欲测团体分为高预测性和低预测性两个亚团体,从高预测性团体获得的测验的效度较高。

3)样本团体的异质性对效度也会有影响。用相关系数表示的效度系数会受到样本团体的分数分布的影响。如果其他条件相等,那么样本越同质,效度越低;反之,效度越高。

3.效标

在采用效标关联效度时,效标的性质如何,会影响对测验效度的评价。一般来说,如果其他条件相同,所测量的行为或心理特质与效标行为或特质越相似,效度系数就越高。比如,假设我们要建立一项管理能力测验,现在要为这个测验选定效标。也许有人会考虑采用下列效标来源:学历、升入现职位的速度(年限)、近三年管理工作的业绩、同行的评价、上司的评价等。显然,这些效标与测验内容的同质性并不相同,将测验分数与它们求相关时,得到的效度值大小也就不同。

另外,效标与测验分数之间的关系是否线性也是一个很重要的影响因素。因为,皮尔逊积差相关的前提假设是,两个变量的关系是线性的均匀分布。如果测验分数与效标之间的关系是非线性的,采用皮尔逊积差相关将会低估相关的程度,造成效度的低估。