测评是判断,是根据行为样本(特定场合下的特定行为)对行为总体(类似场合下的一贯行为)的判断。由于语言和语言所反映的文化差异,使得外国的测评再好,也无法简单翻译过来在中国使用。而且也没有必要,因为中国测评的传统足以让我们继承并发扬光大。
早在十几年前,我就听我的导师杨中芳博士谈心理学的本土化,现在离开学术界,更加从实用的角度体会到本土化的必要。
所以,本文以中国测评传统为正宗,并且一反传统做法,以行为观察法为主流,以心理测验法为旁支,讨论我所了解的古今中外测评的理论和实践,不求全面,但求独到和深入浅出。
行为观察法和心理测验法是我对人力资源测评的二分法。我不想为行为观察法和心理测验法下定义,我相信例子比定义更能说明问题。比如测量一个人的口头沟通能力,行为观察的做法可能是:让测评对象参加一个讨论,然后专家观察、记录测评对象在讨论中的行为,并根据一定的标准打分。心理测验的做法可能是:呈现一段对话的文字描述(或录音、录像),然后让测评对象做多项选择题。
贴士:行为观察法记录和评估的内容包括:领导行为、说服行为、人际交往行为、解决问题过程、书面计划、对话等任何现实生活中有目的的社会和个人行为。心理测验法记录和评估的内容包括:选择题答案、反应时、回忆或再认的准确率和数量、生理反应(如心率、皮肤电阻、心/脑电反应),自我评估的分数等可以数量化的指标。投射测验不在本文所称心理测验法范围之内。
中国的测评重视行为观察
一般中国人谈人力资源测评,都把西方(西欧和北美)的人事心理学(personnel psychology)或产业与组织心理学(industrial/organizational psychology)作为正宗。其实,西方研究测评历史的学者,却是言必称中国。他们书写的测评史往往以中国的科举开始。中国的科举制度是大规模应用测评最早的、也是对社会发展有长远重大影响的测评实践。科举制度使得农民天资聪颖的子孙们可以通过寒窗苦读而考取功名、走上仕途、甚至与皇室攀亲。比起古代印度的种姓制度,古代中国的科举对于社会发展的促进作用不言而喻。
可惜,当代中国人很少想起中国测评的辉煌。中国测评专业人员的精力,主要用在学习西方的心理学,特别是心理计量学上了。更可悲的是,许多专业造诣较浅的人力资源从业人员热衷于测评软件。普通中国人所接触到的测评,大多是以多项选择题和自我评估量表为特征的标准化心理测验,主要分认知能力测验和自我报告的人格问卷两大类。像卡特尔16因素人格测验、MBTI等著名的心理测验,许多中国人力资源管理从业人员都叫得出名字。
中国自古崇尚行为观察,孔子说,“始吾于人也,听其言而信其行;今吾于人也,听其言而观其行。”听其言而信其行,是自我报告的人格测验(self-reported personality tests)和情境或行为访谈(situation- or behavior-based interviews)的理念。听其言而观其行,则是工作样本(work samples)、情境模拟(simulations)和评鉴中心(assessment centers)的理念。
《庄子 列御寇》中的9 种知人之法,属于行为观察法:
“故君子远使之而观其忠,近使之而观其敬,烦使之而观其能,卒然问焉而观其知,急与之期而观其信,委之以财而观其仁,告之以危而观其节,醉之以酒而观其则,杂之以处而观其色。九征至,不肖人得矣。”
先秦时代《吕氏春秋》所载的“八观六验”,汉魏时期的刘劭在《人物志》中提出的“八观五视”等等知人方法,都是行为观察法。
科举考试用的是多种测评方式,需要训练有素的测评师评分。当今中国人以为科举考试就是八股文章,这是误解。其实,科举的考试方法很像现在的评鉴中心。
据陈社育的说法,中国测评的传统是方法多元化,并大量使用情境模拟。以科举考试为例,在测评指标上,科举考试可谓全面:政治见解、行政工作能力和体现在文学艺术上的独创能力。陈社育列举了科举考试综合使用的几种方法:
1. 贴经:主考官任取经书的一页,将左右两边遮盖,中间只露出一行,另一纸贴3―5字不等,要被试者将所贴的字填出来。
2. 墨义:由考官出30条、50条或100条问题,让被试回答,既可笔试,也可口试。
3. 策问:要求被试者对现实问题(如政治、吏治、教化、生产等)提出建议。
4. 诗赋:要求被试者当场撰写诗词,以考察其思想品德、文化修养和文学才能。
陈社育总结科举中的口试的3种形式:
1. 主考询问。
2. 根据命题准备好答案提纲, 再逐个口答问题。
3. 考生讲演,主考和听众进行评议(古称“试诵说”)。
(关于中国科举中的测评,详见陈社育《我国古代心理测量思想述评》江苏教育学院学报:社科版1999.04)
心理测验是人力资源测评的歧途
上个世纪是西方心理学长足发展的一个世纪。同时,西方测评师在做测评时,往往以心理测验法为主,而以行为观察法为辅。根据Susan E. Embretson的预测,这个趋势会在二十一世纪的美国得到延续。
贴士:从实际效用的角度看,心理测验和其所依据的心理计量学实际上是对人力资源管理的误导,因为心理测验所测量的认知能力和人格与实际生活中的能力和成就尚有一臂之距。换言之,心理测验所测量的能力局限于学业能力。按照后来的智力理论家(例如R. J. Sternberg和H. Gardner)的观点,智力并不是单一的能力。例如,智力至少包含个人智力(personal intelligence)、自知力(intrapersonal intelligence)、以及人际智力(interpersonal intelligence)。其中,正统心理测验能够准确测量的,顶多是个人智力中的学业智力(academic intelligence)。
美国军队曾经大规模应用心理测验。例如,第一次世界大战中美国心理学家用智力测验作为从近二百万应征者中征兵的筛选工具,当时有α和β两套测验,α用于有阅读能力的人,β用于不懂英语的人或文盲半文盲。心理学界认为这是成功应用心理测验的典范,可是根据美国畅销书Storming Heaven: LSD and the American Dream,
“……结果令人失望。测验淘汰了八千六百四十八个智力低下者,同时得出结论:这些人以及他们所代表的全体美国人的平均智力年龄只相当于13岁零一个月。换句话说,一般美国人的聪明程度与十几岁少年相仿。
一战中心理学家们还用了人格测验预测一个人在战场上的表现,结果并不成功。Storming Heaven一书中这样写道:
武德沃兹设计了一套125题的问卷用于测量哪些人格在作战时会崩溃。不幸的是,这个工具在实用性上是一个失败。
即使在重视学业智力的教育测验领域,心理测验法的有效性也受到挑战。二十世纪末,美国有人开始提倡所谓真实测评(authentic assessment),或称作业测评(performance assessment),看重开放式问答(open-endedresponses)、论述题(essays),以及学生作品。值得一提的是,欧洲的教育考试,一直没有像美国那样依赖多项选择题。
以行为观察为主流,以心理测验为旁支来看人力资源测评的发展,对于一般心理学出身的人来说,不是一件容易事。据中国评鉴中心的先行者陆红军讲,80年代他在国内推广评鉴中心时,许多中国心理学界的人认为是旁门左道。其实,对于综合、实用能力的测评,最有效的方法不是心理测验,而是行为观察。
观察法的外在效度高,成本也高,适用于重要岗位的选拔
战争比商业竞争更残酷。战争中,国家主权和成千上万的人命都掌握在将帅手上,所以选将是所有人事选拔中最重要的事。这种场合,没有人敢用心理测验决定由谁带兵打仗。战国时代的《六韬》一书中的《龙韬》,其中有一篇文章题为《选将》,记载姜太公所倡导的结构化的行为观察的方法选拔将领:
武王曰:何以知之?太公曰:知之有八征:一曰问之以言,以观其辞。二曰穷之以辞,以观其变。三曰与之问谍,以观其诚。四曰明白显问,以观其德。五曰使之以财,以观其廉。六曰试之以色,以观其贞。七曰告之以难,以观其勇。八曰醉之以酒,以观其态。八征皆备,则贤不肖别矣。
中国古代军事家关于选将的模型很多,相当于现在所说的资质模型(competency model)。例如,孙子就提出“将者,智、信、仁、勇、严也”。中国古代军事家们大概都有自己的资质模型。后来,科举制度衍生出的武举制度,考試內容有长垛、骑射、步射、马枪、举重、言语、材貌等,都属于行为观察。据说,骑射这一项,应试者射向人形靶三箭,三箭皆中为优,二箭中为良,一箭中为及格。笔试作为补充,例如论述战略及默写《孙》、《吴》 等兵书的内容。但是,这些行为观察只限于军事技术技能,而领导能力,决策能力,信、仁、勇、严等品质似乎没有在武举考试中得到考察。
德国人在第一次世界大战中,使用了评鉴中心(assessment center,或译成评价中心)这一术语,并用此法选拔军官。美国人在第二次世界大战中选拔间谍,用到了评鉴中心方法。二战过后英国军队一直沿用评鉴中心为陆军学院招生。
呜呼!姜太公选将之法并不是由中国人,而是由德国人、美国人、以及英国人发扬光大。这对中国人来说是一个遗憾!曾经分别在J. C. Penny和AT&T两家公司使用评鉴中心的两位美国心理学家William Byham 和Douglas Bray在1970年创立的DDI,是最早把评鉴中心商业化的人力资源管理咨询公司。评鉴中心无疑是姜太公选将法的技术体现。从姜太公选将到评鉴中心在军事和商业上的广泛应用,我们看到不同于心理测验法的行为观察法的发展轨迹。评鉴中心代表最有效的行为观察法,其它行为观察法包括工作样本、单一情境模拟、可计分行为访谈等。
这里,我把评鉴中心的特点概括为“二高四多。”二高:高效度、高成本。四多:使用多种测评方法(包括心理测验法)、多个测评师,多个对象同时被测评,多个测评指标。
关于评鉴中心效度高。有人会问:效度有多高?国内外的研究证明,评鉴中心的效度远远高于心理测验。根据我在应用评鉴中心过程中所得到的客户反馈,这种方法屡试不爽。
上文还说到评鉴中心成本高,那么高到什么程度呢?美国评鉴中心的价格是几百到几千美元一个人,中国的评鉴中心也不会便宜到哪里去。虽然成本高,但是从投资回报和风险管理来讲,一个字:值。我的忠告是:对于重要岗位(指的是管理、销售、以及客户服务),要么不做测评,要做就做评鉴中心。