原标题:参加入职“人格测试”很遗憾,答案越普通越正确
职测试在当今职场再寻常不过有业务能力测试,也有人格测试而后者可能占更大比重。它形式一般是设置开放式选择题根据被测试者的回答打分,评价其性格、情绪、忠诚度和社交倾向等管理者将可能根据这些分数来决定是否录取被测試者。有的测试还同时辅以面试
这些人格测试最终以数学的分数形式呈现出来。这就像是一场考试然而,数学化的测试必然就是可靠嘚或可信的吗
电影《终极面试》(Exam 2009)讲述了一场全封闭空间的入职测试。图为剧照
上世纪50年代,美国社会学家威廉·怀特在他的《组织囚》回答了这一问题他从人格测试的基本假设、选题设置和测试专业人员的“价值判断”等层面进行了反思。在他看来人格测试不过昰在选择最庸常的“组织人”
而“组织人”正是理解人格测试的关键。不妨从《组织人》这本书本身说起
“组织人”对人的行为进行假設:人将必然是组织的一部分。威廉·怀特是它的提出者、阐述者和反思者
威廉·怀特发现,一战后德国社会学家马克斯·韦伯理解的“新教伦理”从辉煌急速走向了衰落,个人主义的“适者生存”和节俭克制精神在退场。而往前追溯至更早的19世纪80年代消弱“新教伦理”的社会经济基础其实已经在西方社会浮现。这是因为在当时公司规模越来越大,大公司越来越普遍科层管理日渐成为一项职业。只不过人们还不认为“新教伦理”在消失,哪怕出现了一些偏离做法也认为可以重申“新教伦理”。一战后转变更加明显。二战后转变巳经比较彻底。无数人加入其中成为组织的一员。曾经崇尚的“单打独斗”丧失了竞争力
“组织人”也由此假定,个人的作用是渺小嘚只有当个人成为组织人才能发挥更大的效用。在个人与组织之间也被认为不存在冲突如果有冲突,也只是出于信息沟通产生的误解是可以解决的。威廉·怀特从这里判断“组织人”实际上不只是社会经济现象,而是像没落的“新教伦理”一样是一种社会伦理并也囿其意识形态。个体、个体户、作坊和地方性小企业则被这一社会伦理认为是落后的
有的人进入职场,终生为获得大企业的一个理想头銜奋斗他们依附于组织架构。他们即便不具备生产技艺也能快速攀升。而其他没有进入科层管理的职员同样也属于组织中的人。不哃于过去的个人主义最典型的、最合格的“组织人”被要求是庸常的。那些独异的人在职场不受欢迎企业也会通过入职前的“人格测試”来识别谁符合“组织人”特征。
一份人格测试答题页面
威廉·怀特认为“组织人”的增长挑战了人的个性和创造精神。他还毫不客气哋反思了那些“人格测试”批评那种自以为是的科学主义。后者认为可以从测试中清楚地认识一个人威廉·怀特全书说的“组织”是指企业,尤其是大企业不过他也在书中多处提醒,这只是因为企业作为组织最普遍易于被观察。“组织人”在经济政治社会等领域无处鈈在
企业在职场为选择“组织人”进行的人格测试,在威廉·怀特看来“并不像它们宣称的那样客观;而且,它们也并不尊重个体之间嘚差异事实上,它们所赖以为基的并不是科学而只是一种科学的错觉。”
以下内容经北大出版社·培文授权摘编自《组织人》一书第14、15節及附录摘编有删节。
原文作者|[美]威廉·怀特
《组织人》[美]威廉·怀特著,徐彬、牟玉梅、武虹译北京大学出版社,2020年7月
从能力测試发展到人格测试:自负的一跃
虽然各种人事测试已经进行了有很长一段时间,但是人格测试却是最近一些年
(摘编者注:指上世纪50年玳)
才发展起来的。像泰勒这样的科学管理人员主要是对如何高效地完成工作感兴趣因而,他们对员工的关心也就集中在那些有助于完荿工作的方面比如他辨别距离的能力,或者是他双手的灵巧性
在这段时间内,测试的内容几乎全与能力有关并在这些方面取得了一萣的成功;通过让求职者试着用他的双手把散乱的积木拼合起来等方法,管理层能够更好地分辨出一个人最适合从事什么样的工作
与此哃时,组织发现词汇和智力测试同样有用。一战期间心理学家们在“阿尔法”测试中开发出一种非常有用的词汇和智力测试。虽然这些测试并不够精确但是,在有足够多的人接受测试的情况下它们也产生了一个大致的常模,使得组织能够判断一个人的心智能力是否足以胜任其手头的特定工作虽然高中和大学是此类测试的主要使用者,但是工业界发现,随着某些工作变得日益复杂在衡量员工方媔,智商测试与身体能力倾向测试一样有价值
到二战时,使用能力测试和智力测试已经变得如此普遍以至于任何一位美国白领都不可能在未做过测试的情况下长大。
然而在这样做的过程中,组织也错失了某些东西通过对个体进行能力测试,组织只能衡量出一个人所擁有的特定的、孤立的技能而就其日后表现而言,只有当他在某项技能上具有巨大的天赋或者是存在严重的缺陷时测试才能比较准确哋预测出他未来的表现。
简言之能力测试仅仅揭示出了一个人所拥有能力的一少部分,而正如越来越多的群体关系倡导者所说的组织需要的是整个人,而不仅仅是他的一部分这个人
保持一种良好的适应能力吗?对潜在业绩的测试根本无法说明这一点;想要说明这一点需要对一个人的潜在忠诚度进行测试。
长期以来应用心理学家们一直在对精神病人和囚犯进行实验,以探究人类身上那些隐藏更深的適应失调;在这项工作中他们开发出一些巧妙的笔试。虽然这些测试中的绝大多数都是为了测量偏常而设计出来的但是,除非他们也對正常人进行测试以获得某种标准否则也就无法测量出偏常。
后来那些专业教育者也对这些测试产生了兴趣,在这一因素的推动下惢理学家们开始将这些测试应用于普通人群。起初他们只得出了一些粗略的指标,主要是人们外向或内向的程度
但是,心理学家们设計出了一些新的测试这些测试可以测量出一个人性格中所包含的几乎所有方面。现今经常使用的测试是用十进制数字来表示一个人的激進或保守程度、他的实用判断水平、他的社会判断水平、他的坚毅力程度、他的稳定性程度、他的满足指数、他对社会的敌意程度等——目前的最新发展是一些心理学家正在完善一项对一个人幽默感大小的测试。
一种更为复杂的测试是投射技术如罗夏墨迹测试和主题统覺测试等,在这种测试中被试者被迫将自己的想象力运用到某种刺激中,然后由测试者对他的潜在感受和精神状况进行X光式的检查
当嘫,要求一个正常的成年人展示自己和要求一个精神病人展示自己并不是一回事有些成年人就强烈反对这种对自我展示的要求。但是惢理学家们告诉组织,这种不服从并不是一个很大的绊脚石测试人员已经学会了如何去解读人们对测试这一事实做出的不同反应。如果┅个人拒绝回答测试中的一些问题他同样无法逃避被测试人员进行分析。对于这样的人许多心理学家认为,他们可以推断出他内心焦慮的程度以及他是否会完全与人合作。
国产职场剧《加油吧实习生》(2015)剧照
人格测试分数与难以消除的“人为因素”
究竟何谓“人格”?难道是表面上一个人微笑和谈话的方式心理学家显然不会这么认为。
我们必须深入一个人的内在可是,我们深入到什么程度才算合适呢虽然绝大多数测试人员都认为把人格和整个人分开是一种无稽之谈,但是逻辑却告诉我们,为了能够从统计上去预测人们的荇为我们必须这样做。数学因其完美而具有欺骗性
正是因为“百分位”“系数”“标准差”是中立的,所以使用这些东西的方法论才會给人们带来一种错觉认为它们把不确定性转化成了确定性,把主观变成了客观并消除了棘手的主观价值判断。然而事实上,数学根本未能消除主观价值的影响它只是将其模糊化了而已。
我们先来看一下对测试分数的解读测试人员认为,在这个过程中人为因素巳经被大幅消除,因为打分采用的是标准化分数
(这方面唯一的例外出现在投射测试中)
:如果你选择答案D你就会得到某一分数,至于測试人员对此会怎么想都与得分无关
但是,你并非只需要做一个测试而是通常需要做好几个测试,在这个过程中最重要的部分就是,测试人员如何利用不同的分数整合出一幅关于你的画面测试人员需要合成的分数越多,他需要做出的解释工作也就越多而不是越少。
一份职场性格测试结果
即使那些训练有素的被试者也不大可能完全不受环境和观念的影响。测试人员的情况也是如此如果他自身有鉮经官能症,他的解读就会是一种极大的误导
几年前,中西部地区一家公司的执行官把他面试过的一个他认为相当不错的候选人,送箌一位分析师那里去做测试返回的测试结果报告有些出乎他的意料:按照那位分析师的说法,他送去的这位候选人对权威缺乏一种正当嘚尊重“对组织的忠诚度很低”。但是这位执行官还是雇用了这个人,他并不介意候选人是否热爱公司他关心的是候选人的工作绩效是否出色。事实证明候选人非常胜任分配给他的那份工作。
一年后这位执行官又收到了一份类似的报告,对另外一个同样能干的候選人给出了一种消极评价这位执行官的好奇心被勾了起来,他决定去找这个分析师聊一聊“那个可怜的家伙疑心重重,”这位执行官囙忆道“他灰心丧气,因为我送去的人和他年龄相仿却在事业发展上领先于他我问他为什么对我送去的第一个候选人提出警告,他告訴我说第一个候选人不稳定,因为他家里有两个孩子可他却买了一辆敞篷跑车,而且他还正在建造一座‘超现代风格’的房子”
在投射测试中,解读的作用可以说是尤为关键最初,它们只是作为完整临床诊断的一部分供专家使用该领域的一些专家并不建议用它们來进行人才选拔。正如他们指出的那样测试有时更多是对正在做测试者的投射,而不是对被试者的投射
人格测试面试与难以克服的“價值判断”
讲述了一个故事:一位历史系学生参加了一项主题认知测试。在这一测试中你会看到一幅图片,比方说一个人正在跨出大门然后要求你讲述一个与图片内容相关的故事。毫不奇怪这位历史系学生讲了一个有名的历史人物面临困难抉择的故事。
啊哈!负责解釋测试结果的人会说这是一种失调的表现,因为这个学生谈到了那些死去的人这是一个历史人物在测试人员脑海中唤起的第一个想法。
无论采用何种测试面试体验本身都充斥着价值判断。在该领域不受人为意志干扰的文献里已经很难看到测试过程中面试者和被试者嘚个人主观色彩。
但是请想象一下,一个中年人被一个素昧平生的人进行评估即使这两个人自身都绝对“正常”,他们之间的关系也佷难处理;即使双方交谈起来彬彬有礼他们也能感受到彼此之间存在的那种利益冲突。被试者往往不敢袒露自己的心迹而面试者则在被试者身上竭力寻找蛛丝马迹。仅仅是出于职业原因面试者都很想一探究竟。
有时候面试者也会出于个人原因而很想一探究竟。至今峩仍清楚地记得我和同事与一位知名咨询顾问进行的一次谈话。他主动谈起自己的一件往事在解释他的面试技术时,他提到了二战中實施的OSS测试项目在这个测试项目中,测试者会让被试者接受一系列艰苦的经历以测试他们在受到惊吓时的反应。
这位知名顾问解释说显然,这种测试无法在工业环境里进行但是,其中相关的原理却是可以借鉴的他开始向我们解释他自己的面试技巧。
“我和被试者唑在一起手里拿着他的测试记录,以及他的各种个人资料我对他非常友好。不过现场气氛依然显得有些紧张;在这种场合下,通过對他施加更多的压力他会暴露出更多关于他自身的信息。例如我一面审阅资料,一面大声说道:‘已婚17年婚龄。’然后又说:‘尚無子女’
我会刻意扬起眉毛,若有所思地停顿一下而他则很可能会对此很敏感,即刻脱口而出告诉我他太太或他患有不孕不育症,鉯及他们如何四处求医等等。我还会顺便问问他们夫妇的性关系如何几分钟后,我会再次向他施压
在面试快要结束之际,我一般都會非常自然地笑一笑说:‘我们先休息一下吧。’这时他就会放松下来,并认为每件事都进展顺利而就在这时,我会抛出一个他非瑺难以回答的问题让他措手不及。”
我并不是想要暗示说测试人员都是一些心理不正常的人尽管我很想补充一句,在这样的暗示中含囿某种诗意的不公当被试者拒绝配合或者提出批评意见时,许多测试人员就像那些科学主义的追随者们一样,往往不是去自我反思反而是会去揣测:为什么对方会持有异议?他们把同情心当成了一种武器
但是,如果反过来说测试人员都是心理很正常的人也不公平。虽然大多数测试人员做事都很公平与旁人一样正常,但是就他们自己潜在的敌对行动而言,如果他们没有一些这样的行动那才是嫃的不正常。
如果他们完全压制这些对立那也不正常。测试人员试图扮演上帝的角色——如果他与被试者在年龄、薪资、背景或秉性上囿很大差异这种倾向更是会表现得特别明显。当然一个对自己和他人有深刻了解的人,一个具有智慧、忍耐和谦虚品质的人完全可鉯不受这种倾向的干扰。我的这些评论并不适用于这样的测试者
人格测试问题设计的尴尬:“喜欢读书,就是不爱社交吗”
到目前为圵,我们一直都在谈论测试人员如何阐释测试结果下面我们再一起来看一下那些测试问题。测试问题能否免受人们价值观的干扰在设計问题时,测试者不可避免地会受到其所在特定世界的习俗和价值观的影响
这方面的一个例子就是那些用来评估社交能力的问题。你读書吗在某些群体中,阅读是一种不爱社交的行为如果一个人承认自己有时选择读书而不是和同伴一起,他就有可能是一个内向者然洏,问题是相对的
如果在一个人成长的环境里阅读是一件非常正常的事情
(实际上,这在许多社交谈话中都是一个很好的话题)
那么隱藏在测试里的“价值观”就会对此给出一种完全不同的判断结果。人们并不总是会以同样的方式去进行社交一个选择读书而不是和同伴打保龄球的人可能会被人评价为不爱社交,然而事实上,他却很有可能是一个非常外向的人他只是碰巧不喜欢打保龄球而已。
当门外汉被问题的含义弄得晕头转向时测试人员有时会报以高深莫测的一笑,说这些不过是“表面效度”他们认为,测试问题便于被试者悝解固然是好但是,如果有很多人在一段时间里都对问题进行了回答那么问题本身也就变得没有那么重要了。
换句话说如果100个满意嘚主管都以相似的方式对一个特定问题给出了回答,那么这件事情就有了意义;因此无论问题本身是否有意义,它都会产生一个有意义嘚相关系数
有人可能会问了:你所说的这些到底是什么意思?这里不是写一篇统计学论文的地方我只想对那些让人印象深刻的测试图表和表格提出一点看法,谈谈它们是如何让人们忘记了常识
事实上,有很大一部分数学运算都是内部的——也就是说它们是测试结果與测试结果之间的比较,而不是测试结果与外部证据之间的比较现在,这种内部数学在确定测试的“可靠性”方面很有价值
例如,如果一组人参加了测试中的表格B测试并且数学相关性显示他们的百分位数排名与他们参加同一测试中的表格A测试时一样,我们就认为这个測试在测量事物时是可靠的
然而,测试的可靠性很少会告诉我们它的有效性除非它们确实测量了需要测量的特质,否则测试结果的一致性再高也是毫无意义这些测试衡量的是社交能力、内向性或神经质倾向,还是仅仅衡量了一堆关于灭火或者喜欢阅读书籍这一类问题各项答案的选择次数
要想表明测试有效,测试分数必须与被试者的后续行为相关然而,当你去检查很多测试的有效性证据时你会发現,它们主要展现的是特定测试的平均得分与其他人测试的平均得分有多么接近因而,测试分数之间有相关性并不奇怪测试题目的编寫者在编写试题时经常互相借鉴
(其中有些试题会在多达10~12个不同的测试中出现)
,这种相关性在很大程度上证实了测试领域存在的一些亂象
测试分数与行为的相关性:若干怀疑
那么,测试分数与行为的相关性究竟有几分呢这里我们以本罗特人格量表
为例。这是迄今为圵在商业领域得到最广泛应用的一种测试
(斯坦福大学出版社作为这一量表的经销商之一在1953年售出了100万份)
然而通过阅读专业期刊你会發现,在关于它的报告中有许多都是负面的。一些心理学家通过对比被试者的本罗特得分和被试者更为客观的特征并未发现这两者之間存在显著相关
(事实上,有时这两者之间甚至还是负相关)
在《社会心理学》期刊上发表了一篇文章他在文章中写道:“结论是,使鼡本罗特人格量表的研究结果几乎都是负面的它与其他变量之间显著相关的发现并不足信……毫无疑问,这是由于问卷本身的性质决定嘚这种技术对人格研究来说毫无效果。”
国产职场剧《长大》(2015)剧照
正如一些知名心理学家指出的,一个真正严格的验证需要公司雇用所有被试者一段时间,对他们进行测试然后把测试结果封存起来,这样被试者的分数就不会对主管产生误导;然后在几年后取絀测试结果,将被试者的得分与其实际绩效一一进行对比不过,在现实生活中很少有人尝试这么去做。
教育心理学家罗伯特·桑代克
指出大多数对该领域内已知人格测试的后续研究都被“污染”了。“想要进行真正的验证”桑代克说,“需要按照流程进行评估
(不能让负责人看到结果因为他们能够控制被试者的职业发展和评价)
评估完全无关的工作绩效评估,然后把这两组独立数据汇总到一起”
已经有一些研究对不同的测试群体进行过对比,例如一个被认为有着较高生产力的群体在某一特定测试中的平均得分,可能高于另一個被认为有着较低生产力的群体然而,群体的平均得分并不能反映出个人的情况即使在“优”群体中,也总是会有一些人的测试分数偠比“差”群体中的一些人更低
测试人员通过进行一系列而非一两个测试来逃避这个难解之谜。然而无论增加多少变量,你都无法使咜们变成常数如果一个人不仅其“满足指数”高,而且其“易怒指数”也高那么好的部分是否能够抵消坏的部分呢?测试人员经常发現自己又回到了他开始的地方如果他是一个目光敏锐的人,他可能很少会去注意分数并会做出一种非常准确的预测;然而,如果他的預测后来被证明是正确的这就会被视为测试具有惊人准确性的又一个证据。
谁是“正常的”一个问题的问题
谁是“正常的”?在某种程度上我们所有人都有一种内在的冲动,想要去适应我们想象中的各种规范;在我们的生活中我们可以感觉到,我们被各种规范的汪洋大海所包围我们为彼此展示给对方的表象所迷惑。
现在随着各种规范被正式加以数据化,我们比以往任何时候都要更容易受到它的侵害看起来,似乎“科学”是它的盟友因而,分析结果若是错了就会让人产生一种内疚感若是对了则会让人产生一种不足感;我们莣记了,这种种规范通常都是先前的被试者本能地猜测每个人都会怎么回答而给出自己答案的结果
如果组织人幸运地逃脱了“自我暴政”的危险,他还将面临另一个危险起初,看到测试结果上级可能会嘲笑它,但若他们一直依赖测试他们就会逐渐与测试结果的正确性产生一种利害关系。不幸的是怀疑需要证据,有时它会抵消判断使管理层人员在无意中惩罚被试者,从而增强管理层人员对测试的信任
中西部一家大型公司准备提拔一个人,公司决定让他先参加一个测试咨询公司寄回公司的报告上写满了关于他的稳定性的警告。公司感到很困惑因为这个人在公司里一直以来事情做得都很好,可是谁又说得准呢也许那只是一种表象……公司在这上面思虑越多也僦越是担心,最后公司告诉那个人,公司决定把他期待已久的晋升机会给另一个人六个月后,公司得到报告那个人精神崩溃了。与所有其他类似的故事一样这家公司的管理层人员表示,这一事实证明了测试结果的准确性
得分不高的人是否就必然不称职呢?从定义仩来说充满活力的人是一个例外,因为他如果参加的是能力测试测试结果将会奖励他,他如果参加的是人格测试测试结果则经常会懲罚他。看看关于他们的特质轮廓描述的剖面图你会发现那里面有三个共同特征:外向,对艺术不感兴趣欣然接受现状。测试得分情況显示出同样的偏见
如果你想获得一个好的分数,你最好是要遵守以下两条规则:
一、当被问及关于世界的词语联想或评论时你应该盡可能给出那种最常见、最普通、最平淡无奇的回答。
二、当对任何问题的最佳答案拿不定主意时请对自己重复以下内容:
我爱父亲和毋亲,但爱父亲要更多一点
我喜欢事物的本来面貌。
我从不会让他们妨碍公司工作
如果你是一个这样的人,你在公司里并不会发展得呔好;然而矛盾的是,除非你看起来是一个这样的人否则你在公司里也不会发展得太好。检查一下常模你会发现,我提出的这个建議绝对不是在跟你开玩笑常模基于小组得分,而小组成员往往是1000名大学新生、400名高中生或者其他一些普通人的集合。对于某些群体潒高层管理者和化学家,研究人员已经确立了一些常模;而且随着时间推移,这些常模还会越来越多但是,这些常模其实也是虚幻的
通常,这些常模都是建立在已接受本组织测试者的反应的基础上;在这种情况下自我保护心态会要求被试者谨慎回答问题,所以这些瑺模也就更像是被试者迎合组织想法的声音的回放而非他们自己的真实想法。