Saville Wave测评维度结构及报告解析

发布时间：2019-10-22 作者：蜜蜂测评

SavilleAssessmentWave其实是Saville公司推出的个性测评产品的系列。它可以评估一个候选人在性格、才能、动机、胜任力和企业文化环境适应性五大方面的倾向，进而预测个体的职场行为风格。与经典的测评量表像16PF、MBTI不同的是，这款测评量表从他的研发开始一直到他的报告的呈现内容都是以预测个体的职场行为风格作为目标的，也就是说它仅适用于职场环境下，而不是用于测评性格特征。

目前Wave这款测评工具主要有两个版本，我们在公司内部通常习惯用这个简版和详细版作为区分。其实他的这个标准的名称应该叫Professional职业风格测评和Focus重点风格测评。这两个版本的题目，Professional的版本有216道题，Focus这个版本的有72道题，而且72道题是包含在216道题里边的。从测评的颗粒度来看，Focus这个版本相对的颗粒度要更粗一些，216道题的Professional版本的测评颗粒度会更细一些，考察的内容，可以细化到一个候选人在 4个模块、12个部分、36个维度以及108个方面的表现。而我们看到Focus这个版本，仅仅能够考察到36个方面。在使用范围上两者也有区分，一般我们在校园招聘的过程当中，或者是基层人员的社会招聘过程当中会用Focus这个版本，因为考察到36项素质维度其实就已经足够了。但是在企业内部的管理人员的选拔，或者是在高管领导力的识别上，我们一般使用Professional的版本，它看的更全面、更细一些，这是这两个版本不同的地方。那另外呢，因为有题量的限制，所以这两个版本的作答时长也不同，一般Professional这个版本的作答时间是在40分钟左右，Focus版本15分钟左右就可以作答完毕。

那接下来大家可能比较好奇这216道题或者72道题是什么样子的，大家先稍安勿躁，一会儿我会把题目呈现出来，那在呈现题目之前，给大家先简单介绍一下wave测评报告的一些组织架构，就是它整个的测评维度的架构。刚才在版本里边也提到了它是分4个模块、12个部分、36个维度和108个方面的。我们通过一个金字塔的形状简单来看一下它的整个维度的架构。

4个大维度分别是思维、影响力、适应和执行，4个大的模块每个大的模块儿下又分3个部分，每个部分下边又分3个维度，所以这样一共就是36个维度，那每个维度下面都有3个方面，所以一共就是108个方面，这是整个测评的架构。如果熟悉大五人格的同事，可能看到思维、影响力、适应和执行这4个维度，就会觉得有些似曾相识的感觉，包括原来用SHL的OPQ测评的同事，可能也觉得这四个维度有些似曾相识。的确，整个Wave测评的理论架构、理论基础来源，也是来自于大五人格。

以上是Peter Saville教授在研发wave测评工具的时候，跟大五人格做了维度的对照，其实就是相当于把大五人格里面的情绪稳定性和亲和力两个维度一起并到“适应”这个大的模块下，开放性对应的是思维这个模块，外倾性的对应的是影响力这个模块，责任心对应的是执行这个模块，所以整个Wave的理论基础还是来自于大五。

那下边的这个结构就是其中的一个模块往下细分的一个样例，比如说思维、影响力、适应和执行里边的影响力这个模块，它分三个部分：人际交往、沟通影响和坚定自信，那这三个部分其中的沟通影响这个部分下边包含三个维度，有说服力的、批判的和表达清晰流利的，而批判的下边又包含3个方面：公开表达不同意见、挑战他人观点、与他人辩论，所以整个的架构下来，他其实是一个网状结构的，就是从4个模块一直到108个方面。

好，千呼万唤始出来，接下来就是我们蜜友们比较好奇Wave的216道题到底是什么样子的，其实这216道题也是行为化的题目，从题目呈现的形式上来看，跟国内的其他的测评产品，包括国际上的一些测评产品有些类似，大家看看这是一页题目的截图，我们每页会呈现6个行为，一共36页就是216道题。每页六个行为后面有个九点评分，我们管这种评分的形式叫做李克特量表，或者叫点选式量表，从九个选项里边的选出一个你是否同意这个行为的程度选项。

如果仅仅做到这一点的话，我们不能说这个测评有什么特色的地方。这款测评主要特色其实就是来自于它的作答方式，我们看刚才那个截图里边，假设我在这六个行为里边第一个行为和第二个行为选择的都是同意，第三个行为和第四个行为选择的都是轻微不同意，那五个行为和第六个行为一个是轻微同意，一个是非常强烈。这个时候，系统不会继续跳转到下一页的六个行为，而是会跳转出这样一道迫选题，把刚才的第一个行为、第二个行为、第三个行为和第四个行为再调用出来，然后让候选人去选择这四个行为当中哪个行为最接近、哪个行为最不接近他，其实通过这种迫选的方式，进行了一轮强制排序的动作，相当于六个行为从头到尾，做了一个强制的倾向性的排序，这种作答形式是不同于其他的测评工具的。国内的很多测评工具，包括国际的测评工具，可能就只有一种作答方式，要么是点选式的李克特量表，要么就是只有迫选的这种方式，其实点选式的李克特量表跟迫选量表各有优点，目前把这两种量表结合起来，这种测评工具的在市面上比较少见，Wave是其中的一款。我们会看到通过这种形式，有点儿类似于能力测评里边的自适应测评，我们给他举个例子叫自适应，其实说白了就是它是根据候选人前一页作答的结果来调用后一页迫选题目的。

那这种方式表面上看，其实是对量表的题目做了一些增加，表面上看只有216答题，其实真正在操作在作答的时候，要远远多于216道题，具体多少题这个可能要根据迫选题目的多少了。同时，这还带来另外一个问题，就是我们这款测评工具，它是没法实现纸笔施测的，只能在电脑上、计算机上来进行测评，这是他的一个局限性。

我们之前跟英国测评的开发者沟通过为什么要采用这种方式。第一是信效度更精准，他们提到是由于现在算法技术提升，也就是计算机在后台算法上可以实现点选式+迫选式的量表的运算了。过去可能点选式的相对计分比较简单，迫选式的也比较简单，但是点选和迫选，因为涉及到后台的统计学、算法相对比较复杂，所以这种量表，只能在计算机后台去进行大量的运算。所以说，随着计算机这种后台运算能力的提升支持了两种测评形式的量表的出现。

另外一个原因，测评的研发者也提到，其实是想通过这种方式来最大限度地避免候选人虚假作答，如果只有李克特量表的话，大家可能之前做测评，有过相应的经验，李克特量表是可能虚假作答的、是可以伪装的，我可以选择我认为好的那个行为，而不是我实际做出来的那个行为。所以最后测评出来的结果是理想我，而不是真实我。

我们看到国内的测评产品，包括国际上的一些测评产品，在控制虚假作答方式上有一些技术，我归纳总结了一下，主要有两类技术：一类是事前控制技术，一类是事后识别技术，这个地方简单提一下，事前控制技术里边儿包含警告，所谓警告就是在施测之前提前告诉会员，说我们这个测评是有一些技术来防止虚假作答的，如果候选人你需要做答的话，我们是可以识别的，那有可能识别出来之后，就会取消你的考试资格、取消你的应聘资格，那这是一种警告技术。第二个是假渠道技术，比如说在实测的时候给候选人耳朵上夹一个夹子，或者是手上夹一个夹子，号称是可以监测他的心率的变化，那其实这是一种假渠道，其实通过这种方式来告诉候选人，你不要虚假作答。第三种就是迫选量表，就让候选人不得不去选择一个选项而淘汰掉或放弃另外一种选项，候选人就在几个行为当中去权衡、去博弈，那当然迫选量表的编制是有非常严格的要求的，比如在编制量表的时候，要考虑到维度和维度之间的相关性。这是事前控制技术，迫选量表是其中的一项，其实我们Wave采用的就是这种技术。

事后识别技术有两类，一类叫做称许性量表，一类叫做反应时识别，称许性量表是像北森，诺姆这样的公司用到的一些手段，因为在我的从业经历里，在北森工作过三年的时间，对他们的量表的开发有一定的了解，称许性量表可能群里的有的同事不太了解，所谓称许就是他在量表里边儿会内置一些社会规范类的题目，比如说有这样的一些行为化的题目，“我从来不闯红灯”，“我从来不说谎”，“我从来不会背后议论别人”这样的题目，在选择的时候，如果候选人都选择了“非常符合”这样的选项，也就是说他把自己伪装成为了一个道德楷模的样子。那他在社会称许性这个指标上的得分就会偏高，最后带来的结果就是，我们会认为如果他在这些题目上有虚假作答或者刻意伪装的嫌疑，进而就推论他的其他题目的作答上也会有虚假作答的嫌疑，可能就会导致测评结果的不准确，我们叫做作答有效性比较低，这种方式叫做称许性量表的方式。第二种方式叫反应时识别，反应时识别技术现在没有一种定论，也就是说有的研究认为一个人在虚假作答的时候，是会增加反应时，就是他会对一道题思考很长时间，犹豫不决，考虑的时间会无意识地增加作答反应时，所以这种理论认为反应时过长的话是虚假作答的，但是另外也有一种理论，认为就是反应时如果短是虚假作答，因为这个人可能不假思索随便选的，根本没有仔细看题，没有仔细的阅读题和理解题目的含义，就随便选了，导致作答反应时。所以这两种理论到现在也没有一种定论，到底是反应时长是虚假作答的，还是反应时短是虚假作答。但是不管是长还是短，一般测评量表在后台都会记录整个候选人作答的时间，我们一般认为是候选人在相应的规定的时间范围之内作答结束，作答完成是比较合适的，时间过长或过短其实都有问题。

像这种事后识别技术比如像称许性量表，如果候选人一旦知道了他的一些规律的话，其实是可以避免虚假作答的，就是他在回答那些称许性的问题上，故意选择一些选项比较趋中的答案，然后在其他的选项可以伪装，因为称许性的这些题目是可以看得出来的，就是一看这个题目就知道它考察的是一种称许性，所以这种技术不是特别的先进。

这一页的截图右边儿有一个作答风格这个模块，这是我从我们的测评报告当中截出来的Wave的作答风格，其实这个模块是来考察候选人最后的测评结果的有效性的。

我们主要看，第二个指标——作答一致性指标，作答一致性其实考察的是候选人在一些维度的排序上，是不是保持了前后一致，而不是前后矛盾。但是Wave的一致性评价不像国内的一些测评产品，是有些同样的题目反复出现，然后候选人在选择的过程当中考察他选择同样题目的选项是否一致，Wave216道题没有完全一模一样的题目，这216道题后台会根据维度之间的相关性来推测前后作答是否一致，比如说有些高相关的维度，那如果前后作答是矛盾的，我们就会认为他一致性就比较低。作答一致性是越高越好的，越高说明他前后越一致，报告的参考价值也就越高，另外三个方面，一个是评分倾向性，评分倾向指的就是候选人在选择选项的时候，是做了一个过于严厉的评价，还是过于宽松的评价，说白了，就是这个人的评价自己的时候是相对比较宽松的，还是相对比较苛刻的。我们有的客户在使用的时候，会认为从这个维度上也能看出来这个人是比较自信的还是比较自卑的，就是如果评价倾向过低的话，这个人可能相对来说对自己要求比较高一些，但另外一个方面说明这个人可能不太自信。那如果评分倾向得分比较高的话，说明这个人相对比较自信一些，但是我们做测评的总是会说一句话，就是过犹不及，就是如果评分倾向得分过高的话，会说这个人过于自信，就是对自己要求过于宽松了，所以，评分倾向这个指标，我们建议是在中等分数段，合适就可以了。最后两个指标，一个叫常模-自模一致性，一个叫动机-能力一致性，由于时间关系就不过多的展开来讲了。所谓常模自模一致性，我就提一个点就可以了，就是大家看到其实216道题其实是两种作答方式，一种做的方式叫李克特量表，一种作答方式叫做迫选的量表，其实它表面上看Wave是一个量表，其实是两个量表。候选人在作答九点评分的李克特量表的时候，其实在评价的时候相对选择是比较自由的，他可以选非常符合，也可以选非常不符合，为什么呢？因为这个行为他评价的时候，是把自己放在一个社会人群当中去比较，或者我们通常理解叫做放在一个常模当中去比较的：“这个行为我在常模人群中，我的表现是同意呢，还是不同意呢，还是非常同意”，什么样的倾向，我就选择相应的选项就可以了，但是在迫选量表当中的选择就没那么自由了，就给出的几个行为，让他选择一个最符合自己的和最不符合自己的。这个比较就不是把他放在一个常模人群当中去比较了，而是放在一个自模人群当中，也就是说他自己跟自己比，在这些行为当中，哪些是更接近自己的行为，哪些是更不接近自己的行为，所以这两种作答方式就会产生两个分数。通过李克特量表得出来的分数我们叫做常模分，通过迫选量表得出来的分数我们叫做自模分。这个常模分和自模分，如果能够达到高度一致的话，我们可以理解为候选人对自己有一个清晰的认知，或者是他对自己的认知跟这个社会上的普遍人群是一致的，但是如果这个一致性得分过低的话，说明常模自模出现了不一致，要么就是常模分大于自模分，要么就是自模分大于常模分。后面我们会详细解释自模和常模，如果不一致的话怎么去解释。

另外一个就是动机-能力一致性，因为这216道题其中有108道题是从能力的这个角度去出发去提问的，另外有108道题是从动机的这个角度去提问的。比如说动机类的题，他会问“你是不是愿意做什么是”“你是不是渴望做什么事”或者“你是不是喜欢做什么样的事情”，然后让你去选择。

能力的就会问“你是不是擅长做某一类事情”，

或者“你是不是能做某一类的事情”这样的问法去问的，所以这些维度都会得出一个动机的分数，也会得出一个能力的分数，那动机能力一致性得分高说明在这些行为的表现上他既喜欢做也能够做。

那如果出现了偏差，那可能就是他在能力方面或者在动机方面有一定的问题。

接下来，我从报告当中截取了几个图标，简单介绍一下这几个图标。刚才讲到的常模自模一致性，大家可以看第三个图，就是有N和I图标的图，在“能够处理问题的”这个维度下，出现了N和I的图标，说明这个维度候选人出现了常模和自模的不一致。常模分用N表示，自模分用I表示，一般来说，常模分和自模分的分差，超过三个标准分就会出现这个N-I图标。那我们看“能够处理问题”的这个维度是N大于I，就是I是在2分左右，N是在6分左右，是出现了4分的一个差距，因此“能够处理问题”的这个纬度，是常模分大于自模分，说明这个维度候选人在评价的时候，对自己的评价相对比较宽松，这个有点儿像刚才我们说的那个评分倾向性了，候选人在作答李克特量表的题目时，他觉得我在常模人群当中，好像表现挺优秀的、挺符合的、挺同意这个行为的，他选了一个比较高的分数，但是在真正自己跟自己比的时候，作答迫选题的时候，他又觉得，这个行为好像没有那么接近自己，进而他就选择了不太接近自己，导致了他的这个维度的自模分得分比较低。所以我们就会这样情况，就是他在跟常模人群比较的时候做了比较宽松的一个评价，所以我们说N大于I，就代表维度，他是评价相对来说比较宽松的，举个例子来说，这个人他的这个维度可能得了四分，那我们要知道他这个维度的四分是在相对比较宽松的评价体系下出来的，也就是说这个人有可能只能到三分或者两分这么去理解分数。

另外一个图标，就是第一个图中出现的M和T，M是动机的缩写，T是能力的缩写，比如说这个图标出现了M和T，而且是M大于T。也就说这个维度上候选人的动机是大于能力的。比如说这个维度叫做“依据事实”，“依据事实”后边有一些解释，通过子维度的解释我们能也能推测出来，就这个维度下，他的意愿和动机，也就是说去探寻事实的这种意愿和动机大于去探索事实的这种能力。比如说M大于T，肯定也是M的得分比T要高出了三个标准分差，所以才会出现这个图标。

那接下来就是中间那个类似斑马线的图标了，中间这个图标其实代表的是这个维度下的三个子维度之间的分差超过了三个标准分。我们看“注重实践的”这个维度得分是2分，打开后边儿有个蓝色的Sten，就是StandardTen，其实就是标准十分，注重实践得了2分，他的子维度，最高分是4分，最低分是1分，标准分差超过了3分，所以就会出现这个斑马线，是提醒报告解读者，去关注在这个维度下三个子维度之间的这种分差的差距。

这份报告之所以叫专家报告，是因为Saville AssessmentWave是需要认证的，只有通过认证拿到认证证书的专家，才有资格、有权限去解读这样的报告，所以他叫ExpertReport，就是专家报告。

第二份报告就是面试指导报告，顾名思义就是主要应用在面试场景下，不管是在招聘的环节当中，还是在内部竞聘的过程当中，都是可以使用面试指导报告的。面试指导报告的特点，就是在报告当中，他会提供一些相应维度的面试的题目，来辅助面试官做面试，以及在报告当中面试官也可以直接记录候选人的面试表现。

刚才这两份报告其实都是通过Saville那边服务器系统直接出具的报告，那接下来给大家介绍的这份报告就是岗位胜任力匹配报告。这份报告是在我们拿到Saville Wave的底层数据之后二次开发的，因为我们这边是可以拿到SavilleWave的108个方面的得分的，所以我们会根据这些维度重新架构，重新去建一个模型。那根据不同的岗位从里面抽取相应的维度来建相应的模型，所谓定制化报告（就在这份报告的基于岗位胜任力匹配报告），是ATA在英国的Saville Wave的报告基础上定制开发的一份报告，其实主要目的还是希望我们HR能够做更好的做决策，从定性分析变成定量分析。

这份报告可能不像专家报告或者面试指导报告，前面两份报告，可能更多的是从定性的角度去分析这个人的一些表现，不会给出一个结论性的总分。但是在实际我们的操作过程当中，很多HR还是希望有一个这种总分或者排序的思路，所以我们就开发了的这种岗位匹配度报告，引导着我们的HR的去关注某些岗位上所特别要求的一些维度。

为什么这么说呢？就是我了解咱们有些测评工具，尤其是那种只有李克特量表的测评工具，他可能在最后维度的得分上，其实是可以做到所有维度都得一个高分的，因为他是没有迫选的，也就是说候选人他可以通过虚假作答或者伪装作答的，在各个维度上都达到一个比较优秀的状态。但这对于我们的HR来说，其实是不太希望看到的一个局面，也就是说，一个人肯定是有优势和劣势的，完美的人几乎是不存在的。所以Wave测评的特点就是候选人根本没法做到，所有维度都得一个高分。主要原因是因为他的题目编制的时候本身就把迫选题目考虑在内了，也就说你一定会在这些维度的表现上有些维度得分高，有些维度得分低。我们在最后用人的时候，我们只关注那些在岗位上重点关注的维度表现就可以了，如果恰好这个人在那些维度表现得分都很高，说明这个人他的适岗能力就会比较高，在他的岗位胜任力匹配报告里边就会得出一个比较高的一个百分比，就说明这个人更适合目标岗位。

接下来给大家发的是一个研发类的岗位的一个匹配度报告，里边儿有十个维度，是我们通过专家评定，认为这十个维度，是跟研发岗位密切相关的维度，十个维度后台设置了权重得出了这样的一个模型，那剩下的几份报告,由于时间关系，我就一带而过，如果大家想了解的话，我们可以私下再沟通。因为时间的确是拖了好久，我这个没有控制好分享的时间。