国家公务员遴选策论的多面Rasch模型应用

李英武 张海丽 胡心约

摘 要:基于多面Rasch模型(MFRM),对某中央直属系统公务员遴选策论的主观评分偏差进行分析,探讨考生的能力水平,评分者宽严度、评分内部一致性、维度难度和评分量尺等因素对遴选考试决策的影响。结果发现:评分者的宽严度差异显著;评分者对特定评分维度的使用差异显著;评分者与评分维度间交互作用显著,不同评分者在特定评分指标上评分偏差明显。通过MFRM分析公务员遴选策论的测评结果,可深入了解考生的真实能力差异,策论评分维度的难度,并对公务员遴选测评中的主观评分偏差来源进行甄别,以完善国家公务员策论试题命制,建立评分者培训体系,提高公务员遴选考试决策的科学性,夯实考试测量学的理论与方法基础。

关键词:公务员遴选;策论;评分者偏差;多面Rasch模型

中图分类号:D630 文献标识码:A 文章编号:1009-3176(2021)06-089-(11)

一、问题提出

“育才造士,为国之本。”贯彻新时代党的组织路线,建设忠诚干净担当的高素质干部队伍是关键,重点是要做好干部培育、选拔、管理、使用工作[1]。为优化领导机关公务员队伍结构,我国党群机关、政府部门根据政策规定,从已具备公务员身份和相关资历的人员中选拔公务员的方法,称为公务员遴选。通过遴选,具备优秀基层工作经验的公务员,进入到上一级机关工作,对优化公务员队伍来源和经历结构、扩大选人用人视野、建立来自基层的公务员选拔培养链,起到了重要作用[2]。

公务员遴选,一般采用考试与考察相结合的选拔方式,考虑到考生均已有公务员身份以及政府机关急需“笔杆子”的现实要求[3],遴选笔试主要采用对策性论文写作测验(以下简称“策论”),对考生的政策理论水平、分析和解决实际问题的能力等素质进行评估。测评中通常需要评分者使用评分量尺,对考生的策论写作表现进行主观赋分。既往的研究显示,主观评分类测验,易受多种因素的影响而产生评分者偏差(Rater Bias)[4],即评分偏离既定标准所表现出的系统性行为模式,导致考生原始观测分数与真实能力出现偏差。如,考官宽严尺度不稳定(Severity Drift)、随意评分或者打中间分保险分,分数趋中化(Central Tendency)等,均可导致评分者偏差,不仅会影响考生的成绩评分,更会威胁考试的科学性和公平性[5]。

2013年,王寓周对某省政协机关的遴选考试成绩进行了研究,追踪调查了考生入职后的工作表现,发现部分遴选笔试高分考生进入机关后,实际的工作表现并不理想[6]。由此可见,有效甄别遴选策论中的主观评分偏差,不仅是学术界关注的测量学问题,在实际工作中同样对规范公务员遴选程序具有重要价值。但现有公务员遴选研究,关注评分者偏差问题尚缺乏实证数据分析。近期的研究显示,主观评价类测验在阅卷时,通常要求评分者综合卷面信息,通过观察感知,从记忆中提取评分线索,权衡使用评分标准,对考生的能力进行推论,做出錄用决策判断[7]。复杂的评分环节,均可能受到个体认知偏差的影响,导致成绩评定无法反映考生的真实能力水平[8]。如,在英语综合阅读和写作测试研究中发现,评分者宽严度可显著影响成绩评价[9]。有鉴于此,研究者呼吁,应关注主观评价类考试中评分偏差的来源及其影响[10]。

1.理论基础

为解决上述议题,本研究在选择可适用的理论模型时,综合考虑考生的能力、题目任务难度、评分者宽严度和项目难度四个参数。梳理国内外的文献发现,学术界普遍认为项目反应理论(Item Response Theory,IRT)中的多面Rasch模型,能够满足公务员遴选策论笔试数据进行主观偏差分析的参数要求[11]。

项目反应理论假设,考生的潜在特质水平与其在某一项目上的反应之间存在函数关系,考生在某一项目的正确反应概率(Response probability)越高,说明考生潜在特质能力(θ)水平越高。丹麦数学家Rasch提出了单参数Rasch模型,进一步将考生能力(θ)、项目难度测得的实际值进行等价转换,赋予考生的能力值与项目难度以客观和等距特性[12]。Linacre在单参数Rasch模型基础上,进一步提出多面Rasch模型(Many Facet Rasch Model, MFRM),认为考生获得特定分值的概率,不仅取决于考生能力(θ)和项目难度,还会受到评分者宽严度、评定量尺特定分数等级难度等因素的影响[13],进而导致主观评分偏差的出现。由于MFRM在评分者偏差研究上具有显著优势,能够甄别评分者整体和个体水平等多种类型的偏差,并为偏差提供了多种可靠的衡量指标[14],近年来越来越多的研究者建议采用MFRM对主观评分情境评分者偏差进行甄别[15]。

2.研究问题

2020年国家公务员局颁布的《公务员公开遴选办法(试行)》[16]规定,公务员遴选策论主要测评四个维度:一是对策合理性,主要考察应试者是不是能准确运用与工作相关的法律、法规和有关政策;发现问题、分析问题,准确把握事物的现状和产生的影响;积极探索事物发展的规律,预测发展的趋势,有针对性地提出问题解决相关对策的素质。二是政策理论水平,主要考察应试者是不是能正确理解并贯彻执行党和政府的各项方针政策,求真务实,忠诚执行上级的各项决策和部署,服务于大局兼顾全局,完成工作任务的素质。三是文字表达能力,测评考生运用语言文字阐明观点意见,正确使用文字,流畅规范表达。四是论文逻辑性,测评考生论文写作结构完整,表述简明扼要,句子中“指代关系”清晰,逻辑是平稳的,无逻辑跳跃或逻辑断层。基于既往国内外主观评分偏差甄别研究范式[17],本研究采用MFRM分析,检验公务员遴选策论评分中的主观偏差来源及其对考生能力排序的影响。

二、研究方法

1.研究对象与程序

样本数据来自2011年某直属系统公务员遴选策论评分档案数据(Archive Data)。研究者在128名策论评分者中,随机抽取7名评分者及其对应的98名考生评分数据进行分析。本次策论评分,分为四个评分维度(政治理论和政策水平,解决问题措施或对策的合理性,文字表达能力,论文逻辑性),每个维度采用Likert10点评分。文字表达能力占总分权重的10%,论文逻辑性占总分权重的20%,政策理论水平占总分权重的20%,对策的合理性占总分权重的50%,策论总分为100分;参评考生计98人,其中男性84人(85.7%),女性14人(14.3%);年龄均值为36.53岁,标准差为5.45;大学本科学历占22.4%,其余均为硕士及以上学历。

2.模型及分析工具

研究采用Linacre编制的MFRM分析程序FACETS 3.80.4[18],对考生能力、评分者宽严度、题目难度、评分等级等因素进行分析,该程序的模型函数表达式如下:

FACETS采用非条件极大似然法(Unconditional Maximum Likelihood)对MFRM中的各个参数进行估计。在参数估计的过程中,评分等级之和被用作对模型中的每个侧面进行估计的充分统计量。通过FACETS分析,可得到考生的能力、项目的难度、评分者的宽严程度以及评分量表等级等侧面的参数估计值,标准差以及模型拟合Fit统计量。

三、研究结果

1.考生MFRM分析结果

本次策论考试98名考生的能力值范围为-1.49至3.15logits,全距为4.64logits,平均数为0.44(SE=0.97)。其中,66号考生能力水平最高,能力值为3.15logits(SE=0.26);27号考生能力水平最低,能力值为-1.49logits(SE=0.19),具体情况见表1。Infit值(InfitMnSq),表示评分者对考生评分的一致性程度。在MFRM中,Fit值是描述模型预期值和观测值之间差异的统计量,分为Outfit与Infit两种统计量,Outfit统计量敏感性不足,因此大多数研究主要以Infit统计量作为衡量评分者一致性的依据。参照既往研究,本研究将Infit可接受的取值范围设定为0.5至1.5[19]。

在表1中,考生能力估计值标准误均方的平方根(RMSE)代表估计的平均误差。考生能力估计值标准误均方的平方根(RMSE)为0.21,表明考生的测量误差很低。Adj S.D.是校正测量误差之后估计值的标准差,Adj S.D.的平方即为真实变异,考生能力估计值标准误均方的平方根(RMSE)代表估计的平均误差Adj S.D.=0.95。分离比(Separation)是Adj S.D.除以RMSE得到的数值,表示测量分数整体有效性,要达到传统考试测量学0.90水平的置信度,Separation需要达到3.0。本研究中Separation的数值为4.50,符合测量学参数要求。进一步考察模型真实变异占原始观测值变异的比重,即分离信度(Separation Reliability),相当于KR-20或Conbachα系数,正常取值范围是0~1[20],本次策论的分离信度值为0.95,说明本次策论题目的内部一致性较高,能将考生区分不同的能力水平。对考生之间能力的差异进行χ2检验,结果表明χ2(97)=1941.6,p<0.01,参加策论测评的考生能力水平之间差异显著。

在表1中,以每个评分者在各评分维度上的加权平均分数,作为考生最后的策论成绩,为了比较考生排序之间的差异,以及评分者的主观偏差对考生产生影响,本研究将考生的策论原始分数和基于MFRM矫正评分者偏差后分数进行了排序,因策论考试前5名考生有資格进入下一轮面试,为此本研究重点分析前五名考生评分偏差情况。结果显示,考生43、考生44按照原始分数可进入前5名面试范围,但是按照MFRM矫正评分者偏差影响后的考生真实能力值排序,则考生45、考生46应获得面试资格。

2.评分者MFRM分析结果

那么,为什么考生的策论成绩排名会出现较大变动呢?为此,本研究进一步采用MFRM对评分者的宽严度情况进行了分析。在表2中对评分者宽严程度以及评分内部一致性(Intra Reliablity)进行了汇总,并以评分者宽严程度进行降序排序。

统计结果显示,评分者2评分最严厉,评分者6评分最宽松。评分者的分离比为9.41,分离信度为0.99。对评分者之间宽严程度的差异大小进行χ2检验,结果为χ2(6)=537.3,p<0.01,表明不同评分者之间宽严程度存在显著差异。按照拟合统计量可接受的范围(0.5~1.5),除评分者3以外,其他评分者对考生的遴选成绩评分赋值处于合理区间,评分者3成为本研究主观评分偏差的关注重点。

既往研究认为,考官对评分标尺的理解与掌握程度会影响评分偏差,为此本研究进一步分析了评分者3的内部评分一致性(Intra Reliablity,即采用相同标准为不同考生赋分情况)。数据显示评分者3的Infit值为1.54,评分者3的内部一致性较低,在评价96号考生的政策理论水平维度时给了2分,按照评分者3自身的宽严程度,对于该能力水平的考生,模型统计预期评分为5.7。实际评分跟模型期望分之间相差3.7分,偏离了4.2个标准差,属于异常评定结果,初步判定评分者3未熟练掌握政策理论水平维度的评分赋值,存在随意赋分风险。

3.策论评分维度的难度分析

从评分者3评分偏差分析可见,不同题目评分维度难度情况会影响评分者偏差。为此研究进一步对评分维度难度情况进行了分析,见表4。数据分析显示,对策合理性维度的难度值最高,政策理论水平在4个维度中评分者较容易掌握。所有评分维度均吻合MFRM模型期望,维度Infit值在0.5至1.5之间,即评分者跨评分维度的评分一致性较好,评分者在同一评分维度上的宽严度相近。评分维度的分离比为3.44,分离信度为0.92,分离信度卡方检验结果χ(3)2=38.4,p<0.01,说明现有遴选策论评分维度之间差异显著,题目可较好区分考生能力,产生了期待中的考生表现差异。通过评估考生在策论考试评分维度上的表现,可有效区分不同能力水平的考生。

4.策论评分量尺的评分等级分析

表5是对原始十点评分量尺使用情况的分析结果,表中第一列为量尺的评分等级。第二、三列是评分等级的使用次数及占总次数的比例。从表中可见评分等级1并未被评分者使用;等级6的使用次数最多,占总数的31.52%。说明在本次策论评分者赋分相对宽松,倾向于给出较高分数。平均能力估计值(Average Measure)是各等级所对应的能力估计值,理论上来说,考生能力水平越高,获得的评分等级越高。本研究中各等级的平均能力估计值呈递增趋势,符合MFRM模型参数要求。Outfit MS值接近理想值1.0,表明该等级的评定可以对测量估计提供建设性的信息[21]。等级临界值(Step Calibtrations Measure)即前后等级过渡点的能力值,当考生能力低于这个临界值时,考生可能获得前一等级评分;高于临界值时,更可能获得后一等级得分,理论上获得高分比获得低分要求的能力更高,因而临界值应呈现递增趋势。表5的分析结果显示,本次策论评分临界值呈递增趋势,符合MFRM模型参数要求。

从图1的等级概率曲线图中(横轴是能力值,纵轴是获得某一等级的概率)可以看到,除等级1未被评分者使用外,其他等级都有独立波峰,说明其他评分等级都有可能被相应能力区间的考生获得。总体而言,本次公务员遴选考试中策论采用Likert10点计分是可行的。

前面的分析涉及的是模型各侧面的拟合性,而对于策论评分各维度整体的拟合性,通常以异常反应(Unexpected Responses)作为指标,具体异常值统计汇总,见下表6。

根据Linacre提出的标准,当分数标准化残差(StRes)的绝对值大于或等于3的反应小于或等于总反应的l%,且分数标准残差的绝对值大于或等于2的反应少于或等于总反应的5%时,则模型整体拟合度是可接受的[22]。本研究中,标准化残差的绝对值大于或等于3的反应有23个,占总反应(2744)的0.8%,说明研究的观察值与模型拟合程度是可接受的。

但应该引起遴选考试管理者重视的是,政策理论水平评分维度,评分者共出现13次异常评分反应,对策合理性评分维度出现5次异常评分反应,分别占总异常评分反应次数的57%和21%,说明评分者在上述维度上的评分不稳定。文字表达能力和论文逻辑性两个维度评分者掌握较好,因此异常的评分反应出现较少。其中,3号评分者异常评分反应出现次数最多,共计11次,占总异常反应次数的47%,占总异常反应次数的26%,可初步推断3号评分者对评分维度的掌握程度不够牢固。

5.评分者与评分维度的交互作用分析

评分者与评分维度的偏差分析可考察评分者在不同难度评分维度上的评分偏差情况。

统计结果显示,7名评分者与4个评分维度的28对组合中,评分者与评分维度之间偏差显著情况,共出现了8次占28.57%。在评分维度1(政策理论水平)上,评分者2和评分者7倾向于给考生评定更高分数,评分者3倾向于给予更低打分;在评分维度2(对策合理性)上,评分者1倾向于给予低评分,评分者3和评分者4倾向于给予高分数;在评分维度3(论文逻辑性)上,评分者3倾向于给予高分数;在评分维度4(文字表达能力)上,评分者1倾向于给予更高的得分。总体统计结果显示,评分者与评分维度的交互作用显著(χ2(28)=160.1p<0.01),说明维度难度可影响评分者的评分。

四、结论与讨论

1.结果分析

本研究基于MFRM对2011年某直属系统公务员遴选考试中策论测验的主观评分偏差,从考生、评分者以及评分维度3个层面对策论数据进行了分析。结果显示,2011年该直属系统遴选考试中使用的策论测验,具有较好的内部一致性,不同的评分维度可以有效区别考生不同侧面的能力差异。对考生而言,最容易的题目是政策理论水平,得分最困难的是对策合理性。不同能力的考生在策论测验上的表现存在显著差异,但考生的策论原始分数与其MFRM能力值并不完全一致,相同能力的考生可能得到不同的名次。在公务员遴选考试的实践当中,在进行录用决策时往往是基于考生的策论原始成绩排序来确定面试资格,本研究的分析显示,遴选决策会受到评分者主观偏差的影响,存在高能力考生被误判出局的风险。

此外本研究发现,评分者与评分维度之间的交互作用显著,说明评分者在特定评分维度上的评分偏差显著。对此,存在三种理论解释:一是评分者对不同评分维度的理解不同,短时间内难以将不同维度的评分准则转化为具体的评分参考,导致对评分量尺的理解和使用出现偏差。二是在策论中,尽管评分者对文字表达能力和论文逻辑性评分维度的理解较为一致,但可能由于评分时间较紧张,评分者需要在规定时间内完成评分任务,紧张时的评分情境消耗评分者的认知资源,持续疲劳导致评分偏差的出现。三是有研究认为,评分者尽责性以及评分动机,也可能是诱发主观评分偏差产生的原因[24]。

2.未来研究

本研究基于MFRM模型,对公务员遴选考试策论的评分者偏差及其影响进行了甄别,从评分者、考生和评分维度等侧面对公务员遴选考试策论测验中评分者主观评分偏差进行了深入分析,具有一定的实践指导意义。考生真实能力与策论原始成绩并不完全匹配,既往基于考生能力原始观测值排序作为公务员遴选决策的依据,存在较大遴选录用决策风险,未来研究可以进一步,基于纵向追踪研究范式收集更多效标证据进行深入研究。此外,本研究通过对评分者偏差的分析发现,探讨评分者对评分维度以及评分量尺的掌握情况,有助于为未来评分者培训提供现代测量学依据,也能为不同评分者的特定评分偏差倾向提供针对性反馈,未来研究可选择公务员考试面试官培训情境,基于考官培训实践设计相应的干预研究。但本研究依然存在一定局限性。如,评分者与考生性别、试卷呈现顺序、评分时间等因素也会诱发评分偏差的产生[25],未来研究可纳入多变量进行系统探讨,全面地甄别和控制评分者主观偏差的负面效應。

参考文献:

[1]习近平.在全国组织工作会议上的讲话[M].北京:人民出版社,2018:14.

[2]傅兴国.努力提高公务员选用科学化水平[J].求是,2018(8):39–41.

[3]侯晋雄.公开遴选与完善基层公务员培养选拔机制研究[J].重庆理工大学学报(社会科学),2014,28(8):88–95.

[4][20][24]BERNARDIN H J, THOMASON S, BUCKLEY M R, et al. Rater rating-level bias and accuracy in performance appraisals:
the impact of rater personality, performance management competence, and rater accountability[J]. Human resource management, 2016, 55(2):
321–340.

[5]WOLFE E W. Identifying rater effects using latent trait models[J]. Psychology science, 2014, 46:
35–51.

[6]王寓周.四川省政协机关公务员遴选实效性之调查研究[D/OL],成都:电子科技大学,2013:12.[2021-06-30] .http://cdmd.cnki.com.cn/Article/CDMD-10614-1014137832.htm.

[7]MASRAN M N,NOR M M, MASHITAH M R. Validatingmeasure of authentic assessment standard for childrens development and learning using many facet Rasch model[J]. Advanced science letters, 2017, 23(3):
2132–2136.

[8] TOFFOLI S F, DE ANDRADE, BORNIA A C. Evaluation of open items using the many-facet Rasch model[J]. Journal of applied statistics, 2016, 43(2):
299–316.

[9] BRINTHAUPT T M, KANG M. Many-faceted Rasch calibration an example using the self-talk scale[J]. Assessment, 2012, 21(2):
241–249.

[10]王佶旻,邓志娜.评分员对不同体裁作文评分的多面Rasch模型分析[J].考试研究,2018,34(1):80–89.

[11][19]GOODWIN S. A many-facet Rasch analysis comparing essay rater behavior on an academic English reading/writing test used for two purposes[J]. Assessing writing, 2016, 30(4):
21–31.

[12]俞韫烨,谢小庆.基于多面Rasch模型的作文网上评卷“趋中评分”判定研究[J].中国考试,2012(1):6–13.

[13]ZUPANC K, BOSNIC Z. Automated essay evaluation with semantic analysis[J]. Knowledge-based systems, 2017, 120(15):
118–132.

[14] MICHAEL G, UNKELBACH C. Halo effects from agency behaviors and communion behaviors depend on social context:
why technicians benefit more from showing tidiness than nurses do[J]. European journal of social psychology, 2017, 48(5):
701–717.

[15] WINKE P, GASS S, MYFORD C. Raters L2 background as a potential source of bias in rating oral performance[J]. Languagetesting, 2013, 30(2):
231–252.

[16]公务员公开遴选办法(试行)[EB/OL].国家公务员局官网,(2020-10-29)[2020-11-01].http://subb.scs.gov.cn/pp/gkweb/core/web/ui/business/article/articledetail.html?ArticleId=8a81f3237545c18101757349a7fe20d6&id=0000000065183dac01651c4ef5ac0023&eid=0000000065183dac01651c4f74de0025.

[17]孙晓敏,张厚粲.国家公务员结构化中评分者偏差的IRT分析[J].心理学报,2006,38(4):614–625.

[18]LINACRE J M. FACETS:
Computer program for many-faceted Rasch measurement[M]. Chicago:
MESA Press, 1988:
14.

[21] HARARI M B, RUDOLPH C W. The effect of rater accountability on performance ratings:
a meta-analytic review[J]. Human resource management review, 2017, 27(1):
121–133.

[22][25] BRADLEY K D, PEABODY M R, MENSAH R K. Applying the many-facet Rasch measurement model to explore reviewer ratings of conference proposals[J]. Journal of applied measurement, 2017, 17(3):283–292.

[23] GARRIDO M E, ROMERO S, ORTEGA E, et al. Designing a questionnaire on parents for children in sport[J]. Journal of sport & health research, 2011, 3(2):
153–164.

(責任编辑 方 卿)

相关热词搜索: 策论 遴选 国家公务员