四、面试在研究生选拔中的应用

面试是研究生选拔过程中对申请人的非认知因素进行评价的最常用的方式［24，25，62］。但是，大量研究却表明，研究生录取面试的预测效度非常低［63-65］。

（一）录取面试的预测效度

有关录取面试预测效度的研究主要指向研究生学业成绩和专业实践两类效标。大多数研究表明，录取面试对于研究生的学业成绩几乎没有预测作用。Walton［62］在对医学专业研究生选拔的相关文献进行回顾的基础上指出，申请人的录取面试得分与随后研究生阶段的学业成绩之间不存在相关。在Kelman［66］的研究中甚至发现两者之间存在一定程度的负相关。Smith［67］对123名研究生的数据进行了分析，其中44名经过面试录取，79名未经面试录取；结果发现，接受了面试的研究生和没有接受面试的研究生在研究生一年级课程成绩等三种客观绩效指标上均无显著差异。Goho等［68］对健康护理领域的20个采用录取面试选拔研究生的研究进行了元分析，其中19个研究（总样本量为4629个）考查了面试表现与研究生学业成绩的关系。分析发现，面试对学业成绩预测的平均效应值为0.06（95%置信区间为0.03～0.08），该结果表明录取面试对研究生学业成绩的预测作用微乎其微。

就专业实践而言，有的研究表明录取面试对于研究生专业实践表现没有预测作用，而有的研究却发现具有微弱的预测作用。Kelman［66］发现面试评委对研究生申请人的评价与这些研究生在高年级临床实践阶段临床教师对他们在相同特征上的评价不相关，而且经过面试和未经面试录取的研究生在临床教师评价上也不存在显著差异。Smith［69］将113名经过面试的研究生与67名未经面试的研究生在驻院实习阶段的导师评分进行了比较，发现两者之间并不存在显著差异。Basco等［70］的研究考查了录取面试是否可以预测医学院研究生在专业实践中与患者之间的人际互动表现；结果发现，录取面试得分与高年级临床实践测验总分之间的相关为0.13（p=0.056），而与该测验中的人际技能得分之间的相关为0.15（p＜0.05）；该研究得出结论，就该医学院的录取实践而言，录取面试对研究生与患者的人际互动表现的预测效度非常有限。在前述Goho等［68］所做的元分析中，有10个研究（总样本量为1283个）考查了面试表现与临床绩效之间的关系，分析发现，面试对临床绩效预测的平均效应值为0.17（95%置信区间为0.11～0.22），该结果表明面试表现与临床绩效有一定程度的相关。

基于已有的研究结果，Kreiter等［71］指出，与录取决策所基于的其他变量相比，面试的心理测量学指标相差甚远，将面试作为研究生选拔过程中一个重要组成部分的合理性令人质疑。而且，面试并不是免费的，面试数据的获得需要投入大量的成本，包括面试内容和程序开发的费用、教师和服务人员的时间以及申请人在时间和经济上的投入等［68］。据Gabard等［65］调查，每个研究生招生机构中，教师和行政人员总共用于准备面试的平均时间为175小时，平均面试人数为126人，每位申请人的平均面试时间是41分钟。面对面试如此巨大的投入以及上述令人沮丧的效度研究结果，我们不由地追问，研究生录取面试缺乏效度的原因究竟是什么？是面试这种评估方式本身并不适合研究生选拔的情境，还是研究生录取面试在实施过程中存在问题？如果是前者，我们就不得不认真考虑是否应该放弃面试这种昂贵且无效的选拔方式；如果是后者，则提示我们必须对研究生录取面试实践予以改进。

（二）录取面试缺乏效度的原因

对于面试的预测效度，人事选拔领域在20世纪末已经达成共识，选拔面试是预测工作绩效的一种非常有效的工具［72-74］。Schmidt等［75］对1985年的人事选拔研究进行了回顾并最终得出结论，选拔面试是对工作绩效和培训有效性的最好的预测变量之一，并且这一结论具有跨职业、跨效标以及跨组织的一致性。当前，人事选拔领域对于面试的预测效度已经不存在质疑。

然而，大量元分析还表明，尽管选拔面试是一种有效的人事选拔工具，但面试的效度受到面试结构化程度的调节。Conway等［76］对160个选拔面试信度研究的元分析表明，研究设计、评委培训以及面试结构的三个维度（问题标准化、评分标准化、分数整合标准化）是面试评分者信度的调节变量。Wiesner等［77］对150个面试效度研究的元分析发现，结构化面试的平均效度系数是非结构化面试的两倍。结构化面试可以在很大程度上控制面试中容易出现的偏差。面试越结构化，面试成绩对于效标绩效的预测能力越强［78］。松散的或无结构化的面试没有预测能力或预测能力很低［79］。

就研究生选拔过程而言，结构化的录取面试要求：系统分析确定研究生成功所必需的关键因素或特质并以此作为设计面试题目的基础；确保提问的一致性以及评委的一致性；面试评分时采用行为锚定的评价量尺；对面试评委进行必要的培训等［78，80］。那么，在研究生选拔实践中，录取面试的结构化程度究竟如何呢？

Streyffeler等［81］的研究发现，大多数研究生录取面试并没有预先设计的问题，而是评委随机提问任何自己认为恰当的问题，然后往往基于内隐的、评委个人认为与研究生学业成功相关的标准进行评分。Elam等［82］通过对医学院研究生录取面试过程中评委笔记的内容分析发现，具有不同专业背景和面试经验的教师对于同一面试的目的和结构有着彼此不同的看法。据Johnson等［83］对92位评委的调查，大多数研究生录取面试对评委缺乏必要的培训，面试结构化程度很低。Nayer［84］和Agho等［63］的研究也发现，研究生录取面试的结构松散，面试评委的角色非常主观但却对研究生录取决策具有重要的影响。

基于面试在人事选拔领域的出色表现以及研究生录取面试普遍缺乏结构化的现状，我们不难得出结论，研究生录取面试之所以缺乏效度，关键问题在于录取面试的结构化程度过低。在非结构化的研究生录取面试中，每位面试评委心目中有自己理想的研究生模型，这些彼此不同的评价标准使得依据面试结果预测研究生未来的绩效变得几乎不可能［80，85］。大量实证研究也反复证明这种非结构化的录取面试无法预测研究生未来的学业成就［69，86］。Streyffeler等［81］强调，准确地预测绩效要求认真地设计并验证测评的工具。未经培训的评委、随意的提问、采用不明确的标准进行评价，这样的面试是难以预测研究生的未来绩效的。因此，研究者们强调，提高面试的结构化程度是提高研究生录取面试有效性的关键［78，83］。

（三）关于面试的小结

面试是研究生选拔中最流行、最常用的非认知因素评估方式，同时也是最耗时、最昂贵的获取申请人信息的复试方式。然而，关于研究生录取面试效度研究的文献回顾令人震惊，除了有些研究发现录取面试对研究生的专业实践表现具有微弱预测作用之外，大量研究结果表明录取面试缺乏对研究生绩效效标的预测效度。人事选拔领域结构化面试充足的效度证据以及研究生录取面试普遍缺乏结构化的现状说明，很可能并不是由于面试这种选拔方式不适合研究生选拔的情境，而是由于研究生录取面试结构化程度过低，从而损害了面试这一广泛采用的人事选拔工具本可达到的预测效度。因此，针对具体的培养目标加强面试的前期研究，提高面试题目设计、提问方式和评分标准的结构化程度并确保面试评委接受必要的培训等，这些措施将在很大程度上改善研究生录取面试的科学性和有效性。