第一节 MCAT简介

一、多维项目反应理论的发展

随着项目反应理论(IRT)在实际工作的广泛运用,人们也渐渐发现,传统IRT的单维性假设与许多心理或教育测验的实际是不相符的(Reckase,2009)。测验数据的多维性与人在完成一项测验任务时需要多种能力的共同配合是相符的,很少有测验只测量单一维度能力或特质。传统的单维项目反应理论(Unidimensional IRT,UIRT)只能提供一个能力维度/结构上的信息,当应用UIRT分析多维数据时,会导致对被试能力的错误推断,这种错误主要发生在那些次维度上能力不同的被试身上。其主要原因是难度和维度在UIRT中被混淆了,从而导致在整个所估的单维能力量尺上多维组合的不一致性(康春花,辛涛,2010)。因此,从传统的单维项目反应理论拓展为多维项目反应理论(Multidimensional IRT,MIRT)显得十分必要。为此,心理测量学家们开展了相关研究,如早期的Bock和Aitkin(1981)、Reckase和Mckinley(1982)等知名心理测量学家做了大量关于MIRT的基础性的研究和探索。目前,多维项目反应理论、认知诊断、计算机化自适应测验被视为现代心理测量理论的三大发展方向。

多维项目反应理论的发展源于项目反应理论和因素分析(Factor Analysis,FA)(Reckase,2009),但兼具项目反应理论和因素分析的双重优点。近几年MIRT的研究越来越受人们重视,涉及的领域也非常广泛,如MIRT的参数估计(DeMars,2009;de la Torre,2008,2009;Jiang,2005;Zhang & Stone,2008;Bolt & Lall,2003);MIRT与验证性因素分析(CFA)的比较研究(Finch,2010);MIRT的测验等值(Yao & Boughton,2009);MIRT的CAT研究(Finkelman,Nering & Roussos,2009;Li & Schafer,2005);MIRT在心理测验中的应用(Marveled,Glas,Landeghem & Damme,2006;Kacmar,William et al.,2006)等。

MIRT引入多维能力和多维项目区分度参数,进而模拟测验题目和被试间的交互作用(Reckase,2009),采用概率函数模型来表征具有特定多维能力被试正确答对特定项目的概率。MIRT可以同时估计被试的多个特质/维度上的能力值,并考虑各能力维度间的关系,因此对于多维心理测验数据,MIRT可以更有效估计被试及测验项目的测量学参数。因此,根据MIRT,研究者可以在多个特质/维度上分别进行推断和评价,也可以对测验项目在每个维度上的测量学特征进行深入分析,以检测测验项目所需属性/技能的详细结构(Gorin & Embretson,2006),所以MIRT不论对被试的分析/评价还是对测验项目的分析/评价都更为精确和细致,这对于心理测验编制及开发具有重要意义,值得借鉴和推广(涂冬波等,2011)。

二、MIRT与FA的关系

理论上,MIRT是单维IRT(UIRT)与FA的结合。与因素分析一样,MIRT也分为探索性的MIRT与验证性的MIRT两类,都可以用于处理分析测验多维的测量情境。但MIRT与FA又存在一些本质上的区别:

第一,FA(不论是EFA还是CFA)是线性模型,即基于项目间的线性相关为基础进行的分析;而MIRT是非线性模型,多半采用Logistic曲线模型(具体模型详见本章第二节)。

第二,MIRT往往被称为全息项目因素分析(Full-Information Item Factor Analysis,FIIFA),因为MIRT直接充分利用了项目得分原始数据的所有信息;而FA(含EFA和CFA)不是基于项目得分原始数据的直接分析,仅是从项目得分原始数据中提取出项目得分间的方差-协方差矩阵或相关矩阵并对之进行分析,在这种数据提取的过程中流失了原始得分的很多信息,因此FA不属全息项目因素分析。

第三,MIRT模型中的区分度参数和难度参数与FA(含EFA和CFA)的因素负荷存在数学函数转换关系(Lord & Novick,1968;Takane & de Leeuw,1987)。因此,可以根据MIRT模型项目参数计算出FA的因素负荷;反之,我们无法根据FA的因素负荷反推出MIRT的区分度参数和难度参数。

第四,MIRT可以估计出每个被试的潜在多维能力值,从而实现对被试潜在特质的评价;而FA无法估计出每个被试的潜在多维能力值。

三、MCAT的产生

在过去的几十年中,CAT取得了巨大发展。与纸笔测验相比,CAT在测量精度、测验效率、测验耗时、测验工具标准化、测试时间等方面具有许多不可替代的优势。但传统CAT一般都建立在单维能力IRT基础上,对于多维能力的测量缺少更为有效的方法。

随着多维项目反应理论发展,人们觉得有必要在传统CAT的基础上进一步发展多维自适应测验(MAT,MCAT),这方面早期较有代表性的研究人物有Bloxom和Vale(1987),Tam(1992)和Segall(1996)。由于MCAT兼顾MIRT和CAT的双重优点,因此具有更为广泛的应用和发展前景。

MCAT与传统单维CAT(UCAT)一样,都涉及题库建设、初选题选取、选题策略、参数估计、终止策略等核心环节。但与UCAT相比,MCAT由于能力的多维性,在选题策略、参数估计等方面显然更为复杂。为了让读者更好地了解MCAT及其一些相关环节,本章重点介绍当前MCAT中常用IRT模型、参数估计算法以及自适应选题策略等。