在心理与教育测评中缺失数据是广泛存在的。
Enders指出,在教育和心理学研究中缺失率通常为15%至20%。
国际的大型测试PISA和TIMSS中都存在着缺失数据,认知诊断作为心理与教育测验中重要一员,自然也不例外。
认知诊断需要对学生认知结构进行诊断,在诊断基础上进行个性化补救。这使得,认知诊断当中每一题包含的信息都是重要的。
在现有的认知诊断测验中,遇到学生未作答时,通常会认为该生未掌握相关属性。
但具体说来,假设在选择题出现未作答时也有学生粗心漏做的可能,这类题目也是认知诊断测验中常见题型。
其他题型也会由于外部因素、个人因素、时间因素等产生了未作答的情况。
正是由于这些原因,不能简单将未作答记为0分。既然不能记录0为分,认知诊断的数据集中也就产生了数据缺失的情况。
在心理与教育测评中,常用的缺失值处理方法,如EM、EI等等。其前提假设缺失数据类型为随机缺失,而在认知诊断中,缺失数据产生的原因很多。
最重要的是,对于认知诊断而言,需要为学生提供个性化的诊断,不能像传统缺失数据处理一样,利用群体数值对数据进行填补。
关于认知诊断缺失数据处理的填补研究较少,也还没有提出专门针对认知诊断缺失数据的填补方法,也没用研究证明传统的填补方法是否可以直接应用于认知诊断中。
因此,可以认为认知诊断当前还没用被广泛认可的填补策略。
目前已有的认知诊断方法,不管是参数还是非参数诊断法,都是默认对完整数据进行诊断的。
在机器学习算法当中,有一类算法可以容忍缺失值的存在。
研究希望将这类机器学习算法引入认知诊断中,将其发展成一种,不依赖插补、对缺失值有容忍,且具有较高判准率的认知诊断法。
通过模拟研究和实证研究相结合的方式,验证其有效性。
结果
研究认为认知诊断在面对学生未作答时,默认该学生未掌握全部属性是不合理的,这样一来认知诊断也需要面对缺失数据的问题。
通过文献综述发现,现有的认知诊断法,不能对未处理缺失数据的数据集进行诊断。
而认知诊断当前还没有专门的缺失数据处理方法,已存在的缺失值填补策略因有严格的假设,还未有研究证实可以直接使用在认知诊断中。
因此,研究希望构建一个可以容忍缺失数据的认知诊断法。通过理论研究和文献研究,我们最终选择XGBoost算法。
这种算法本身对缺失值的处理策略可以不对具体值进行填补,研究迁移了该算法,构建了一种可容忍缺失数据的机器学习诊断法。
并在判准率和缺失数据集判准率上均取得了良好的效果,促进认知诊断理论的发展,为未来更为广泛的应用奠定基础。
研究的主要结果如下:
(1)与其他认知诊断法比较。
通过与已有认知诊断法的比较发现,与另外两种具有代表性的诊断法相比,XGBoost诊断法在项目数量低时整体表现最佳。
通过进一步的细致分析发现,其在项目数量低且滑动概率高时,相较于其他方法的优势更为明显。
这具有一定的应用价值,当所测学生水平不一、具有较高失误和猜测率时,使用XGBoost作为诊断方法,可能会得到更好的结果。
(2)XGBoost对缺失数据的容忍性。
XGBoost可以在不对缺失值进行填补的情况下得出判定结果,且能保证较高的判准率,特别时低缺失比例下几乎与无缺失状态下的判准率一致。
另外,根据实证研究的结果也可以看出,XGBoost诊断法在实证中也具有比较出色的分类一致性。
而其他诊断方法,如果不对缺失值进行填补,则无法得到判准结果。这一特点,使得XGBoost诊断法具有很高的应用价值,也是研究最大的价值之一。
(3)XGBoost诊断法具有较高的信效度。
通过AB卷、学生期末成绩、教师对学生知识类型的判定等指标对XGBoost诊断法的信效度进行研究,证明了XGBoost诊断法具有良好的信效度。
讨论
从研究结果上来看,XGBoost诊断法对缺失数据有容忍且兼顾了高判准率,基本完成了研究目标,以下对研究结果进行进一步的讨论与展望。
(1)XGBoost诊断法的优点明显,只要在认知诊断测验中存在缺失数据,就可以使用该算法并得到不错的判准结果。
在不存在缺失缺失数据时,题目数量较少或滑动概率较高的情景下,XGBoost也是不错的选择之一。
(2)但是作为机器学习诊断法的一种,其特点决定了它的两面性。
XGBoost诊断法与其他机器学习类算法一样,要依靠数据进行模型的训练。
优点是只要有大量的可靠数据的支持,该方法就能获得非常高的准确度;缺点是不进行训练,就无法进行诊断。
模型训练决定了它的潜力,而不能直接对作答进行判准成为它的短板。
因此我们可以说,虽然包括XGBoost在内的各类机器学习诊断法都拥有不错的判准率。
但实际应用当中,机器学习方法未必就比传统的认知诊断方法更好。
在没有训练条件时,则只能使用MDD这类不需要数据支持的、传统的、基于距离的诊断法。
当然,在大数据时代,数据的收集和储存技术的日渐成熟,模型训练并不是难事。
相信就和人脸识别等技术一样,随着认知诊断理论的不断成熟和被认可,有更多的教师和教育测量学家愿意去收集数据为机器学习诊断提供基础支持。
一旦获得大数据的支持,机器学习诊断法的优势将会更加突出。
(3)对XGBoost诊断法在用0值作为缺失值处理方法时判准率较低的讨论。
认知诊断测验与传统测验不同,其目的是诊断学生的认知结构。用0值来填补意味着认为学生对该题目没有掌握,这对认知诊断来说并不合理。
因为产生缺失数据原因很多,例如时间原因、动机原因等。
还有的学生意识不到测验的重要性,这样的低风险性导致这些评估中未回答的数量增加,上述这些原因产生的缺失数据并不能简单认为学生不会。
因此,在缺失比例增高时,这种错误的方法对结果影响逐渐增加,遂产生了缺失比例20%时判准率的急剧下降。
(4)由于时间与能力原因,研究还有很多不足之处。
首先,在模拟研究中,研究只选取了部分影响较大的因素。认知诊断中,很多其他因素也会影响判准率(比如不同分布形态下的判准率水平等)。
其次,在选取的对比方法上,只在基于距离和机器学习诊断法中各选取了一种最具代表性的方法KNN和MDD。
在未来的研究中,可以使用更多的方法来进行对比,形成更加全面的对比研究结果,为使用者根据自身情况选取诊断方法时提供参考与依据。
再次,由于疫情等特殊原因,在实证研究的数据上,很难获得大量数据对模型进行训练。
比如在实际研究中,个别知识类型的人数较少。
在研究中,只能将理想反应模式添加在训练集中避免出现类似情况。未来的研究中,当能获得充足数据时,可以避免这样的情况发生。
另外,机器学习依赖于训练数据的质量,未来在基于机器学习的认知诊断使用过程中,如何收集高质量的训练数据,也时非常重要的课题之一。
最后,由于当前认知诊断没有被广泛认可的缺失数据处理方法,研究只选用了最常见的均值和0值的方法来进行研究。
从研究结果中可以看出,当使用0值进行填补时,XGBoost诊断法稳定性明显降低,这也说明了缺失数据处理方法的重要性。
在未来出现更好的的缺失数据填补方法时,才能更好的考验XGBoost诊断法对缺失数据的容忍性。
(5)对于认知诊断未来发展与XGBoost诊断法在其中扮演的角色的展望。
在以往认知诊断的应用研究中,更多的研究集中于学业评价。Tatsuoka等用认知诊断比较了20各国家8年级学生的数学水平。
也有研究者对更复杂的能力进行了评估,例如Lee通过认知诊断对语言知识状态进行了评估。
陈慧麟等也使用认知诊断对学生的英语阅读能力进行的评测。但随着认知诊断的不断发展,其应用已不局限于学业评价。
Tempin等将认知诊断应用于心理障碍的诊断中。国内研究者也有这方面的尝试,吴方文等,将认知诊断应用于对抑郁症的评估当中。
还有研究者使用认知诊断在对网络成瘾的评估中进行应用(。
此外,有研究者将认知诊断与“以证据为中心”的游戏设计方法融合,认为此方法具有显著优势。