模型不确定性能否作为多项选择题难度的代理？

Jul, 2024

模型不确定性能否作为多项选择题难度的代理？

Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty?

Leonidas Zotos, Hedderik van Rijn, Malvina Nissim

TL;DR通过利用生成型大模型的不确定性来研究与学生答题分布之间的两种不同不确定性度量指标的相关性，我们观察到某些目前存在但较弱的相关性，同时发现在正确与错误答案情况下模型的行为存在差异，并且相关性在不同的问题类型之间存在显著差异。

Abstract

Estimating the difficulty of multiple-choice questions would be great help for educators who must spend substantial time creating and piloting stimuli for their tests, and for learners who want to practice. Supervised approaches to →

difficulty estimation multiple-choice questions generative large models correlations model uncertainty

发现论文，激发创造

基于 PLM 的替代模型在 IRT 评估中控制填空测试题目的难度

我们提出了一个使用预训练语言模型作为代理模型进行项目反应理论评估的框架，通过使用排名规则控制缺失项和干扰项的难度水平，有效地控制和评估多选填空测试的难度水平。

Mar, 2024

从确定到不确定的回答：针对视频问答的不确定性感知课程学习

通过在课程学习（CL）框架中逐步训练模型，将 VideoQA 引入其中，并通过不同类型的不确定性引导困难度的动态调整，本论文提出了增强模型泛化能力的可能性，并通过综合实验验证了该方法的有效性。

Jan, 2024

表征代理校准及消除标注员和数据偏差的不确定性来源

本文提出了一种简单的 Monte Carlo Dropout 算法，可以显式地量化神经网络输出的不确定性，利用此种不确定性可以解释模型复杂现象、如情感识别，此外也可以用于辨别主观标记样本和数据偏差的问题。

Sep, 2019

通过基于代理的不确定性估计来改进语言模型的指令遵循

我们提出了一种新颖的具有不确定性感知的奖励模型（URM），通过贝叶斯近似法对配对响应的质量进行稳健的不确定性估计，从而解决了评估语言模型中指令响应质量的问题。实验结果表明，将提出的代理方法纳入语言模型训练对指令遵循能力有显著提升，通过改进数据整理和优化策略，使其在诸如 Vicuna 和 MT-bench 等基准上大幅超越现有方法。这些发现突出了我们提出的方法在语言模型训练方面的重大进展，并为利用语言模型中的不确定性开拓了新的途径。

May, 2024

重新审视不确定性估计的评估及其在探索模型复杂度 - 不确定性平衡中的应用

本研究针对神经网络预测的不确定性准确度进行研究，提出了针对不同使用场景下的新度量标准，探讨了模型复杂度与不确定度准确度之间的权衡关系，并通过实验验证了新度量标准的有效性和一些有趣的趋势。

Mar, 2019

语言模型对多项选择任务的预测在评分方法变化下不稳定

该研究系统比较了多个选择题语言模型的不同预测方法，包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现，语言模型的预测结果在方法选择的变化下不具有稳健性，无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度，了解这种变异性对于确保结果的稳健性和研究诚信至关重要。

Mar, 2024

认知诊断模型的统一不确定性估计

我们提出了一个统一的不确定性估计方法，适用于广泛的认知诊断模型，并针对参数在不同领域定义的情况修改了参数重参数化方法，同时将诊断参数的不确定性分解为数据方面和模型方面，以更好地解释不确定性的来源。大量实验表明，我们的方法是有效的，并且能够对认知诊断的不确定性提供有用的见解。

Mar, 2024

UnibucLLM: 利用语言模型自动预测多项选择题的难度和回答时间

本研究通过大型语言模型（LLM）的数据增强方法，预测 BEA 2024 共享任务中退休的 USMLE 多项选择题（MCQs）的题目难度和答题时间。我们的方法是通过从零样本 LLM（Falcon，Meditron，Mistral）中添加答案来增强数据集，并使用基于六种不同特征组合的变压器模型。结果表明，预测问题的难度更具挑战性。值得注意的是，我们表现最佳的方法始终包括问题文本，并受益于 LLM 答案的多样性，突显了 LLM 在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。

Apr, 2024

估算和解释分类器不确定性的元启发式方法

针对机器学习模型影响采纳的关键因素之一 —— 信任，本研究提出了一组特征量，可以表征一个实例的复杂程度，并借助元学习框架评估误分类的风险。该框架在提高模型开发的复杂性方面具有潜在的应用前景，同时提供新的模型自我阻抗和解释手段。

Apr, 2023

众包的难度控制：一种用于异构项目的贝叶斯评分模型

在应用统计学和机器学习领域，我们介绍了一种通用的测量误差模型，通过对困难度、区分度和猜测度添加项目级效应，用于推断共识类别，并通过后验预测检验验证了模型的拟合优度，该模型调整了项目异质性。

May, 2024