模型不确定性能否作为多项选择题难度的代理?
我们提出了一个使用预训练语言模型作为代理模型进行项目反应理论评估的框架,通过使用排名规则控制缺失项和干扰项的难度水平,有效地控制和评估多选填空测试的难度水平。
Mar, 2024
通过在课程学习(CL)框架中逐步训练模型,将 VideoQA 引入其中,并通过不同类型的不确定性引导困难度的动态调整,本论文提出了增强模型泛化能力的可能性,并通过综合实验验证了该方法的有效性。
Jan, 2024
本文提出了一种简单的 Monte Carlo Dropout 算法,可以显式地量化神经网络输出的不确定性,利用此种不确定性可以解释模型复杂现象、如情感识别,此外也可以用于辨别主观标记样本和数据偏差的问题。
Sep, 2019
我们提出了一种新颖的具有不确定性感知的奖励模型(URM),通过贝叶斯近似法对配对响应的质量进行稳健的不确定性估计,从而解决了评估语言模型中指令响应质量的问题。实验结果表明,将提出的代理方法纳入语言模型训练对指令遵循能力有显著提升,通过改进数据整理和优化策略,使其在诸如 Vicuna 和 MT-bench 等基准上大幅超越现有方法。这些发现突出了我们提出的方法在语言模型训练方面的重大进展,并为利用语言模型中的不确定性开拓了新的途径。
May, 2024
本研究针对神经网络预测的不确定性准确度进行研究,提出了针对不同使用场景下的新度量标准,探讨了模型复杂度与不确定度准确度之间的权衡关系,并通过实验验证了新度量标准的有效性和一些有趣的趋势。
Mar, 2019
该研究系统比较了多个选择题语言模型的不同预测方法,包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现,语言模型的预测结果在方法选择的变化下不具有稳健性,无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度,了解这种变异性对于确保结果的稳健性和研究诚信至关重要。
Mar, 2024
我们提出了一个统一的不确定性估计方法,适用于广泛的认知诊断模型,并针对参数在不同领域定义的情况修改了参数重参数化方法,同时将诊断参数的不确定性分解为数据方面和模型方面,以更好地解释不确定性的来源。大量实验表明,我们的方法是有效的,并且能够对认知诊断的不确定性提供有用的见解。
Mar, 2024
本研究通过大型语言模型(LLM)的数据增强方法,预测 BEA 2024 共享任务中退休的 USMLE 多项选择题(MCQs)的题目难度和答题时间。我们的方法是通过从零样本 LLM(Falcon,Meditron,Mistral)中添加答案来增强数据集,并使用基于六种不同特征组合的变压器模型。结果表明,预测问题的难度更具挑战性。值得注意的是,我们表现最佳的方法始终包括问题文本,并受益于 LLM 答案的多样性,突显了 LLM 在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。
Apr, 2024
针对机器学习模型影响采纳的关键因素之一 —— 信任,本研究提出了一组特征量,可以表征一个实例的复杂程度,并借助元学习框架评估误分类的风险。该框架在提高模型开发的复杂性方面具有潜在的应用前景,同时提供新的模型自我阻抗和解释手段。
Apr, 2023
在应用统计学和机器学习领域,我们介绍了一种通用的测量误差模型,通过对困难度、区分度和猜测度添加项目级效应,用于推断共识类别,并通过后验预测检验验证了模型的拟合优度,该模型调整了项目异质性。
May, 2024