- 基于多任务学习和项目反应理论的语法多样性和错误自动评分
本研究探讨了语法特征对自动作文评分的影响,结果表明语法特征可以提高预测作文整体分数的自动评分模型的性能,同时,多任务学习与语法分数结合使用语法特征也能进一步提高模型性能。利用项目反应理论评估语法能力作为辅助任务的模型表现与人工评分的语法分数 - ICML使用任务特定的考试生成自动评估检索增强的语言模型
我们提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择 RAG 系统的最佳组件的策略。我们 - 语义缩放:使用大型语言模型的贝叶斯理想点估计
本文介绍了一种名为 “语义缩放” 的新方法,用于从文本中进行理想点估计。利用大规模语言模型根据表达的立场对文档进行分类,并提取类似调查的数据。然后使用项目反应理论对这些数据进行尺度化处理。语义缩放显著改进了现有的基于文本的尺度化方法,并允许 - 基于 PLM 的替代模型在 IRT 评估中控制填空测试题目的难度
我们提出了一个使用预训练语言模型作为代理模型进行项目反应理论评估的框架,通过使用排名规则控制缺失项和干扰项的难度水平,有效地控制和评估多选填空测试的难度水平。
- 可扩展的项目反应理论模型学习
Item Response Theory (IRT) models leverage coresets for scalable learning of latent abilities and difficulty characteris - HITSnDIFFs:通过恢复具有连续约束性质的矩阵,从真值发现到能力发现
分析了一个众包设置中的一般问题,即一个用户提问并由其他用户提供答案,不同于现有的众包工作侧重于找到问题的最合适的答案(“真实性”),我们的问题是根据用户回答问题的能力确定用户的排名。通过使用项目反应理论(IRT)对项目及其答案进行合理的建模 - 用难度条件生成器训练强化学习代理与人类
我们使用参数环境响应模型(PERM)来训练强化学习代理和人类学习者,在模型中直接建模难度和能力,并且将环境的难度和个体的能力进行对齐,创建了基于最近发展区域的课程。PERM 能够在不进行实时强化学习更新且能够进行离线训练的情况下适应各种学生 - 基于自适应语言的心理健康评估和项目反应理论
通过有限的语言回答问题进行迭代估计个体心理得分的自适应语言评估方法(ALIRT)可显著降低问题数量,同时不影响准确性和计算成本。
- MM项目反应理论的摊还设计优化
通过在 Item Response Theory 中引入 amortised experimental design 和 Deep Reinforcement Learning 方法,能够高效地提取学生能力和测试题目特征,以及在实时中考虑实 - 捕获人类对人工智能的心理模型:一种项目反应理论方法
本研究提出了一种基于项目反应理论的框架来模拟人们对人工智能队友的感知,并使用实验数据测试研究问题,结果表明人们对人工智能代理的性能期望显著高于其他人,并具有更小的问题类型差异。
- AAAI基于自编码稀疏贝叶斯的 IRT 因子分解、校准和摊销推理在工作伤残功能评估电池中的应用
使用贝叶斯分层模型和变分推理的方法,自洽地实现了多维项目反应模型的尺度因子化、项目选择、参数辨识和响应评分,并以使用 Work Disability Functional Assessment Battery 项目反应数据为例,证明了该方法 - 基于项目反应理论的举例解释
本研究使用 IRT 作为一种解释模型和衡量 Explanation-by-Example 方法的可靠性的工具,发现在测试集中,83.8%的错误是通过 IRT 界定该模型不可靠。
- 论说服的一维响应理论框架
利用 IRT 模型和三个数据集,包括一个新颖的政治倡导数据集,对语言中的争论说服力进行了分析,通过多种风格和内容表示法表现出分离这些组件的优势,包括评估模型生成的演讲者嵌入与现实世界关于可说服性的观察的相似性。
- ACL利用项目反应理论比较测试数据集
本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验,结果显示 Quoref,HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 N - ECCV基于能力意识的视觉概念学习问答课程
通过代表难度和模型能力的 mIRT 模型,设计了一个基于问题回答学习的适应课程,应用于视觉概念学习,实验结果表明这种方法可以实现卓越的数据效率和收敛速度,仅使用 40% 的训练数据,与其他最先进的方法相比,收敛速度提高了三倍。
- R2DE: 一种 NLP 方法对新生成的问题进行 IRT 参数估计
研究介绍了一种名为 R2DE 的新模型,它可以自动生成适合考试的选择题并快速评估其难度和区分度,从而减轻考试生成过程中的一些问题。
- EMNLP无需人类响应模式的学习潜在参数:人工群体的项目反应理论
本文提出了在深度神经网络产生的人工群众中使用生成的反应模式 (RP) 来学习 IRT 模型,并证明了这种方法在两个 NLP 任务中通过定量和定性分析学习 IRT 模型的有效性。通过训练集过滤中使用隐含的难度项参数的用例,以及人类预期和机器 - Deep-IRT:利用项目反应理论使基于深度学习的知识追踪解释性更强
本论文提出了 Deep-IRT,它是一种基于深度神经网络框架的动态键值记忆网络 (DKVMN) 和项目反应理论 (IRT) 模型的综合,可用于使基于深度学习的知识追踪能够得到解释性。实验证明,Deep-IRT 模型保留了 DKVMN 模型的 - EMNLP利用项目反应理论构建评估量表
本文提出一种基于心理度量学中的项目反应理论(IRT)的替代手段,用于生成金标准测试集和 NLP 系统的评估,通过实验证明 IRT 方法能提供更为全面的系统性能评估,并能更好地说明系统性能。
- 应用于计算机自适应测验的非线性顺序设计的 Logistic 项目反应理论模型
本文研究了计算机自适应测试中的序贯设计问题和物品反应理论模型中最大信息法对能力估计值的影响,提出了针对二维和三维模型的改进措施,并且通过例子证明了未经修改的最大似然估计可能不一致。