基于混合整数规划的约束 C - 测试生成

Apr, 2024

基于混合整数规划的约束 C - 测试生成

Constrained C-Test Generation via Mixed-Integer Programming

Ji-Ung Lee, Marc E. Pfetsch, Iryna Gurevych

TL;DR该研究论文提出了一种新的方法来生成 C-Tests，它是一种 cloze 测试的变体，在这里只有单词的最后一部分变成了间隙。与以往只考虑变化间隙大小或间隙位置以获得局部最优解的方法相比，我们提出了一种混合整数规划（MIP）方法。这使我们能够同时考虑间隙大小和位置，实现全局最优解，并直接将最先进的间隙难度预测模型集成到优化问题中。通过与四种 C-Test 生成策略（包括 GPT-4）的 40 名参与者的用户研究，我们发现我们的方法（MIP）明显优于两种基准策略（基于间隙位置和 GPT-4），并且与第三种策略（基于间隙大小）表现相当。我们的分析表明，GPT-4 在生成过程中仍然难以满足显式约束条件，而 MIP 生成的 C-Tests 与所感知的困难程度最相关。我们在开源许可下发布了我们的代码、模型和收集的数据，其中包括 32 个英语 C-Tests，每个测试包含 20 个间隙（总共 3200 个单独的间隙响应）。

Abstract

This work proposes a novel method to generate c-tests; a deviated form of cloze tests (a gap filling exercise) where only the last part of

c-tests deviated form gap filling exercise mixed-integer programming perceived difficulty

发现论文，激发创造

C-Tests Schwierigkeit Manipulation

提出自适应学习自我测试和语言测评的两种新型 C-Tests 难度自动化变异策略，通过基于绝对和相对缺失难度的判断进行填空数量和分布的调整，经过基于语料库和用户实验的验证，发现这两种策略能够生成目标难度级别的 C-Tests。

Jun, 2019

使用 GPT-turbo 3.5 自动生成英语词汇多选填空问题

使用大型语言模型自动生成填空题，并评估其有效性和适用性，通过生成适当的句子和选择合适的答案，以提高学生的词汇掌握水平。

Mar, 2024

基于 PLM 的替代模型在 IRT 评估中控制填空测试题目的难度

我们提出了一个使用预训练语言模型作为代理模型进行项目反应理论评估的框架，通过使用排名规则控制缺失项和干扰项的难度水平，有效地控制和评估多选填空测试的难度水平。

Mar, 2024

利用对比学习学习混合整数规划问题的后门

利用蒙特卡洛树搜索方法收集训练数据，通过对比学习框架训练图注意力网络模型来预测 Mixed Integer Programs 中的 MIP backdoors，相比 Gurobi 和之前的模型，在四个常见的 MIP 问题领域中展现了性能的提升。

Jan, 2024

约束优先：一个基于 MDD 的生成句子模型

该论文介绍了一种生成强约束文本的新方法，将标准化句子生成应用于视力筛查，采用多值决策图 (MDD) 处理约束条件，并利用语言模型 (GPT-2) 获取最佳句子，该方法在标准化句子生成领域取得了重大突破。

Sep, 2023

基于解预测加速混合整数规划原始解求解

本文提出了基于三分图的方法表示 MIP 问题，该问题可以通过图卷积网络结合机器学习方法来预测二进制变量的解，以生成一种局部分支类型切割，从而提高求解 MIP 问题的性能。

Jun, 2019

大型语言模型 (GPT) 困难回答关于代码的多选题

作者分析了三种不同的 GPT 模型（生成式预训练转换模型）在回答包括程序代码片段的多选题方面的有效性，发现包含代码片段的题目更加困难，这个发现可以帮助编程教育工作者适应他们的教学方法和评估，为学习者提供有意义的辅助。

Mar, 2023

ChatGPT 自然语言处理在数学问题上的独立评估

本文针对商用大型语言模型 ChatGPT 在数学问题（Math Word Problems，MWP）中的性能表现进行了研究，并首次发现，ChatGPT 的性能表现会因要求展示解题过程而出现明显差异，而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率，其中特别注意到加减法操作次数与失败率呈线性关系，同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集，用于支持更多的研究。

Feb, 2023

利用 Transformers 的生成和判别能力构建开放式填空测试

本论文提出了第一个多目标变压器模型，用于构建完形填空测试，利用生成和辨别能力来提高性能，实验表明，我们的方法在自动和人工评估中可以达到 82％的准确性，超过了之前的方法和基线。

Apr, 2022

CDGP: 基于预训练语言模型的自动填空干扰项生成

本文通过探索预训练语言模型（PLMs）的应用作为备选项干扰项生成的替代方案，研究了填空干扰项的自动生成。实验证明，PLM 增强模型显著提高了性能，最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此链接中找到。

Mar, 2024