- 问题生成的合成上下文生成
通过使用大规模语言模型生成的合成上下文进行训练,研究表明,虚拟上下文在问句生成中具有类似实际上下文的效果,为未来该领域的进一步发展铺平了道路。
- 利用 NLP 技术自动生成阿拉伯语科学测试的问题
这项研究提出了一个创新的阿拉伯语问题生成系统,通过关键词和关键短语提取、问题生成和后续排名的三个阶段来解决自动生成阿拉伯语评估问题所面临的困难。提出的方法和结果表明精确度为 83.50%,召回率为 78.68%,F1 得分为 80.95%, - QGEval:一个用于问题生成评估的基准
我们提出了一个名为 QGEval 的多维度评估标准,用于对生成的问题和现有的自动评估方法进行评估,涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析,我们发现大多数问题生成模型在可回答性 - 长跨度问答:通过并行评估自动生成问题和问答系统排序
通过使用大型语言模型的长期上下文能力,我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程,包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较,并使用 Bradley-Terry 模型进行排名,与绝 - CAUS:基于人类认知的问题生成数据集,利用大型语言模型
我们介绍了 CAUS(Curious About Uncertain Scene)数据集,旨在使 GPT-4 这种大型语言模型能够模拟人类认知过程来解决不确定性。利用该数据集,我们研究了 LLM 在有效进行提问方面的潜力。我们的方法是提供具 - 探究 GPT-4 中温度在多样化问题生成中的作用
我们对 GPT4 的温度参数对 GPT4 生成的问题的多样性进行了初步研究,发现使用较高的温度值可以显著提高多样性,不同温度暴露出不同类型的问题集相似性,同时我们还证明生成多样的问题对于针对布鲁姆分类法较低层次的问题尤其具有挑战性。
- 知识驱动对话中的问题生成:可解释性和评估
在知识驱动的对话背景下,我们探讨问题生成的可解释性和评估。通过在规划为基础的摘要生成工作的启发下,我们提出了一个模型,该模型先顺序预测一个事实,然后再预测一个问题,与仅生成问题的标准模型相比,虽然推理要求更高,但我们的方法在相关性、事实性和 - ACL生成文档级事件论点提取的非语境化和语境化问题
本文提出了多种问题生成策略,用于文档级事件论证提取。这些策略不需要人工参与,生成的问题既有非上下文化的问题,也有基于感兴趣事件和文档的上下文化问题。实验结果表明,将非上下文和上下文问题相结合是有益的,特别是当事件触发器和论证出现在不同的句子 - 关于故事理解中可控问答生成的少样本提示
基于儿童故事文本,本研究提出了一种少样本提示策略来控制生成问题 - 回答对,并通过实证评估表明,与参考模型相比,该策略在语义接近度评估以及问题 - 回答对的多样性和连贯性等场景中有效地将生成过程控制在一定范围内。
- STaR-GATE:教导语言模型发问澄清问题
一种名为 STaR-GATE 的简单方法,通过奖励语言模型生成有用问题,使其能够自我改进,进而得到个性化响应,结果显示教授语言模型提出更好的问题能够提高个性化响应的质量。
- 基于参考的度量方法在问题生成中的自否定
该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成(QG)时发现,使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法,通过利用大型语言模型来评估问题的自然性 - 教师如何利用大型语言模型和布鲁姆纳姆的分类法创建教育测验
应用基于大型语言模型的问题生成方法,考虑教学需求,通过实验验证教师对自动生成问题的喜好,结果显示教师更愿意使用自动生成的问题写测验,并且这样的测验在质量上不亚于手写版本,甚至可以提高测验质量,显示了课堂环境中大规模使用问题生成的潜力。
- 探索使用 Transformers 进行问题生成的答案信息方法
已进行了许多关于问题生成的研究,应用了不同的方法来提供目标答案作为输入。本研究使用三种不同的方法及其组合来整合答案信息,并探索其对多种自动评估指标的影响。我们观察到仅使用回答提示而不使用其他附加模式在 Rouge 和 Meteor 评分上获 - 利用基于提示的技术来生成学校级问题的大型语言模型的力量
利用基于提示的技术生成描述性和推理性问题是一个具有挑战性和耗时的任务。本研究提出了一种新方法,利用基于提示的技术生成描述性和推理性问题。我们通过精选的 NCERT 教科书的丰富内容,创建了一个名为 EduProbe 的新的问题生成数据集。我 - 基于 Prompt-Engineering 和 Transformer 的问题生成和评估
该研究旨在通过变压器模型和提示工程找到从文本数据中生成问题的最佳方法。通过对 SQuAD 问答数据集上的预训练 distilBERT 模型的微调以生成问题,并应用 LLaMA 模型以有效地生成问题,将生成的问题与 SQuAD 数据集中的基准 - EMNLP故事书的多样化强化叙事问题生成
该研究使用多问题生成模型 (mQG) 从给定的上下文生成多样且可回答的问题,并通过 SQuAD2.0 fine-tuned 模型验证问题的可回答性,该模型在 FairytaleQA 数据集上训练和评估,并在 TellMeWhy 和 SQuA - EMNLPQUDEVAL: 问题讨论话语解析的评估
在本文中,我们介绍了第一个自动评估 QUD 解析的框架,将 QUD 的理论约束转化为具体的协议。我们提出了 QUDeval,一个细粒度评估的 QUD 问题数据集,其中包含来自经过微调的系统和 LLMs 生成的 2,190 个 QUD 问题。 - EMNLP通过检索增强的风格转移多样化问题生成
提出了一种基于检索增强风格转换的框架 RAST,用于利用多样化模板的风格进行问题生成,通过结合多样性奖励和一致性奖励的强化学习方法,得到比以往以多样性为驱动的基线系统表现更好的结果。
- EMNLP多层次内容规划改进问题生成
提出了一个基于多层次内容规划的新型问句生成框架 MultiFactor,通过同时选择关键短语和生成完整答案进行问句生成,引入了完整答案生成来连接短答案和选定的关键短语,从而形成帮助问句生成的答案感知摘要。代码可在此链接中获取。
- EMNLP通过可微分的遮蔽 - 重构模型进行无监督候选答案提取
通过 Differentiable Masker-Reconstructor (DMR) 模型从上下文段落中抽取候选答案,提出了一种新的无监督候选答案抽取方法,通过自一致性的强制性来捕捉显著信息标记,证明该方法在无监督方法中具有卓越的性能,