简洁性修订:一项受限的释义生成任务
本研究报道了一项新颖的训练模型,以让句子更加简洁。我们定义了这项任务,并展示它与其他相关任务(如摘要和简化)不同。通过发布两个由两个和五个人类注释者注释的测试集来进行评估。我们证明简洁性是一项难以完成的任务,而这项任务经常无法使用零 - shot 设置和大型神经语言模型。鉴于这些方法的局限性,我们提出了一种基于来回翻译的合成数据生成方法。使用这些数据,从头开始训练 Transformers 或对 T5 模型进行微调,可以得到我们最强的基线,可以通过在从多注释机器翻译测试集派生的人工简洁数据集上进行微调来进一步改进。
Nov, 2022
本文提出了句子级修订任务(SentRev)作为新的写作辅助任务,旨在帮助作者在早期修订阶段产生流利,完整的句子。为了开发和评估 SentRev 模型,我们建立了一个新的自由可用的众包评估数据集,同时还建立了该模型的基准性能。
Oct, 2019
该研究提出了一种新的句子简化任务 ——Split-and-Rephrase,在将复杂句子转换为意思相同的短句子方面有着潜在的价值。该任务可以作为自然语言处理的预处理步骤,可以帮助解析器、语义角色标注器和机器翻译系统提高性能,并对阅读障碍者有帮助。该研究提出了五种模型来应对这一任务。
Jul, 2017
本文提供了一个完整的计算框架,对科学写作中的文本修订进行了研究,通过构建一个新的带有金标准句子对齐的带注释语料库来揭示了科研人员修订论文的常见策略,并利用自动方法在文档、句子和单词级别上提取修订内容。
Oct, 2022
本文介绍了一个学生立论式作文之间的修改版本语料库,并对每个修订版本进行了评注,以评估其是否改善了论文质量,并开发了一个基于机器学习的模型来预测修订版本的改进情况,同时也展示了利用专家和非专家修订数据可提高模型性能的结果。
Sep, 2019
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024
通过文献综述和提出分类法,本研究对 25 个已知的改写(子)任务进行整理和组织。使用分类器识别给定改写实例适用的任务,发现已知改写语料库中特定任务实例的分布差异很大。这意味着在没有明确定义相应改写条件的情况下使用这些语料库会导致不可比较和误导性的结果。
Mar, 2024
该研究提出一种名为 QCPG 的控制质量的引号生成模型,该模型能够直接控制生成的引语的质量维度,并且还提供了一种方法来确定预期能够产生最优引语的质量控制空间中的点。实验表明,该模型能够生成保持原始含义的引语并且比未受控的基线具有更高的多样性。
Mar, 2022
针对提高学生论述写作水平和有效判断其修改文章的质量的问题,本研究提出了基于 Chain-of-Thought 提示的 ChatGPT 生成论点基础,用于预测其修改后的质量,并在初中和大学学生论文数据集中实验证明了其优越性。
Jun, 2023