简单变得更难:LLMs 在简化语料库上表现出一致的行为吗?
本文探讨了一种新的持续性的预训练策略,通过把 BART 模型继续预训练来生成简单的文本,从而提高简化任务的表现,同时与其他大型语言模型进行了比较。
May, 2023
本文提出了一种基于任务依赖的透明的文本简化流水线,第一步和第二步分别是文本是否需要简化的预测和复杂部分的识别,这两个任务可以通过词汇或深度学习方法分别解决,同时解决会提高最先进黑箱简化模型的外样本文本简化表现。
Jul, 2020
最近,关于利用大型语言模型 (LLM) 自动生成儿童教育材料的概念变得越来越现实。本研究先考察了几种流行的 LLM 的能力,以生成词汇和可读性适合儿童的故事。然后,通过开发一个基于儿童故事领域的数据集,研究了最先进的词汇简化模型在儿童故事材料上的适用性,并通过适当的微调使其性能得以提升。
Oct, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
May, 2023
通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力,进一步深入了解大型语言模型的性能,同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说,普遍生成较少错误的简化输出,但在词汇转述方面仍然存在限制。此外,我们对广泛使用的自动评估指标进行了元评估,发现这些指标在评估 GPT-4 的高质量简化整体能力上缺乏足够的敏感性。
Mar, 2024
系统性综述(SR)是软件工程(SE)中一种常见的研究方法。本研究旨在调查大型语言模型(LLMs)是否能通过简化摘要来加速标题 - 摘要筛选,并自动化标题 - 摘要筛选。研究结果表明,使用 LLMs 进行文本简化在筛选过程中并未显著提高人类的表现,但减少了筛选所需的时间。虽然当前的 LLMs 在筛选任务中并不比人类筛选者更准确,但使用 LLMs 自动化标题 - 摘要筛选似乎是有前景的。需要进一步的研究才能推荐在 SR 筛选过程中使用 LLMs。建议未来的 SR 研究发布包含筛选数据的复制包,以便进行更有说服力的 LLM 筛选实验。
Apr, 2024