简单变得更难：LLMs 在简化语料库上表现出一致的行为吗？

COLINGApr, 2024

简单变得更难：LLMs 在简化语料库上表现出一致的行为吗？

Simpler becomes Harder: Do LLMs Exhibit a Coherent Behavior on Simplified Corpora?

Miriam Anschütz, Edoardo Mosca, Georg Groh

TL;DR简化文本以提高阅读能力，保留原始内容和意义。通过比较预训练分类器在原始和简化输入上的预测，研究发现所有语言和模型之间存在令人担忧的不一致性，简化输入很容易被利用来进行零迭代、与模型无关的对抗攻击，成功率可达 50%。

Abstract

text simplification seeks to improve readability while retaining the original content and meaning. Our study investigates whether pre-trained classifiers also maintain such →

text simplification pre-trained classifiers coherence correlation adversarial attacks

发现论文，激发创造

教授预训练模型生成简单文本以进行文本简化

本文探讨了一种新的持续性的预训练策略，通过把 BART 模型继续预训练来生成简单的文本，从而提高简化任务的表现，同时与其他大型语言模型进行了比较。

May, 2023

基于大型语言模型的句子简化

本文使用零 / 少量数据训练的大型语言模型在众多基准测试集上进行了实验分析，结果表明 LLMs 优于最先进的句子简化方法，并被评为与人类标注者一致。

Feb, 2023

可解释的文本复杂度预测：文本简化的缺失前提

本文提出了一种基于任务依赖的透明的文本简化流水线，第一步和第二步分别是文本是否需要简化的预测和复杂部分的识别，这两个任务可以通过词汇或深度学习方法分别解决，同时解决会提高最先进黑箱简化模型的外样本文本简化表现。

Jul, 2020

关于儿童故事的自动生成与简化

最近，关于利用大型语言模型 (LLM) 自动生成儿童教育材料的概念变得越来越现实。本研究先考察了几种流行的 LLM 的能力，以生成词汇和可读性适合儿童的故事。然后，通过开发一个基于儿童故事领域的数据集，研究了最先进的词汇简化模型在儿童故事材料上的适用性，并通过适当的微调使其性能得以提升。

Oct, 2023

关于 LLMs 的隐含风险评估：关于鲁棒性，一致性和可信度的实证研究

本研究使用自动化工作流程，对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询，得出了 LLM 在稳健性、一致性和可信度方面存在的问题，提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。

May, 2023

面向德语文本简化的语言模型：通过风格特定的预训练克服平行数据稀缺问题

本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法，结果表明，在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量，同时提高下游任务的性能。

May, 2023

基于自然语言的增强式偏好学习

使用大型语言模型（LLM）进行比较文本分类任务，不需微调，性能优于现有方法，特别是在较长的文本中。零样本学习的性能不如少样本学习。

Oct, 2023

基于错误人工评估的 GPT-4 在句子简化中的深入评估

通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力，进一步深入了解大型语言模型的性能，同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说，普遍生成较少错误的简化输出，但在词汇转述方面仍然存在限制。此外，我们对广泛使用的自动评估指标进行了元评估，发现这些指标在评估 GPT-4 的高质量简化整体能力上缺乏足够的敏感性。

Mar, 2024

医疗文本的段落级简化

本研究探讨了如何应用语言模型来改进医学文本的简化，提出了一种基于似然分数的新度量标准，并对编码器解码器模型的新方法进行了评估，同时建立了一些语料库。

Apr, 2021

利用 LLMs 加速系统评价筛选过程的承诺与挑战

系统性综述（SR）是软件工程（SE）中一种常见的研究方法。本研究旨在调查大型语言模型（LLMs）是否能通过简化摘要来加速标题 - 摘要筛选，并自动化标题 - 摘要筛选。研究结果表明，使用 LLMs 进行文本简化在筛选过程中并未显著提高人类的表现，但减少了筛选所需的时间。虽然当前的 LLMs 在筛选任务中并不比人类筛选者更准确，但使用 LLMs 自动化标题 - 摘要筛选似乎是有前景的。需要进一步的研究才能推荐在 SR 筛选过程中使用 LLMs。建议未来的 SR 研究发布包含筛选数据的复制包，以便进行更有说服力的 LLM 筛选实验。

Apr, 2024