利用大型语言模型预测编辑操作来减少序列长度

May, 2023

利用大型语言模型预测编辑操作来减少序列长度

Reducing Sequence Length by Predicting Edit Operations with Large Language Models

Masahiro Kaneko, Naoaki Okazaki

TL;DR本文提出一种通过预测编辑操作集合来实现本地序列转导任务的方法，并使用指令调整来对大型语言模型进行监督学习，实验证明该方法在常见任务中具备与基线模型相当的性能，同时可将目标文本长度缩小 21%。

Abstract

large language models (LLMs) have demonstrated remarkable performance in various tasks and gained significant attention. LLMs are also used for local sequence transduction tasks, including grammatical error correction (GEC) and formality style transfer, where most tokens in a source te

large language models local sequence transduction edit operations supervision data instruction tuning

发现论文，激发创造

Seq2Edits: 序列转录使用基于跨度的编辑操作

Seq2Edits 是一种基于开放词汇的序列编辑方法，适用于自然语言处理 (NLP) 任务，其中每个序列到序列转换表示为一系列编辑操作，用于替换源跨度或保持其不变。该方法在五个 NLP 任务上进行了评估，并在各个方面都取得了有竞争力的结果。其中在语法错误修正方面，与完整序列模型相比，该方法提高了推理速度达 5.2 倍，而推理时间取决于编辑数而不是目标标记数。

Sep, 2020

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

知识图谱增强的大型语言模型编辑

利用知识图谱提升大型语言模型的编辑能力，通过图结构反映编辑过程中的关联知识变化，有效改善后编辑语言模型在处理编辑知识时的泛化能力。

Feb, 2024

在没有主题标签的 LLM 中编辑任意命题

使用梯度追踪（GT）和一种简单快速的定位方法，本文介绍了一种新的大语言模型（LLM）编辑方法，使其能编辑任意命题而不仅仅是二元命题，并且无需主语标签，实验结果表明该方法在无主语标签的情况下也能达到接近最先进的方法的编辑性能；另外，还引入了一个新的数据集，名为 Factual Accuracy Classification Test（FACT），该数据集包含非二元命题，对于非通用主语标签的情况，显示出了我们的方法可以在 FACT 上进行编辑。

Jan, 2024

利用大型语言模型增强遗传改造突变

通过评估大型语言模型在基因改进中作为突变操作的使用，我们发现基于大型语言模型的编辑补丁与标准插入编辑相比，单元测试通过的补丁数量高出 75％，补丁的多样性较低。虽然大量改进的补丁是通过大型语言模型增强的基因改进找到的，但最佳改进补丁是通过标准的基因改进找到的。

Oct, 2023

利用编辑操作的端到端神经句子简化

通过句子级和标记级损失权重，使用自然语言处理模型对生物医学文本进行自动简化，以实现更接近人工注释者创建的简化文本的编辑距离，语言简约度和编辑数量。

Nov, 2023

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023

大规模语言模型的元学习编辑

使用 MAssive Language Model Editing Network (MALMEN) 方法，以超网络生成参数移位来校正大型语言模型中的知识误差和过时问题。该方法可同时编辑多个事实，并比特定于 GPT 的编辑器在知识密集型 NLP 任务上表现更佳。

Nov, 2023