LongLaMP：个性化长文本生成基准

Jun, 2024

LongLaMP: A Benchmark for Personalized Long-form Text Generation

Ishita Kumar, Snigdha Viswanathan, Sushrita Yerra, Alireza Salemi, Ryan A. Rossi...

TL;DR长文本生成任务中的个性化生成和评估框架研究及其实用性优化

Abstract

long-text generation is seemingly ubiquitous in real-world applications of large language models such as generating an email or writing a review. Despite the fundamental importance and prevalence of long-text generation

发现论文，激发创造

使用语料提取优化长文本生成的指令调整

使用 LongForm 数据集进行指导调整机制可以提高语言模型的泛化能力，该数据集通过 LLMs 生成一组多样的人类撰写的文档和相应的指导语句，支持长文本生成，并在文本生成、多语言指令识别等任务上表现出色。

Apr, 2023

LaMP: 大型语言模型与个性化的相遇

本文介绍了个性化对于自然语言理解和生成的重要性，并引入了 LaMP 基准测试-一种用于训练和评估用于生成个性化输出的语言模型的新基准测试。LaMP 提供了一个包含多样化语言任务和每个用户配置文件的多个条目的全面评估框架。它由七个个性化任务组成，横跨三个分类任务和四个文本生成任务。我们还提出了一种检索增强方法，该方法从用户配置文件中检索个性化项，以构造大型语言模型的个性化提示。我们的基线零-shot和微调模型结果表明，利用配置文件增强的 LM 优于不考虑配置文件信息的其同类。

Apr, 2023

教导LLM个性化——受到写作教育启发的方法

个性化文本生成是一个新兴的研究领域，通过使用大型语言模型 (LLMs)，我们提出了一种通用的个性化文本生成方法。借鉴写作教育的实践，我们开发了一个多阶段和多任务的框架来教授 LLMs 进行个性化生成。我们的方法包括检索、排名、总结、综合和生成多个阶段，并引入了一个多任务设置来进一步提高模型的生成能力。我们在三个涵盖不同代表性领域的公开数据集上评估了我们的方法，结果显示相对于各种基线模型，我们取得了显著的改进。

Aug, 2023

基于大型语言模型的个性化文本生成的自动评估

个性化文本生成采用了一种专门的机制来提供与用户个人背景相关的内容，并且尽管这一领域的研究进展很快，但仍存在着评估方面的挑战。本研究提出了AuPEL作为一种新颖的评估方法，通过大型语言模型对个性化文本生成进行评估，用以满足人工评估的高成本和传统文本相似度度量方法的不足。实验证明，与现有的评估指标相比，AuPEL不仅可以更准确地区分和排名模型的个性化能力，而且在此任务中表现出令人称赞的一致性和高效性。

Oct, 2023

个性化文本生成与细粒度语言控制

对于控制细粒度属性的文本生成研究，本文通过引入新的基准测试，系统调查了不同大型语言模型在生成个性化文本方面的性能，并从影响性能的因素中获得了一些见解。

Feb, 2024

文本生成：任务、评估和挑战的系统文献综述

文本生成领域的文献回顾研究了244篇论文，将文本生成的工作分类为五个主要任务，并分析了相关特点、子任务和具体挑战。此外，研究还评估了目前的评估方法，并确定存在的问题。研究指出了九个主要挑战，并提供了详细分析和解决方案，以及进一步研究需求。该文献回顾面向自然语言处理领域的初级研究人员和有经验的研究人员。

May, 2024

编织金线：语言模型中长篇生成的基准测试

本文解决了当前长上下文语言模型在长篇文本生成评估中的不足，提出了新的基准测试“编织金线”，以测试模型在生成长文本时识别具体事件的能力。研究发现，尽管现有模型在“针在稻草堆”基准测试中表现良好，但在“编织金线”基准测试中效果不佳，这表明它们在生成符合指令的一致长文本方面存在显著问题，尤其是在生成文本长度增加时性能显著下降。

Sep, 2024

LongGenbench：长文本生成的基准测试在长上下文语言模型中的应用

本研究针对长上下文语言模型在长文本生成中的评估存在的不足，提出了新的长文本评估基准LongGenbench，旨在测试模型在生成长文本时融入特定事件的能力。研究发现，尽管这些模型在现有的"NIAH"基准测试中表现良好，但在LongGenbench测试中均未达到令人满意的水平，显示出它们在生成连贯长文本时存在显著问题。

Sep, 2024

LongGenBench：长上下文大语言模型的长篇生成基准测试

本研究解决了现有基准无法有效评估长篇文本生成质量的问题，提出了LongGenBench基准，专注于测试模型在生成长文时是否能准确包含特定事件。研究发现，尽管模型在传统长上下文基准上表现良好，但在LongGenBench上均未能达到令人满意的效果，尤其是在生成文本长度增加时性能明显下降。

Sep, 2024

HelloBench：评估大语言模型的长文本生成能力

本研究针对大语言模型（LLMs）在长文本生成能力方面的不足，提出了层次化长文本生成基准（HelloBench），用于综合评估LLMs在多个任务上的表现。研究发现，当前大多数LLMs生成的文本长度受限，并存在严重的重复和质量下降问题，同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。

Sep, 2024