LongLaMP:个性化长文本生成基准
使用 LongForm 数据集进行指导调整机制可以提高语言模型的泛化能力,该数据集通过 LLMs 生成一组多样的人类撰写的文档和相应的指导语句,支持长文本生成,并在文本生成、多语言指令识别等任务上表现出色。
Apr, 2023
本文介绍了个性化对于自然语言理解和生成的重要性,并引入了 LaMP 基准测试-一种用于训练和评估用于生成个性化输出的语言模型的新基准测试。LaMP 提供了一个包含多样化语言任务和每个用户配置文件的多个条目的全面评估框架。它由七个个性化任务组成,横跨三个分类任务和四个文本生成任务。我们还提出了一种检索增强方法,该方法从用户配置文件中检索个性化项,以构造大型语言模型的个性化提示。我们的基线零-shot和微调模型结果表明,利用配置文件增强的 LM 优于不考虑配置文件信息的其同类。
Apr, 2023
个性化文本生成是一个新兴的研究领域,通过使用大型语言模型 (LLMs),我们提出了一种通用的个性化文本生成方法。借鉴写作教育的实践,我们开发了一个多阶段和多任务的框架来教授 LLMs 进行个性化生成。我们的方法包括检索、排名、总结、综合和生成多个阶段,并引入了一个多任务设置来进一步提高模型的生成能力。我们在三个涵盖不同代表性领域的公开数据集上评估了我们的方法,结果显示相对于各种基线模型,我们取得了显著的改进。
Aug, 2023
个性化文本生成采用了一种专门的机制来提供与用户个人背景相关的内容,并且尽管这一领域的研究进展很快,但仍存在着评估方面的挑战。本研究提出了AuPEL作为一种新颖的评估方法,通过大型语言模型对个性化文本生成进行评估,用以满足人工评估的高成本和传统文本相似度度量方法的不足。实验证明,与现有的评估指标相比,AuPEL不仅可以更准确地区分和排名模型的个性化能力,而且在此任务中表现出令人称赞的一致性和高效性。
Oct, 2023
文本生成领域的文献回顾研究了244篇论文,将文本生成的工作分类为五个主要任务,并分析了相关特点、子任务和具体挑战。此外,研究还评估了目前的评估方法,并确定存在的问题。研究指出了九个主要挑战,并提供了详细分析和解决方案,以及进一步研究需求。该文献回顾面向自然语言处理领域的初级研究人员和有经验的研究人员。
May, 2024
本文解决了当前长上下文语言模型在长篇文本生成评估中的不足,提出了新的基准测试“编织金线”,以测试模型在生成长文本时识别具体事件的能力。研究发现,尽管现有模型在“针在稻草堆”基准测试中表现良好,但在“编织金线”基准测试中效果不佳,这表明它们在生成符合指令的一致长文本方面存在显著问题,尤其是在生成文本长度增加时性能显著下降。
Sep, 2024
本研究针对长上下文语言模型在长文本生成中的评估存在的不足,提出了新的长文本评估基准LongGenbench,旨在测试模型在生成长文本时融入特定事件的能力。研究发现,尽管这些模型在现有的"NIAH"基准测试中表现良好,但在LongGenbench测试中均未达到令人满意的水平,显示出它们在生成连贯长文本时存在显著问题。
Sep, 2024
本研究解决了现有基准无法有效评估长篇文本生成质量的问题,提出了LongGenBench基准,专注于测试模型在生成长文时是否能准确包含特定事件。研究发现,尽管模型在传统长上下文基准上表现良好,但在LongGenBench上均未能达到令人满意的效果,尤其是在生成文本长度增加时性能明显下降。
Sep, 2024
本研究针对大语言模型(LLMs)在长文本生成能力方面的不足,提出了层次化长文本生成基准(HelloBench),用于综合评估LLMs在多个任务上的表现。研究发现,当前大多数LLMs生成的文本长度受限,并存在严重的重复和质量下降问题,同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。
Sep, 2024