长文本生成挑战赛
该论文提出了一种通过逐步完善领域特定的关键词,并在多个阶段逐步把它们转换为完整段落生成文本的简单而有效的方法,该方法利用了预先训练的大规模语言模型,在质量和样本效率方面显着优于仅仅在小语料库上微调的大型语言模型和其他规划 - 生成方法。
Jun, 2020
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
本文介绍了 Uniform Complexity for Text Generation (UCTG),它是一项挑战,旨在使现有模型生成与输入语句或提示相对应的均匀复杂度的文本。在受控叙述生成任务中,我们发现 GPT-2 模型甚至人类在保持输入提示的语言复杂度方面遇到了困难。最终,我们提出了可能的方法和方法,可纳入指导语言模型处理此重要挑战的一般框架中。
Apr, 2022
使用大型语言模型和一种具有连续思考特点的填充范式,提出了一种 NLG 质量评估框架,结合两种生成任务 —— 文本摘要和对话生成,使用 GPT-4 模型作为骨干模型,与以往方法相比性能更好。
Mar, 2023
通过将文本生成问题形式化为未来约束生成问题,以最小化不良行为并确保指令的忠实执行,本文介绍了利用 LLM 的未来约束满足估计来指导文本生成过程的方法,并通过对关键词受限生成、有害性降低和问答中的事实正确性等三个不同的文本生成任务进行了广泛的实验,证明了该方法的有效性。
Dec, 2023
我们研究了自动的长提示工程算法,证明了贪婪算法和遗传算法在搜索效率方面的优越性,并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明,该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升,突显了自动化提示设计对充分利用 LLMs 的能力的重要性。
Nov, 2023
为了评估和公平比较不同模型的长文本处理能力,我们提出了一个名为 LOT 的以故事为中心的基准测试,并发布了一个名为 LongLM 的编码器 - 解码器型中文长文本预训练模型,训练了两个生成任务和 120G 中文小说,LongLM 在 LOT 中表现出在不同理解和生成任务方面优异的性能,胜过同等规模的预训练模型。
Aug, 2021
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
本文研究 GPT-2 在生成长度较长的文档时缺乏结构性的问题,提出了一种新的控制文本生成任务 — 顺序控制文本生成,并确定了一个数据集 NewsDiscourse 作为该任务的起点。通过测试不同程度的结构意识,表明具有更高的结构意识可以提高控制准确性、语法合理性、连贯性和主题性,并接近于人类的写作业绩。
Jan, 2023