LayoutPrompter: 唤醒大型语言模型的设计能力
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
最近,在大规模使用纯文本数据训练大型语言模型(LLMs)的研究进展中,出现了强大的在许多领域和任务中的泛化能力,包括特定于文档的任务。与此相反,有一种趋势是训练多模态转换器架构,专门为文档理解而设计,旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性,通过使用布局增强的方式。我们探索了插入修改和基于规则的方法,以将纯文本 LLM 提示与布局信息进行增强。我们的实验研究了商用 ChatGPT 模型和开源 LLM Solar 的效果。我们证明了使用我们的方法,两个 LLMs 在各种标准文档基准测试中均展现出改进的性能。此外,我们研究了有噪音的 OCR 和布局错误的影响,以及 LLMs 在利用文档布局方面的局限性。我们的结果表明,通过布局增强,相较于仅使用纯文本文档,纯文本 LLMs 在文档理解方面的性能可以提高多达 15%。总之,在纯文本 LLM 或多模态文档转换器之间进行最佳模型选择时,应考虑这种方法。
Feb, 2024
利用大型语言模型,PromptWizard 框架通过迭代合成和优化面向特定任务的提示信息,包括了指令和上下文示例的优化,提高了模型的性能。该框架在效率、数据量和小型语言模型上的适应性以及优于现有提示策略的实证评估中展现出优越性,呈现出良好的可行性和可扩展性。
May, 2024
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
本文探讨利用大型语言模型的学习能力来发现和解释数据中的模式,并提出了一种名为 iPrompt 的算法来生成自然语言字符串,从而实现可解释的自动提示,用于帮助数据分析、科学发现和信息处理等领域。
Oct, 2022
本文介绍了一种使用神经语言模型的 zero-shot prompting 方法,在不需要监督训练的情况下解决 ad-hoc 语言任务。我们提出了 PromptIDE 工具,该工具可以帮助用户实验不同的提示词选择,以达到任务指标的优化和数据量的扩展。该工具已在多个现实世界的案例中得到了应用。
Aug, 2022
该研究引入了基于联合提示归属的反事实解释框架 XPrompt,旨在解释少数提示文本是如何共同影响大型语言模型(LLM)的完整生成,并通过定义和利用多个评估指标来展示我们框架的忠实度和效率。
May, 2024
该研究介绍了一种新的推理方法,Prompt Highlighter,通过在生成过程中用户可以突出特定的提示段来实现交互式控制,利用突出显示的令牌通过注意力权重指导模型来产生期望的输出。实验结果证实了该方法在关注输入背景和生成可靠内容方面的有效性。
Dec, 2023
大语言模型的关键因素在于提示设计对其性能会产生巨大影响,通过许多方面的分析研究,我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性,这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
Oct, 2023