能否在长上下文中使用多样本情境学习来帮助 LLM 法官？更多观察，更好判断！

Jun, 2024

能否在长上下文中使用多样本情境学习来帮助 LLM 法官？更多观察，更好判断！

Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!

Mingyang Song, Mao Zheng, Xuan Luo

TL;DR使用大型语言模型作为评判器评估大型语言模型的性能，可能引入潜在的偏见，并对评估结果的可靠性提出关切。为了缓解这个问题，我们提出和研究两种版本的多示例上下文提示（加强和无监督），以帮助 GPT-4o 作为评判器进行单答案打分。基于设计的提示，我们研究了增加上下文示例数量对评估的一致性和质量的影响。此外，我们首次揭示了 GPT-4o 作为评判器在两两比较中存在的符号偏差，并提出了一种简单而有效的方法来缓解它。实验结果显示，先进的长上下文语言模型，如 GPT-4o，在多示例情况下的表现优于零示例情况。同时，实验结果进一步验证了符号偏差缓解方法的有效性。

Abstract

Leveraging large language models (LLMs) as judges for evaluating the performance of LLMs has recently garnered attention. Nonetheless, this type of approach concurrently introduces potential biases from LLMs, raising concerns about the reliability of the →

large language models evaluation many-shot in-context prompts symbol bias long-context llms

发现论文，激发创造

多样情境下的多次学习

大型语言模型在少样本上下文学习方面表现出色，通过在推断时从上下文中提供的少量示例进行学习，无需任何权重更新。新的扩展上下文窗口使我们能够研究在上下文中使用数百或数千个示例进行学习的多样本学习方法。从少样本到多样本，我们观察到在各种生成性和判别性任务中取得了显著的性能提升。然而，多样本学习在可用的人类生成示例方面存在瓶颈。为了缓解这一限制，我们探索了两种新的设置：增强和无监督的多样本学习方法。增强多样本学习方法使用模型生成的思考链替代人类示例。无监督多样本学习方法则完全取消了提示信息中的理由，并仅通过领域特定问题对模型进行提示。我们发现，增强和无监督多样本学习方法在多样本学习中非常有效，特别是在复杂推理任务中。最后，我们证明与少样本学习不同，多样本学习可以有效地覆盖预训练偏差，并学习具有数值输入的高维函数。我们的分析还揭示了下一个标记预测损失作为下游上下文学习性能指标的局限性。

Apr, 2024

少样本能否在长上下文中使用？重复上下文生成演示

利用上下文回收机制生成少数示例，提高长上下文问答任务中的大型语言模型性能。

Jun, 2024

多模态基础模型中的多示例上下文学习

多模态基础模型在少样本上下文学习中具有较高的效果，通过扩展到多样本上下文学习，可以显著提高模型性能和数据效率。

May, 2024

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

JudgeLM：经过优化的大型语言模型是可扩展的法官

通过对大规模语言模型进行微调以构建可扩展的评判模型，提出了一种有效评估大规模语言模型的方法，并成功应用于新的基准测试中，获得了最佳表现。

Oct, 2023

大语言模型的公平指导少样本提示

本文提出了一个度量标准，评估了一个固定提示对标签或给定属性的预测偏差，并提出了一种新的基于贪心搜索的搜索策略来确定最佳提示，以提高上下文学习的性能，并在多种下游任务中使用 GPT-3 等最先进的主流模型进行全面实验。结果表明，我们的方法可以有效提高模型的在上下文学习性能。

Mar, 2023

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023