通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

Jan, 2024

通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

Improving Classification Performance With Human Feedback: Label a few, we label the rest

Natan Vidra, Thomas Clifford, Katherine Jijo, Eden Chung, Liang Zhang

TL;DR借助大语言模型，本文着眼于通过少量标注样本来显著提高模型准确性，从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试，证明了即使只有少量标注样本，我们也能超过零样本大语言模型的准确性，提供更好的文本分类性能，而无需手动标记数百万行数据。

Abstract

In the realm of artificial intelligence, where a vast majority of data is unstructured, obtaining substantial amounts of labeled data to train supervised machine learning models poses a significant challenge. To

artificial intelligence labeled data few-shot learning active learning large language models

发现论文，激发创造

如何使有限资源的文本分类在银行业变得物超所值

标准的 NLP 全数据分类器需要成千上万个标记示例，在数据有限的领域中是不切实际的。少样本学习方法提供了一种替代方案，利用对比学习技术，在每个类别只需 20 个示例即可发挥有效作用。类似地，像 GPT-4 这样的大型语言模型也可在每个类别只有 1-5 个示例的情况下有效运行。然而，这些方法的性能与成本之间的权衡仍然未被充分研究，这对于预算有限的组织来说是一个关键问题。我们的工作通过在 Banking77 金融意图检测数据集上研究上述方法来填补这一空白，包括评估 OpenAI、Cohere 和 Anthropic 的最新大型语言模型在全面的少样本场景中的表现。我们通过两种额外的方法来完善整个研究：一是基于检索增强生成（RAG）的成本效益查询方法，与经典的少样本方法相比，能够多次降低运营成本；二是使用 GPT-4 的数据增强方法，能够改善数据有限情况下的性能。最后，为了激发未来的研究，我们提供了一个人工专家策划的 Banking77 子集，以及广泛的错误分析。

Nov, 2023

使用人类反馈训练语言模型遵循指令

本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法，并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型，并最终得出该方法为改进语言模型对齐的一个有前途的方向。

Mar, 2022

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

循环中的人类：如何通过手动标记每个类别中仅有的几个文档来有效创建连贯的主题

本文研究表明，结合简单的主题提取方法的有监督少样本学习可以在仅使用每个类别少量标记文档的情况下，优于无监督主题建模技术，生成连贯的主题。

Dec, 2022

利用大型语言模型为人类导师提供解释性反馈

研究表明，学习者参与制作解释以支持他们的推理过程，对学习有积极影响。本文介绍了两种方法，可供教师在在线课程中提供实时反馈，并介绍了采用大型语言模型促进的命名实体识别的增强方法的进展。

Jun, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

商用智能语音助理领域分类的主动学习

本研究介绍了一种基于 LSTM 域选择组件的人工智能助理系统中对于选择相关新训练数据的方法，实验结果表明，与随机选择和基于熵的方法相比，在固定标注预算的情况下提供了更高的准确性提升。

Aug, 2019

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023