如何使有限资源的文本分类在银行业变得物超所值

Nov, 2023

如何使有限资源的文本分类在银行业变得物超所值

Making LLMs Worth Every Penny: Resource-Limited Text Classification in Banking

Lefteris Loukas, Ilias Stogiannidis, Odysseas Diamantopoulos, Prodromos Malakasiotis, Stavros Vassos

TL;DR标准的 NLP 全数据分类器需要成千上万个标记示例，在数据有限的领域中是不切实际的。少样本学习方法提供了一种替代方案，利用对比学习技术，在每个类别只需 20 个示例即可发挥有效作用。类似地，像 GPT-4 这样的大型语言模型也可在每个类别只有 1-5 个示例的情况下有效运行。然而，这些方法的性能与成本之间的权衡仍然未被充分研究，这对于预算有限的组织来说是一个关键问题。我们的工作通过在 Banking77 金融意图检测数据集上研究上述方法来填补这一空白，包括评估 OpenAI、Cohere 和 Anthropic 的最新大型语言模型在全面的少样本场景中的表现。我们通过两种额外的方法来完善整个研究：一是基于检索增强生成（RAG）的成本效益查询方法，与经典的少样本方法相比，能够多次降低运营成本；二是使用 GPT-4 的数据增强方法，能够改善数据有限情况下的性能。最后，为了激发未来的研究，我们提供了一个人工专家策划的 Banking77 子集，以及广泛的错误分析。

Abstract

Standard full-data classifiers in nlp demand thousands of labeled examples, which is impractical in data-limited domains. few-shot methods

full-data classifiers nlp few-shot methods large language models financial intent detection

发现论文，激发创造

使用 PEFT 和合成数据增强低资源 LLMs 分类

提出了一种方法，使大型语言模型在 0-shot 文本分类任务中成为高效的文本分类器，并在低资源环境下获得了竞争性结果。

Apr, 2024

大型语言模型作为金融数据注释工具的效果与效率研究

研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档，发现大型语言模型可作为提取金融文档中关系的高效数据标注工具，并引入了一个可靠性指标用于识别需要专家关注的输出，提供了在特定领域设置中自动化注释的收集和使用的建议。

Mar, 2024

处理低资源语言任务的成本性能优化：使用商业 LLMs

降低大型语言模型在低资源语言的处理成本，同时确保预测和生成性能不受损失，通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量，并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%，并且与原始低资源语言的交互相比性能更好或可比。

Mar, 2024

LLM 能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用 GPT-4 作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对 LLMs 作为合成数据增广器用于 QA 系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

用 ChatGPT 打破银行壁垒：金融领域的少样本文本分类

我们提出使用对话式 GPT 模型，在金融领域利用 Banking77 数据集进行简单快速的少样本文本分类。我们的方法涉及 GPT-3.5 和 GPT-4 的上下文学习，最小化技术专业知识的要求，消除了昂贵的 GPU 计算需求，同时产生快速准确的结果。此外，我们使用 SetFit 这一最新的对比学习技术对其他预训练的屏蔽语言模型进行微调，以在完整数据和少样本设置下实现最先进的结果。我们的研究结果显示，即使样本较少，查询 GPT-3.5 和 GPT-4 的性能也能超过非生成模型的微调。然而，这些解决方案的订阅费用可能对小型机构来说过高。最后，我们发现生成模型在给定任务中表现更好，当显示人工专家选择的代表性样本，而不是随机选择的样本时。我们得出结论：a）我们提出的方法为具有有限标签可用性数据集中的少样本任务提供了实用的解决方案，并且 b）我们的最先进结果可以激发该领域的未来研究。

Aug, 2023

金融情绪分析中精调 LLMs 和少样本学习 LLMs 的比较分析

金融情绪分析在揭示潜在模式和检测新兴趋势方面发挥着重要作用，最近，大型语言模型在不同领域展示了显著的能力，对于各种自然语言处理任务，甚至在零样本和少样本的情境学习中都表现出卓越的能力。然而，在金融情绪分析的背景下，它们的潜力和适用性尚未得到全面探索。为了弥补这一空白，我们采用了两种方法：上下文学习（重点关注 gpt-3.5-turbo 模型）和对金融领域数据集进行微调的 LLM。我们的结果表明，经过微调的较小 LLM 即便参数较少、训练数据集较小，也能够实现与最先进经过微调的 LLM 可比较的性能。此外，LLM 的零样本和一样本性能与经过微调的较小 LLM 和最先进的结果相当。此外，我们的分析表明，增加上下文学习的样本数量，并没有提高金融领域情绪分析的性能。

Dec, 2023

通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

借助大语言模型，本文着眼于通过少量标注样本来显著提高模型准确性，从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试，证明了即使只有少量标注样本，我们也能超过零样本大语言模型的准确性，提供更好的文本分类性能，而无需手动标记数百万行数据。

Jan, 2024

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

面向数据的金融大型语言模型

通过数据中心的方法，我们提出了一种能够更好地处理金融任务的金融 LLM（FLLM）模型，通过多任务提示优化来对数据进行预处理和预理解，并通过推断增强推理（AAR）自动生成训练数据，实验结果表明，我们的数据中心 FLLM 模型显著优于基于原始文本的金融 LLMs，在金融分析和解释任务上达到了最新水平，我们还开源了一个新的金融分析和解释基准，这种方法为解锁 LLMs 在复杂现实领域的潜力提供了希望。

Oct, 2023

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024