基于LLM的数据增强方法提升跨语言表现

May, 2023

基于LLM的数据增强方法提升跨语言表现

LLM-powered Data Augmentation for Enhanced Crosslingual Performance

Chenxi Whitehouse, Monojit Choudhury, Alham Fikri Aji

TL;DR本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括Dolly-v2、StableVicuna、ChatGPT和GPT-4在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用GPT-4生成的合成数据进行训练的性能比其他模型优秀，ChatGPT和GPT-4在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

Abstract

This paper aims to explore the potential of leveraging large language models (LLMs) for data augmentation in crosslingual commonsense reasoning

发现论文，激发创造

应用LLMs：ChatGPT和其他模型的调查

本文提供一个关于使用大型语言模型（LLMs）处理自然语言处理（NLP）下游任务的全面指南，讨论了模型、数据和下游任务等方面的关键问题。同时提供了大量使用案例和非使用案例，以便于实现这些模型在各种NLP任务中的成功应用。

Apr, 2023

LLM能增强低资源阅读理解数据集吗？机遇和挑战

本文探讨了使用GPT-4作为人工标注的替代品来提供低资源阅读理解任务的性能，通过精细调节后的性能和标注成本的对比，这是对LLMs作为合成数据增广器用于QA系统的第一次分析，强调了这一独特的机遇和挑战，并提供了低资源数据集的增广版本，为生成数据集的评估提供了进一步的基准。

Sep, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的LLM系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强LLMs的技术、为LLM训练、微调和评估准备的常用数据集以及常用的LLM评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

跨语言词汇适应的实证研究：高效生成式LLM推理

对五种生成式大型语言模型进行了实证研究，探讨了跨语言词汇适应方法对提高模型推理效率的有效性，发现跨语言词汇适应可大幅提升模型推理速度高达271.5%，同时适应更平衡的多语种数据可以使下游性能接近原始模型。

Feb, 2024

LLM2LLM：利用新的迭代数据增强提升LLM模型

使用以预训练大型语言模型（LLM）为基础的LLM2LLM方法，通过数据增强和迭代，显著提高LLM在低数据情况下的性能，优于传统的微调和其他数据增强方法，减少了对数据策划的依赖，为更可扩展和高性能的LLM解决方案铺平了道路。

Mar, 2024

为文本数据增强赋能大型语言模型

提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案，从而赋予LLM创建高质量增强数据用于不同的下游任务的能力。在26个少样本学习任务中，该方法一致生成比非LLM和基于LLM的数据增强方法质量更好的增强数据，表现最佳。

Apr, 2024

超越英语的LLMs：通过跨语言反馈扩展LLMs的多语言能力

通过构建两个数据集，将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言，并使用 DPO 算法对 LLMs 进行与人类反馈的对齐，实现了对 100 种语言的支持，从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新技术。

Jun, 2024

关于欧洲语言的大型语言模型调查

本研究解决了大型语言模型（LLM）在欧洲官方语言处理中的差距，提供了对多种LLM家族及其在单语和多语数据集上预训练的方法概述。关键发现是，为欧洲语言定制的LLM具有显著的性能提升潜力，从而推动相关语言处理任务的进展。

Aug, 2024

关于欧洲语言的大型语言模型调查

本研究针对大型语言模型（LLMs）在欧洲官方语言中的应用现状进行了综述，填补了该领域的文献空白。通过对LLaMA、PaLM、GPT和MoE等不同模型的分析，本文提出了改进和增强LLMs的有效方法，并总结了用于预训练的单语和多语数据集。这项工作为今后在欧洲语言环境下的发展提供了有价值的见解。

Aug, 2024

通过ChatGPT和数据集增强提升小型语言模型

本研究解决了小型语言模型在自然语言推理任务中的性能差距问题，提出了一种通过ChatGPT进行数据集增强的新方法。研究发现，结合合成推理生成的策略能够显著提升模型的自然语言理解能力，使分类准确率提高了1.3%和2.3%。

Sep, 2024