通过ChatGPT和数据集增强提升小型语言模型
本文提出了一种基于ChatGPT的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
本文提供一个关于使用大型语言模型(LLMs)处理自然语言处理(NLP)下游任务的全面指南,讨论了模型、数据和下游任务等方面的关键问题。同时提供了大量使用案例和非使用案例,以便于实现这些模型在各种NLP任务中的成功应用。
Apr, 2023
本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力,通过使用包括Dolly-v2、StableVicuna、ChatGPT和GPT-4在内的大型语言模型来扩充三个数据集,确定了该方法的有效性,并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明,使用GPT-4生成的合成数据进行训练的性能比其他模型优秀,ChatGPT和GPT-4在大多数语言中生成的自然文本效果非常好,但在某些情况下,它们的效益会下降。
May, 2023
本文提出了一种名为MiniLLM的方法,该方法利用Kullback-Leibler散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了MiniLLM模型的性能表现更佳。
Jun, 2023
ChatGPT是OpenAI创建的一种大型语言模型(LLM),通过大量数据的精心训练,推动了自然语言处理(NLP)的发展,并拓展了LLM的能力边界。本文主要目标是对ChatGPT及其演变的当前研究方向进行简明概述,提供了基于玻璃盒和黑盒观点的综合分析。此概述也揭示了LLM和GAI领域的现有和缺失研究方向,有益于公众用户和开发人员。
Jul, 2023
本文探讨了使用GPT-4作为人工标注的替代品来提供低资源阅读理解任务的性能,通过精细调节后的性能和标注成本的对比,这是对LLMs作为合成数据增广器用于QA系统的第一次分析,强调了这一独特的机遇和挑战,并提供了低资源数据集的增广版本,为生成数据集的评估提供了进一步的基准。
Sep, 2023
通过实体消歧任务,我们使用三步硬提示方法探索大型语言模型 (LLM) 的性能,改进模型的原始性能并与现有方法进行比较,以提高模型的知识建模和准确性。
Feb, 2024
通过对多个LLM模型的研究,本文不仅提供了全面的概述,还明确了现有挑战,并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点,为进一步的探索、增强和创新提供了启示。
Mar, 2024
使用以预训练大型语言模型(LLM)为基础的LLM2LLM方法,通过数据增强和迭代,显著提高LLM在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的LLM解决方案铺平了道路。
Mar, 2024
使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的,可能会影响分类器的性能。为了解决这些问题,引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验,揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差,强调了人类自然语言的复杂性优势,并对语言风格进行了解释性的讨论,为大型语言模型的扩展奠定了坚实的基础。此外,引入了一种新的数据增强方法,称为ZGPTDA,利用基于标度律的模糊计算机制对GPT-4生成的数据进行决策。在真实世界的场景下进行的大量实验证实了ZGPTDA的有效性(将Bert和RoBerta的F1值提高了7-10%)和竞争力(在DeBerta上的准确性超过了最近的AugGPT和GENCO方法约2%)。此外,揭示了一些有趣的发现,如Hilberg的定律和Taylor的定律对文本分类可以带来更多的好处等。
Jun, 2024