LLM生成的自然语言遵循缩放定律：新探索与数据增强方法

Jun, 2024

LLM生成的自然语言遵循缩放定律：新探索与数据增强方法

LLM-Generated Natural Language Meets Scaling Laws: New Explorations and Data Augmentation Methods

Zhenhua Wang, Guang Xu, Ming Ren

TL;DR使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的，可能会影响分类器的性能。为了解决这些问题，引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验，揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差，强调了人类自然语言的复杂性优势，并对语言风格进行了解释性的讨论，为大型语言模型的扩展奠定了坚实的基础。此外，引入了一种新的数据增强方法，称为ZGPTDA，利用基于标度律的模糊计算机制对GPT-4生成的数据进行决策。在真实世界的场景下进行的大量实验证实了ZGPTDA的有效性（将Bert和RoBerta的F1值提高了7-10%）和竞争力（在DeBerta上的准确性超过了最近的AugGPT和GENCO方法约2%）。此外，揭示了一些有趣的发现，如Hilberg的定律和Taylor的定律对文本分类可以带来更多的好处等。

Abstract

With the ascent of large language models (LLM), natural language processing has witnessed enhancements, such as LLM-based data augmentation