无法访问的神经语言模型可能会再次激活语言天赋主义

Jan, 2023

无法访问的神经语言模型可能会再次激活语言天赋主义

Inaccessible Neural Language Models Could Reinvigorate Linguistic Nativism

Patrick Perrine

TL;DR该研究论文阐述了当前的大语言模型非常强大，但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视，并主张研究者们应该尽可能开源其大型语言模型的代码，以便让经验主义和混合方法保持可获得性。

Abstract

large language models (LLMs) have been making big waves in the machine learning community within the past few years. The impressive scalability of LLMs due to the advent of deep learning can be seen as a continua

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

超越一模型适用于所有场景：大型语言模型领域特化调查

本论文提出了一个系统化的分类方法，将LLMs领域专业化技术分类，并讨论了适用于这些技术的关键应用领域的问题和前景，对当前研究状态和未来趋势进行了深入剖析。

May, 2023

面向可解释和语言无关的LLMs：大规模语言符号逆向工程

本文讨论了大规模语言模型的局限性和其基于深度神经网络的内在架构所造成的影响，提出了使用符号表示和基于底层反向工程重构语言的方法来弥补这些局限性。

May, 2023

随机LLMs不理解语言：朝向基于符号、可解释和本体论的LLMs

对于数据驱动的大型语言模型（LLM）的相对成功，我们认为有一些误解，因为（i）LLM不能依赖于事实信息，因为对于LLM来说，所有输入的文本（事实性或非事实性）在权重上都是一样的；（ii）由于LLM的子符号本质，这些模型对语言的所谓'知识'总是淹没在亿万微观特征（权重）中的，这些特征本身都没有意义；以及（iii）在几种语言环境中，LLM经常无法进行正确推断（例如，名词复合物、共述、量词作用域的歧视、意向性语境）。我们认为数据驱动的大型语言模型（LLM）的相对成功不是象征性与子符号性辩论的反映，而是在规模上应用自下而上的逆向工程语言的成功策略的反映，因此我们在本文中建议在符号设置中应用有效的自下而上策略，从而实现符号化的、可解释的和本体论基础的语言模型。

Sep, 2023

语言与大型语言模型之间的去向问题

人工智能，自然语言处理，大型语言模型和科学模型在语言方面的应用和发展的研究。

Oct, 2023

语言多样性的好奇衰退：基于合成文本训练语言模型

研究通过以前辈生成的合成数据对大型语言模型进行训练的后果，重点关注这种训练方法对语言多样性的影响，特别是在逐步迭代的过程中。通过开展递归微调实验，应用一系列针对词汇、句法和语义多样性的新型度量标准，我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险，特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。

Nov, 2023

跨越语言的视角：越南大型语言模型的微调和全面评估

通过为越南语进行精细调整并开发了综合评估框架，我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力，并且模型规模和训练数据质量对模型的性能有重要影响。

Mar, 2024

朝着更具包容性的人工智能：针对萨米语的大型语言模型训练的进展与展望

该研究致力于解决 S'ami 语言面临的数字边缘化问题，通过采用最新的自然语言处理技术，训练基于超低资源语言的语言模型，并通过多语言训练实验，发现在顺序多语言训练情景下，解码器模型的表现优于联合多语言训练，且高语义重叠的多语言训练比从头训练要更好。

May, 2024

大型语言模型的国际化综述：最新进展和新的研究方向

对大型语言模型（LLMs）在多语种环境中的应用进行了综述，包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用，同时讨论了相关方面的主要挑战和潜在解决方案，并提出了进一步增强语言模型的未来研究方向。

May, 2024

LLM生成的自然语言遵循缩放定律：新探索与数据增强方法

使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的，可能会影响分类器的性能。为了解决这些问题，引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验，揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差，强调了人类自然语言的复杂性优势，并对语言风格进行了解释性的讨论，为大型语言模型的扩展奠定了坚实的基础。此外，引入了一种新的数据增强方法，称为ZGPTDA，利用基于标度律的模糊计算机制对GPT-4生成的数据进行决策。在真实世界的场景下进行的大量实验证实了ZGPTDA的有效性（将Bert和RoBerta的F1值提高了7-10%）和竞争力（在DeBerta上的准确性超过了最近的AugGPT和GENCO方法约2%）。此外，揭示了一些有趣的发现，如Hilberg的定律和Taylor的定律对文本分类可以带来更多的好处等。

Jun, 2024