无法访问的神经语言模型可能会再次激活语言天赋主义
本论文提出了一个系统化的分类方法,将LLMs领域专业化技术分类,并讨论了适用于这些技术的关键应用领域的问题和前景,对当前研究状态和未来趋势进行了深入剖析。
May, 2023
本文讨论了大规模语言模型的局限性和其基于深度神经网络的内在架构所造成的影响,提出了使用符号表示和基于底层反向工程重构语言的方法来弥补这些局限性。
May, 2023
对于数据驱动的大型语言模型(LLM)的相对成功,我们认为有一些误解,因为(i)LLM不能依赖于事实信息,因为对于LLM来说,所有输入的文本(事实性或非事实性)在权重上都是一样的;(ii)由于LLM的子符号本质,这些模型对语言的所谓'知识'总是淹没在亿万微观特征(权重)中的,这些特征本身都没有意义;以及(iii)在几种语言环境中,LLM经常无法进行正确推断(例如,名词复合物、共述、量词作用域的歧视、意向性语境)。我们认为数据驱动的大型语言模型(LLM)的相对成功不是象征性与子符号性辩论的反映,而是在规模上应用自下而上的逆向工程语言的成功策略的反映,因此我们在本文中建议在符号设置中应用有效的自下而上策略,从而实现符号化的、可解释的和本体论基础的语言模型。
Sep, 2023
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
通过为越南语进行精细调整并开发了综合评估框架,我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力,并且模型规模和训练数据质量对模型的性能有重要影响。
Mar, 2024
该研究致力于解决 S'ami 语言面临的数字边缘化问题,通过采用最新的自然语言处理技术,训练基于超低资源语言的语言模型,并通过多语言训练实验,发现在顺序多语言训练情景下,解码器模型的表现优于联合多语言训练,且高语义重叠的多语言训练比从头训练要更好。
May, 2024
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
May, 2024
使用大型语言模型进行数据增强的研究中发现了大型语言模型生成的自然语言是否真正符合人类自然语言的基础问题以及增强数据是随机生成的,可能会影响分类器的性能。为了解决这些问题,引入了内在计算大型语言模型生成的自然语言和人类自然语言的标度律。通过广泛的实验,揭示了大型语言模型生成的自然语言与标度律存在轻微的偏差,强调了人类自然语言的复杂性优势,并对语言风格进行了解释性的讨论,为大型语言模型的扩展奠定了坚实的基础。此外,引入了一种新的数据增强方法,称为ZGPTDA,利用基于标度律的模糊计算机制对GPT-4生成的数据进行决策。在真实世界的场景下进行的大量实验证实了ZGPTDA的有效性(将Bert和RoBerta的F1值提高了7-10%)和竞争力(在DeBerta上的准确性超过了最近的AugGPT和GENCO方法约2%)。此外,揭示了一些有趣的发现,如Hilberg的定律和Taylor的定律对文本分类可以带来更多的好处等。
Jun, 2024