GPT-Neo 大型语言模型仿真语料中的 Heaps' Law

Nov, 2023

GPT-Neo 大型语言模型仿真语料中的 Heaps' Law

Heaps' Law in GPT-Neo Large Language Model Emulated Corpora

Uyen Lai, Gurjit S. Randhawa, Paul Sheridan

TL;DR本研究验证了 Heaps' law 在大型语言模型生成的文本中的适用性，并发现随着模型大小的增长，生成的词汇越来越符合 Heaps' law。未来的研究应重点关注增加模型大小或改进模型架构以提高 GPT-Neo 产生的输出的丰富性和真实性。

Abstract

heaps' law is an empirical relation in text analysis that predicts vocabulary growth as a function of corpus size. While this law has been

heaps' law text analysis corpus size language model vocabulary growth

发现论文，激发创造

LexGPT 0.1：基于 Pile of Law 的预训练 GPT-J 模型

该篇论文旨在构建专为法律领域定制的生成语言模型，其中 LexGPT 模型可通过 “无代码” 方法对专业数据进行微调，以用于下游任务，但分类器性能比最先进的结果明显较低。

Jun, 2023

gzip 预测数据相关的缩放规律

通过改变数据复杂性的方式生成不同复杂性的训练数据集，发现参数和训练数据量的缩放规律对数据复杂性非常敏感，并且发现 gzip 压缩算法能够有效预测数据复杂性对性能缩放规律的影响，提出了一个新的与数据相关的神经语言模型缩放规律，该规律考虑到了训练数据的 gzip 可压缩性，当训练数据难以压缩时，数据集大小优先于参数数量的计算最优边界增加。

May, 2024

「Genlangs」与齐普夫定律：ChatGPT 生成的语言在统计上看起来像人类吗？

本研究使用 OpenAI 的 GPT-4 生成了 3 种人工语言，探讨了它们是否符合 Zipf 定律。结果表明，genlangs 与自然语言和人工语言具有相似的统计特性，同时我们呼吁进一步开发人类可调用的完整功能的 AI 辅助人工语言。

Mar, 2023

大型 GPT 模型的问题：深入研究语言能力与心理语言学度量之间的关系

通过训练不同大小的 GPT-like 语言模型并在挑战任务（BLiMP，GLUE，MSGS）和阅读时预测任务上进行评估，我们发现 LM 大小与所有三个挑战任务的性能呈正相关，而在使用 LM 意外性作为预测变量的线性混合效应模型的阅读时间拟合上，发现 LM 大小呈负相关。这表明，模拟处理的努力和语言能力可能需要与在发展上合理的语料库上训练 GPT-like 语言模型有所不同的方法。

Nov, 2023

大型语言模型反映人类引用模式，具有较高的引用偏好

大型语言模型（LLMs）如 GPT-4 在引用实践中引入新的动态，并且可能放大现有的偏见和引入新的偏见，从而可能扭曲科学知识的传播。

May, 2024

从文本到结构：利用大型语言模型支持法律专家系统的发展

利用大型语言模型自动提取立法文件的结构化表示，为发展透明且可解释的基于符号方法的系统提供了一条有前景的途径。

Nov, 2023

结构化知识库在大型语言模型中优化元数据整理的应用

通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验，评估 GPT-4 对于符合元数据标准的建议编辑能力，并通过同行评审过程计算了字段名 - 字段值对的符合精确度，发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息，从 79% 提高到 97%（p<0.01），结果表明 LLMs 与结构化知识库整合后，可以在自动化元数据管理中显示出希望。

Apr, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

单词频率统计中的尺度律和波动

通过大型文本数据库的统计分析与简单随机模型的结合，解释了单词频率统计中的尺度律出现原因及其涵义，模型表示词频分布服从 Zipf's Law，并且单词的频率受到文章主题模型中波动的影响。同时，该文章还对词汇丰富度进行了测量和分析。

Jun, 2014

在 GPT-3 和 GPT-4 中测试词义的因果模型

本研究通过 HIPE 理论评估了 GPT-3 和 GPT-4 的词汇表示，结果发现 GPT-3 未编码所假设的因果结构，但发现 GPT-4 编码了这种结构，为评估大型语言模型的表征能力做出了贡献。

May, 2023