- 面对 Token 危机下放大 LLM:重复还是不重复的思考
本研究旨在通过重复预训练数据来加强大型语言模型。然而,该方法容易导致过拟合,除非使用适当的正则化方法,其中最有效的是 dropout。同时,本研究还探索了数据集大小,模型参数和训练目标等因素对多重训练期恶化的影响,以及混合专家方法如何提高密 - 应用 LLMs:ChatGPT 和其他模型的调查
本文提供一个关于使用大型语言模型(LLMs)处理自然语言处理(NLP)下游任务的全面指南,讨论了模型、数据和下游任务等方面的关键问题。同时提供了大量使用案例和非使用案例,以便于实现这些模型在各种 NLP 任务中的成功应用。
- Koala: 一种基于预训练语料库量化重叠的索引
本文介绍了一个名为 Koala 的工具,可以用于对大规模预训练数据进行搜索和分析,以帮助研究者进行有关大型语言模型的前置训练数据的分析,并且该工具提供了一个框架可以用于研究当前和未来的基准以及进行大型语言模型的结果记忆程度的评估。
- 大规模自监督学习的语音分离
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单 - ICLR多模态表示学习的遮蔽视觉和语言建模
本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种 V + L 任务中实现了最先进的性能。
- GIT: 用于视觉和语言的生成图像到文本的变压器
本文设计和训练了一个生成式图像到文本的转换器 ——GIT,以统一图像 / 视频字幕和问答等视觉语言任务。使用简化的体系结构和扩大的预训练数据和模型规模,GIT 在 12 个具有挑战性的基准测试中都取得了新的最佳表现,这些基准测试中有 Tex - EMNLP离群维度扰乱变压器的原因是频率驱动
通过相关研究表明,Transformer-based 语言模型对剪枝通常非常强壮,但存在异常现象:仅禁用 BERT-base 的 110M 个参数中的 48 个,MNLI 的性能就下降了近 30%。该现象被认为与嵌入空间的几何形状有关,并且 - 分析影响基于自监督预训练表示在语音识别中的有效性因素
本文研究了在低资源环境下建立自动语音识别(ASR)系统的方法,发现自我监督学习预训练数据的相似性和数量对系统性能有显著影响,希望为语音领域改进 SSL-based 预训练模型的泛化性能提供指导。
- 言语情感识别的变压器时代黎明:缩小情绪价值差距
对几种预训练模型,fine-tuned 在情感词汇维度上,作者探究了模型大小、预训练数据、泛化能力、鲁棒性、公平性和效率等方面。结果发现,transformer-based architectures 在 SER 领域表现优越,特别是在情感 - 阿拉伯预训练语言模型中变体、大小和任务类型的相互作用
本文研究了阿拉伯语预训练语言模型的语言变体、数据量和微调任务类型对其效果的影响,结论表明预训练数据与微调数据的相似性对模型的性能更为重要。
- EMNLP压缩语言模型中预训练数据量的重要性
我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并 - 领域自适应迁移学习的专家模型
本文研究了传递学习的有效性,并发现原先认为的更多的预训练数据不一定就能提高模型性能,而是需要审慎选择预训练数据。同时,作者提出了基于目标数据集计算重要性权重的领域自适应传递学习方法,并在多个细粒度分类数据集上取得了最先进的结果。
- ImageNet 对于迁移学习的优势
本文探讨了 ImageNet 数据集对于学习优秀通用特征的关键属性,发现大多数对预训练数据集的选择的改变不会显著影响迁移学习的表现。在相同的训练类别数量下,分类粗细程度或每个类别样例数目的增加对学习特征的质量影响大于类别数量的增加。