经过筛选的语料库训练（FiCT）证明语言模型能够从间接证据中进行概括

May, 2024

经过筛选的语料库训练（FiCT）证明语言模型能够从间接证据中进行概括

Filtered Corpus Training (FiCT) Shows that Language Models can Generalize from Indirect Evidence

Abhinav Patil, Jaap Jumelet, Yu Ying Chiu, Andy Lapastora, Peter Shen...

TL;DR使用过滤语料库训练的方法，本文研究了语言模型对于通过间接证据进行语言普适性推理的能力，并将该方法应用于 LSTM 和 Transformer 语言模型，结果显示它们对于语言普适性推理具有相同且出乎意料的良好表现。

Abstract

This paper introduces filtered corpus training, a method that trains language models (LMs) on corpora with certain linguistic constructions filtered out from the training data, and uses it to measure the ability of LMs to perform →

filtered corpus training language models linguistic generalization lstm transformer

发现论文，激发创造

经过 1 亿个单词的训练，BERT 依然保持着良好状态：BERT 遇见英国国家语料库

本文探讨了小规模训练对于掩码语言模型的影响，使用英国国家语料库作为语料来源，进行了预训练和性能测试，并提出了优化后的 LTG-BERT 模型结构，为掩码语言模型的发展提供了新的思路。

Mar, 2023

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

FILTER：跨语言语言理解的增强融合方法

本文提出了 FILTER 方法，该方法利用跨语言数据增强 XLM 微调，通过跨语言融合中间层来提取多语言知识，使用自生成的软伪标签和 KL 散度自我训练损失来解决任务挑战，显著提高了 XTREME 和 XGLUE 两个多语言多任务基准的性能。

Sep, 2020

大型语言模型留下指纹

通过分析 LLM 指纹，我们展示了即使是简单的分类器也能在训练领域内外的数据中实现非常强大的性能，从而有效区分人类生成的文本和机器生成的文本。

May, 2024

探索语料多样性对金融预训练语言模型的影响

过去几年中，已经提出了各种领域特定的预训练语言模型（PLMs），并在生物医学、科学和临床领域等专业领域表现优于通用领域的 PLMs。此外，由于财务数据分析的经济影响巨大，金融 PLMs 也受到了研究的关注。然而，我们发现金融 PLMs 在预训练过程中未使用足够多样化的金融数据。这种缺乏多样化训练数据导致其泛化性能不佳，导致通用 PLMs（包括 BERT）在许多下游任务上通常胜过金融 PLMs。为了解决这个问题，我们收集了广泛的金融语料库，并在这些多样化的数据集上训练了金融语言模型（FiLM）。我们的实验结果证实，FiLM 不仅在现有金融 PLMs 上表现出色，还在通用领域 PLMs 上表现优异。此外，我们提供了实证证据，即这种改进甚至适用于未见过的语料库组。

Oct, 2023

带环境的条件语言学习

语言模型可以通过适应原始文本学习到复杂的语言理解技能。我们在本文中提出了一种称为条件微调的简单改进方法，它在进行语言建模时进行了上下文的条件限制。我们证明一个上下文可以 “解释掉” 某些语料库统计信息并使模型避免学习它们。通过这种方式，条件微调实现了对语料库的选择性学习，学习了对下游任务有用的知识，同时避免学习无用的语料库统计信息，如主题偏差。这种选择性学习效果导致了更少的遗忘和更好的稳定可塑性权衡，在域微调中潜在受益于与语言模型的终身学习。

Jun, 2024

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

CoLoR-Filter：有条件的丢失减少过滤器用于目标语言模型预训练

使用 CoLoR-Filter 方法和经验贝叶斯启发式方法选择优质数据，以提高语言模型在下游任务中的性能。

Jun, 2024

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019