IGOT：针对域自适应预训练的信息增益优化分词器

May, 2024

IGOT：针对域自适应预训练的信息增益优化分词器

IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining

Dawei Feng, Yihai Zhang, Zhixuan Xu

TL;DR使用信息增益优化的分词器 (IGOT) 在特定领域下进行持续预训练可提高训练效率与性能，降低收敛半径与收敛点。

Abstract

pretrained large language models (LLM) such as ChatGPT, Claude, etc. have demonstrated strong capabilities in various fields of natural language generation. However, there are still many problems when using LLM in specialized domain-specific fields. When using →

pretrained large language models information gain optimized tokenizer domain adaptation training downstream tasks generative ai

发现论文，激发创造

自适应分词的语言模型高效域适应

通过适应标记器，将预训练语言模型转移到新领域，提供了与基于专门领域的预训练方法相当的性能，同时生成的模型更小且训练和推断时间更短。

Sep, 2021

TextGram：迈向更好的领域自适应预训练

衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram，能够有效地从大规模语料库中选择关键数据，并展示了该策略在文本分类任务中相对于其他选择方法的优势。

Apr, 2024

如何充分利用分词器进行预训练和领域自适应

我们的研究表明，分词对于现代 LLMs 至关重要，而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验，并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现，在超过 500 亿个标记的细调过程中，可以对预训练 LLMs 的分词器进行专门优化，从而显著提高生成速度和有效上下文大小。

Feb, 2024

GlossLM：面向低资源的多语言预训练用于语言互译注释

我们编译了最大的现有的跨语言翻译数据语料库，从多个来源收集了超过 450k 个样例，覆盖了 1.8k 种语言，以便进行跨语言转移和跨语言翻译生成的研究。然后，我们对这个语料库的部分内容进行大规模多语言模型预训练，并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力，同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6％，证明了跨语言转移对于资源稀缺的语言的有效性。

Mar, 2024

基于生成强化的变压器的指令上下文增强方法

利用人类反馈的强化学习从 PPO 出发，ICE-GRT 在特定领域任务中展示了出色的能力，同时保持了通用任务性能，在小型模型中表现了分析能力的下降。

Jan, 2024

InternLM2 技术报告

InternLM2 是一种开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和 30 个基准测试中优于之前的模型，并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程，使用了包括文本、代码和长文本数据在内的多种数据类型，并具备捕捉长期依赖、高效处理任务的能力。此外，通过释放不同训练阶段和模型大小的 InternLM2 模型，为社区提供了对模型演进的深入理解。

Mar, 2024

任务导向领域内数据增强

利用任务导向的领域特定数据增强框架，从通用语料库中选择大量领域内数据并生成合成的领域特定文章，以提升大语言模型在广告和数学领域的表现。平均来说，该框架可使广告领域性能提高 8%，数学领域提高 7.5%。

Jun, 2024

适应并蒸馏：为特定领域开发小型、快速且高效的预训练语言模型

本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法，该方法通过对通用预训练模型进行调整，以及在目标领域进行任务无关的知识蒸馏来实现。具体而言，在适应阶段，我们提出了领域特定词汇扩展，并使用语料库级别出现概率自动选择增量词汇表的大小。然后，我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明，我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型，同时比 BERT BASE 小 3.3 倍，快 5.1 倍。

Jun, 2021

对话领域适应的混合生成 - 检索 Transformer

本文提出了基于 GPT-2 微调多领域 MetaLWOz 数据集的混合生成 - 检索模型，具有稳健、多样的响应生成能力，在领域自适应任务中取得了最优结果，并在适应未见过的 MultiWOZ 数据集时表现出竞争力的泛化性能。

Mar, 2020

针对机器翻译的领域特定文本生成

本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法，通过该方法，配合回译技术，可生成大量合成双语的领域内数据，从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。

Aug, 2022