IGOT:针对域自适应预训练的信息增益优化分词器
衡量和减少大型语言模型训练过程中产生的碳排放量对于绿色人工智能至关重要。我们提出了一种领域自适应数据选择方法 - TextGram,能够有效地从大规模语料库中选择关键数据,并展示了该策略在文本分类任务中相对于其他选择方法的优势。
Apr, 2024
我们的研究表明,分词对于现代 LLMs 至关重要,而且往往被忽视。我们通过在代码生成任务中对 tokenizer 设计进行了详细实验,并提出了分词器超参数选择和在预训练 LLMs 中切换分词器的建议。我们发现,在超过 500 亿个标记的细调过程中,可以对预训练 LLMs 的分词器进行专门优化,从而显著提高生成速度和有效上下文大小。
Feb, 2024
我们编译了最大的现有的跨语言翻译数据语料库,从多个来源收集了超过 450k 个样例,覆盖了 1.8k 种语言,以便进行跨语言转移和跨语言翻译生成的研究。然后,我们对这个语料库的部分内容进行大规模多语言模型预训练,并进一步对特定语言进行微调。我们的模型在分词数据和大型单语数据集上与最先进的方法相比具有竞争力,同时在未分词的文本和小型语料库上的形态准确性方面超过 SOTA 模型高达 6.6%,证明了跨语言转移对于资源稀缺的语言的有效性。
Mar, 2024
利用人类反馈的强化学习从 PPO 出发,ICE-GRT 在特定领域任务中展示了出色的能力,同时保持了通用任务性能,在小型模型中表现了分析能力的下降。
Jan, 2024
InternLM2 是一种开源的大型语言模型,通过创新的预训练和优化技术,在多个维度和 30 个基准测试中优于之前的模型,并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程,使用了包括文本、代码和长文本数据在内的多种数据类型,并具备捕捉长期依赖、高效处理任务的能力。此外,通过释放不同训练阶段和模型大小的 InternLM2 模型,为社区提供了对模型演进的深入理解。
Mar, 2024
利用任务导向的领域特定数据增强框架,从通用语料库中选择大量领域内数据并生成合成的领域特定文章,以提升大语言模型在广告和数学领域的表现。平均来说,该框架可使广告领域性能提高 8%,数学领域提高 7.5%。
Jun, 2024
本文介绍了一种开发特定领域小型、快速和有效的预训练模型的通用方法,该方法通过对通用预训练模型进行调整,以及在目标领域进行任务无关的知识蒸馏来实现。具体而言,在适应阶段,我们提出了领域特定词汇扩展,并使用语料库级别出现概率自动选择增量词汇表的大小。然后,我们系统地探索了压缩特定领域的大型预训练模型的不同策略。实验结果表明,我们的方法在生物医学和计算机科学领域的特定任务中表现优于 BERT BASE 模型,同时比 BERT BASE 小 3.3 倍,快 5.1 倍。
Jun, 2021
本文提出了基于 GPT-2 微调多领域 MetaLWOz 数据集的混合生成 - 检索模型,具有稳健、多样的响应生成能力,在领域自适应任务中取得了最优结果,并在适应未见过的 MultiWOZ 数据集时表现出竞争力的泛化性能。
Mar, 2020
本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法,通过该方法,配合回译技术,可生成大量合成双语的领域内数据,从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。
Aug, 2022