不要总是看向右边：探究基于解码器的大型语言模型在序列标注中的能力

Jan, 2024

不要总是看向右边：探究基于解码器的大型语言模型在序列标注中的能力

Do Not (Always) Look Right: Investigating the Capabilities of Decoder-Based Large Language Models for Sequence Labeling

David Dukić, Jan Šnajder

TL;DR提前训练的语言模型能够通过改进序列标记任务的表现，优于基于自回归语言模型的编码器，并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。

Abstract

pre-trained language models based on masked language modeling (MLM) objective excel in natural language understanding (NLU) tasks. While fine-tuned MLM-based encoders consistently outperform causal language model

pre-trained language models masked language modeling information extraction sequence labeling causal mask

发现论文，激发创造

探讨语言模型架构的扩展与迁移在机器翻译中的应用

该研究论文探讨了语言模型和编码器 - 解码器模型在机器翻译中的性能影响，结果表明：语言模型在小规模下的表现差，但随着参数数量的增加，其性能逐渐接近于编码器 - 解码器模型，语言建模和原因屏蔽会对翻译质量产生不利影响，而当与全局可视屏蔽相配合时，语言模型在受监督的双语和多语言翻译任务中能够与编码器 - 解码器模型持平，并且在零翻译方向上表现得更好。

Feb, 2022

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

探索文本生成的屏蔽语言建模和因果语言建模

这篇论文比较了掩码语言模型和因果语言模型在文本生成任务上的表现，发现掩码语言模型在生成文本时具有更好的质量和连贯性，并且对下游任务的性能没有明显影响，从而显示了掩码语言模型在文本生成方面具有巨大的潜力并指导了未来研究的方向。

May, 2024

LLM2Vec: 大型语言模型是强大的文本编码器

我们引入了 LLM2Vec，这是一种简单的无监督方法，可以将任何解码器模型转换为强大的文本编码器，通过三个简单步骤：启用双向注意机制，掩码下一个标记预测和无监督对比学习，在英语词和序列级任务中，LLM2Vec 在词级任务上远远超过编码器模型，在 Massive Text Embeddings Benchmark (MTEB) 中获得了新的无监督最新性能，通过与有监督的对比学习相结合，我们在 MTEB 上实现了使用公开数据训练的模型的最新性能。

Apr, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

TransLLaMa: 基于 LLM 的同步翻译系统

经过小规模数据集上的微调后，预训练的开源解码器 - 仅模型可以通过生成特殊的 “等待” 标记直接控制输入分段，从而在同时翻译任务中达到与最先进基准模型相媲美的 BLEU 分数；尚未进行先前训练的闭源模型在此任务中显示出令人鼓舞的结果，为改进未来的同时翻译系统指明了一个有希望的方向。

Feb, 2024

大型语言模型不是好的小样本信息提取器，但是对于难样本是一个很好的重新排名器！

通过使用自适应的筛选和重排序范式，使用大型语言模型和小型预训练语言模型相互补充，可以提高信息提取任务的性能和效率，并消减时间和预算成本。

Mar, 2023

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024

快速、高效且自监督：将掩码语言模型转化为通用词汇和句子编码器

本论文提出了一种名为 Mirror-BERT 的极为简单、快速和有效的对比学习技术，它能在 20-30 秒内将预训练的 MLMs（如 BERT 和 RoBERTa）转变为有效的通用词汇和句子编码器，而无需任何附加的数据和监督，并取得了巨大的成功。

Apr, 2021

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023