BTR: 用于高效检索的二进制标记表示增强语言模型

Oct, 2023

BTR: 用于高效检索的二进制标记表示增强语言模型

BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models

Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi

TL;DR使用二进制标记表示，结合离线和运行时压缩，减少计算量和存储占用，在保持任务性能超过 95% 的同时，加速了最先进的推理速度达到 4 倍，并减少了 100 倍的存储空间。

Abstract

retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduc

retrieval augmentation binary token representations inference compression nlp tasks

发现论文，激发创造

TCRA-LLM：基于令牌压缩检索的大规模语言模型，用于推理成本降低

使用自学生成的样本进行 Fine-tune，我们提出了两种方法进行文本压缩：摘要压缩和语义压缩。摘要压缩可以减少 65% 的检索令牌大小并提高 0.3% 的准确性，语义压缩可以将令牌大小减少 20%，但只有 1.6% 的准确性损失。

Oct, 2023

TR-BERT：动态令牌减少以加速 BERT 推理

本文提出一种动态适应层级的 Token 缩减方法 TR-BERT，该方法采用强化学习方法学习 Token 减少的选择策略以加速 BERT 模型在各种自然语言处理任务中的推理，并在实验中展示了 TR-BERT 在加速 BERT 模型的同时提高了其性能。

May, 2021

腾讯的基于二进制编码的检索

提出了一种基于二进制嵌入的检索引擎，利用轻量级的转换模型和残差多层感知器 (MLP) 块将完整精度的查询和文档嵌入压缩成多个二进制向量的组合，并使用嵌入到嵌入的策略来实现无需任务的高效训练。对离线基准和在线 A/B 测试进行了广泛的实验，证明了该方法的效率和有效性，在几乎不损失系统准确性的情况下，显著节省了 30%~50% 的索引成本。

Feb, 2023

从数十万亿的标记中检索以提高语言模型

通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件，并创建 Retrieval-Enhanced Transformer（RETRO），该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器，一个可微分的编码器和一个分块交叉关注机制，可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token，并在 fine-tuning 后转化为下游的 knowledge-intensive 任务，例如问答等，这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。

Dec, 2021

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

使用检索增强语言模型提高 GPT-3/4 在生物医学数据上的准确性

本文研究了大型语言模型在特定领域中的性能，比较了多种模型回答 DLBCL 疾病的问题，发现 RetA 模型在准确性和相关性方面表现最好。

May, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

自检索的长距离语言建模

本文中，我们提出了一种用于从头开始联合训练检索增强语言模型的架构和训练流程，名为 Retrieval-Pretrained Transformer（RPT），并使用四个长程语言建模任务进行了评估，横跨图书、代码和数学写作，证明了与强基线相比，RPT 改善了整体的检索质量和困惑度。

Jun, 2023

LLM-Augmented Retrieval: 借助语言模型和文档级嵌入增强检索模型

该研究论文介绍了一种基于模型无关的文档级嵌入框架，通过大型语言模型（LLM）增强，改进了检索模型训练过程中的一些重要组件，如负采样、损失函数等。通过实现这个 LLM 增强的检索框架，我们显著提高了广泛使用的检索模型（如 Bi-encoders 和 late-interaction models）的效果，并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。

Apr, 2024

BTLM-3B-8K：3B 参数模型中的 7B 参数性能

介绍了 Bittensor 语言模型 BTLM-3B-8K，这是一个新的最先进的 30 亿参数的开源语言模型，由 SlimPajama 数据集的 627B 个标记进行训练，具有 2048 和 8192 上下文长度的混合。BTLM-3B-8K 在下游任务中优于所有现有的 30 亿参数模型 2-5.5%，甚至与一些 70 亿参数模型相竞争。此外，BTLM-3B-8K 在长上下文性能方面表现优秀，在高达 8192 上下文长度的任务上超过了 MPT-7B-8K 和 XGen-7B-8K。

Sep, 2023