构建更好的基于大型语言模型的稠密检索模型
该研究论文介绍了一种基于模型无关的文档级嵌入框架,通过大型语言模型(LLM)增强,改进了检索模型训练过程中的一些重要组件,如负采样、损失函数等。通过实现这个 LLM 增强的检索框架,我们显著提高了广泛使用的检索模型(如 Bi-encoders 和 late-interaction models)的效果,并在 LoTTE 数据集和 BEIR 数据集上取得了最新的研究成果。
Apr, 2024
这篇论文旨在研究大型语言模型的文档检索能力。实验表明,通过提供少量上下文演示,大模型可以直接生成正确答案的网址,相比于目前的检索方法在开放领域问答中表现更佳。
May, 2023
我们提出了一种新颖的方法,通过在潜在嵌入空间中定义目标,对大型语言模型(LLMs)进行训练。我们的方法利用强化学习(RL),将预训练的 LLM 作为环境。我们训练的嵌入对齐引导语言(EAGLE)代理程序通过迭代地引导 LLM 的生成,使其指向潜在嵌入空间的最佳区域,相对于某些预定义的准则。我们使用 MovieLens 25M 数据集展示了 EAGLE 代理程序的有效性,以满足潜在用户需求的内容间隙。我们还展示了使用状态相关动作集的最佳设计来提高 EAGLE 效率的好处。我们的工作为使用 LLMs 进行受控和基于实际的文本生成铺平了道路,确保与领域特定知识和数据表示的一致性。
May, 2024
我们提出了一种名为 ReLLa 的新框架,即检索增强的大型语言模型,用于零样本和少样本推荐任务,通过语义用户行为检索和检索增强指导调优技术,提高了大型语言模型在推荐系统中的推荐性能和对用户行为序列的理解能力。
Aug, 2023
我们提出了一种基于多模态大语言模型(MLLM)的图像修复框架,名为多模态大语言模型修复助理(LLMRA),通过利用 MLLM 的印象能力来获取通用图像修复的降级信息,并通过 Context Enhance 模块和 Degradation Context based Transformer Network 将这些上下文嵌入整合到修复网络中,提供了输入低质量图像和恢复后高质量图像的低级属性描述。大量实验证明了 LLMRA 在通用图像修复任务中的卓越性能。
Jan, 2024
该论文提出了一种简单的方法,使用大规模语言模型作为信息检索的检索器,从而在零 - shot 场景下提高检索效率。该方法通过在检索词和其他相关域内候选之间进行组合,来辅助语言模型生成更精确的答案,使得检索更加透明,从而实现竞争力更强的检索结果。
Apr, 2023
本文描述了解决 SemEval 2023 Task 2:MultiCoNER II(多语言复杂命名实体识别)问题所构建的体系结构和系统。我们评估了两种方法:传统的条件随机场模型和经过自定义头部微调的大型语言模型(LLM),并比较了这两种方法。我们探索的新想法有:1)衰减辅助损失(带剩余项)- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中;2)三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式;3)任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM,包括 GPT-3,并在最终模型中使用了多种 dropout 和其他超参数设置,该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值,并在测试数据上达到了 0.67/0.61。我们证明,虽然预训练的 LLM 本身相对传统模型带来了很大的改进,但通过上述额外特征 / 损失 / 模型工程技术的增强,我们还可以显著提高宏观 F1 分数。
Jan, 2024
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。
Feb, 2024