编码器 LLMs 骨干的定向可视化
利用大型语言模型将嵌入向量转化为可理解的叙述,解决了嵌入向量难于解释和使用的问题,增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。
Oct, 2023
本文提出了一种新的神经机器翻译方法,采用层聚合和多层注意力机制,通过引入辅助正则化项促进不同层捕获多样化信息,实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。
Oct, 2018
我们引入了 LLM2Vec,这是一种简单的无监督方法,可以将任何解码器模型转换为强大的文本编码器,通过三个简单步骤:启用双向注意机制,掩码下一个标记预测和无监督对比学习,在英语词和序列级任务中,LLM2Vec 在词级任务上远远超过编码器模型,在 Massive Text Embeddings Benchmark (MTEB) 中获得了新的无监督最新性能,通过与有监督的对比学习相结合,我们在 MTEB 上实现了使用公开数据训练的模型的最新性能。
Apr, 2024
提前训练的语言模型能够通过改进序列标记任务的表现,优于基于自回归语言模型的编码器,并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。
Jan, 2024
为了解决 BERT 模型在 NLP 任务中的解释和可视化问题,本文提出了一种工具 VisBERT,通过可视化 BERT 模型中的上下文令牌表示,观察该模型在每个编码器块中如何转换语义表达,并探索其推理步骤或潜在缺陷。
Nov, 2020
通过简洁明了的数学框架和清晰的图示,详细解释了神经语言模型的主要类型,包括 BERT 和 GPT2,同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。
Jan, 2024
该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性,这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,该方法与现有方法学不同,可以直接处理视觉标记。该研究发现,这些大型语言模型能够提升生物医学图像应用的性能,包括 2D 和 3D 的视觉分类任务,作为即插即用的增强器。更有趣的是,该提出的框架在 MedMNIST-2D 和 3D 的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。通过这项工作,我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径,并丰富对其在这一专业领域的潜力的认识。
Mar, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
利用 Transformer 架构的大型语言模型在教育领域引起了广泛关注,主要应用包括生成和评估教育材料、自动问题生成等,其中 GTP-3 和 BERT 是最受欢迎的模型。
May, 2024