- 通过有效的预训练任务提升图表问答能力
为了解决现有视觉问答模型在图表问题上的不足,本研究通过行为分析,提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解,将预训练模型(MatCha-v2)应用在三个图表数据集上,相比基准模型,性能平均提升了 1.7% - 图基础模型自我监督预训练调研:基于知识的视角
这篇论文综合了基于图知识的微观和宏观视角,对图基础模型的自我监督预训练任务进行了综述和分析,并包括了 9 个知识类别和 25 个预训练任务,以及各种下游任务适应策略。
- AAAIKG-TREAT:利用知识图谱协同患者数据预训练的治疗效果估计
通过利用大规模的观察性病人数据和生物医学知识图谱,本文提出了一种新型的预训练和微调框架 KG-TREAT 来增强治疗效果评估,该方法构建了双重关注的知识图谱并整合了深度双层关注协同方法,通过对病人数据和知识图谱的深入信息融合,能够对治疗相关 - CVPR丰富监督提升视觉 - 语言预训练
提出了一种新的预训练范式 —— 基于网络截图的强监督预训练(S4),利用大规模网络截图渲染的数据进行视觉语言模型的预训练。通过使用网络截图,可以获取在图像 - 文本对中不存在的丰富的视觉和文本线索。在 S4 中,利用 HTML 元素的树状层 - LORE++:用于表格结构识别的逻辑位置回归网络与预训练
我们提出了一个名为 LORE 的新的 TSR 框架,它以逻辑位置回归问题为模型,通过在统一网络中回归表格单元的逻辑位置和空间位置来解决表格结构识别问题。我们进一步提出了两个预训练任务来丰富 LORE 在特征层面的空间和逻辑表示,形成升级版的 - AAAI赋予 Transformer 系统性组合能力的探索
提出了一种名为 CAT 的具有组合性意识的 Transformer 模型以及两个新的预训练任务,实验结果表明 CAT 在组合性感知任务上优于基线模型,对标准语言理解任务的有效性影响较小。
- Nova$^+$: 二进制生成式语言模型
通过在二进制代码语料库上预训练的大型生成式语言模型(LLMs),我们开发了 Nova 和 Nova$^+$,比 GPT-3.5 和其他现有技术在二进制代码的相似性检测,二进制代码的翻译和二进制代码的恢复三个下游任务上表现更好,并通过两个新的 - 细粒度相互作用中的蛋白质 - 配体结合表示学习
我们提出了一种自监督学习的方法来学习蛋白质 - 配体结合表示,通过识别复杂的结合模式,从细粒度的相互作用中获得丰富的结合信息。我们的方法在各种结合任务中展现出优势,包括蛋白质 - 配体亲和性预测、虚拟筛选和蛋白质 - 配体对接。
- 使用特定的预训练任务提高商业文件信息提取
在这篇论文中,我们使用了一种预先训练在商业文件集合上的语言模型 LayoutLM,并引入了两个新的预训练任务,进一步提高其提取相关信息的能力。第一个任务旨在更好地理解文档的复杂布局,第二个任务侧重于数字值及其数量级。通过这些任务,模型可以学 - MM分离与定位:重新思考文本的文本视觉问答
TextVQA 问题解答中,我们提出了一种名为 Separate and Locate (SaL) 的新方法,该方法通过探索文本的上下文线索和设计空间位置嵌入来构建 OCR 文本之间的空间关系,从而在 TextVQA 和 ST-VQA 数据 - ACL口罩策略对语言模型知识记忆的影响
本文的目标是建立对知识获取过程的更好理解。我们利用一系列预训练任务注入知识到模型中,并通过测量模型回答事实性问题的能力测试其知识保留能力。我们的实验表明,掩盖实体和基于逐点互信息的相关跨度的原则性掩盖方法可以更好地保留事实知识,而遮盖随机顺 - MASTER: 多任务预训练的瓶颈掩蔽自编码器是更好的密集检索器
本文提出了一种名为 MASTER 的多任务预训练模型,以在压缩语义信息的同时,统一和整合多种具有不同学习目标的预训练任务,实现了语义信息与关系在稠密向量中的集成,该方法在多个大规模的文本检索数据集上都表现出优异的性能。
- LOViS: 为视觉语言导航学习方向和视觉信号
本文设计了一种具有显式方向和视觉模块的神经代理,通过特定的预训练任务,强化代理的空间推理和视觉感知,在 Room2room 和 Room4room 数据集上均取得了最先进的结果。
- 知其所在,知其所含:面向文档理解的统一词块预训练
本文提出了一种名为 UTel 的基于文本和布局的统一预训练语言模型,它通过两个预训练任务,使用裁剪的相对位置嵌入来处理文档布局的关系,能够无需图像模态高效处理任意长度序列,且在多个下游任务上取得了优越表现。
- 一个大规模的搜索数据集,用于无偏见的学习排序
介绍了一个新的数据集 Baidu-ULTR 和基准 ULTR 算法在其上的性能,有利于长尾查询的排名和排名的预训练任务。
- 运用句法依存预测任务提高中文语义错误识别的预训练语言模型
本研究利用 BERT 模型结构和语法相关的预训练任务,构建了一个高质量的基于语言学的中文语义可接受性语料库,并在该数据集上实验,证明本研究方法优于通用预训练模型和语法模型。
- COLINGGAP: 面向知识图谱到文本生成的图感知语言模型框架
通过将图感知元素融合到现有的预训练语言模型中,提出了一种掩蔽结构来捕获邻域信息和一种新型类型编码器,以便于基于图中的拓扑和类型信息解释 KG-to-text 生成模型(在不需要额外的预训练任务的情况下),实验结果表明我们的模型具有较高的竞争 - IJCAI视觉 - 语言预训练模型综述
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
- SPT-Code: 序列到序列预训练,用于学习源代码表示
本文介绍了一种新的基于序列到序列(sequence-to-sequence)的编码表示学习预训练模型 SPT-Code,通过三种特定的预训练任务,可以解决现有预训练任务在自然语言编码中存在的问题,该模型可以有效地应用于五个编码相关的下游任务 - ACLJointGT: 知识图谱文本联合表征学习用于文本生成
该论文提出了一种名为 JointGT 的图文联合表示学习模型,该模型可应用于知识图谱自动文本生成。相较于现有的预训练模型,JointGT 将考虑图结构因素进行编码,并利用新的预训练任务(包括分别对文本和图进行重构以及通过最优传输实现图文一致