- 面向低资源语言的数据高效语音合成无监督预训练
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
- AAAI多任务大模型设备调优
本文提出了 Device Tuning 方法来提高自注意力模型的计算效率,并通过压缩表示减少设备与云端之间的通信,有效支持多任务学习。
- 使用显著性提示的无监督预训练提高低数据实例分割
本研究提出了一种基于未标注图像的显著性策略和 Prompting 技术的无监督预训练方法,包括三个步骤:显著性掩码提取、Prompt-Kernel 匹配和核监督。在低数据环境中有效地提高了 QEIS 模型的性能和收敛速度。
- Wukong-Reader:用于细粒度视觉文档理解的多模态预训练
本文提出的 Wukong-Reader 通过各种新的预训练目标进行训练,以利用文档文本线中嵌套的结构知识。本文还介绍了文本线 - 区域对比学习、遮罩区域建模和文本线网格匹配等方法,以增强文本线的视觉和布局表示。实验结果表明,我们的 Wuko - 评估零样本通识推理的置信度而非困惑度
本文提出一种新的通识推理度量标准 ——Non-Replacement Confidence (NRC),通过 Replaced Token Detection (RTD) 预训练目标在 PLMs 上进行推理,提高了两个通识推理基准数据集和七 - SatMAE: 为时间序列和多光谱卫星图像预训练 Transformers
通过使用遮蔽自动编码器(MAE)的卫星图像的预训练框架 SatMAE,我们结合时间嵌入和分组打包多光谱数据以提高预训练能力,进一步提高基准数据集上的监督学习性能(最高可达 7%),并在后续的遥感分类任务中表现出强大的转移学习能力(最高可达 - ICML利用视频进行无动作预训练的强化学习
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的 - ECCV4DContrast:基于动态对应的对比学习用于三维场景理解
我们提出了一种将 4D 动态物体先验知识注入到学习的 3D 表示中的方法,并利用合成的 3D 形状和对比学习在 3D-4D 约束下进行数据增强,在下游的 3D 语义场景理解任务中,能够有效地提高表现。实验证明,我们的无监督表示学习方法能够在 - 通过人内标识规范化释放无监督预训练的潜力,用于个体重新识别
本文设计了一个基于对比学习管道的无监督预训练框架 UP-ReID,旨在解决细粒度 ReID 特征学习中的两个关键问题,并介绍了全局一致性和局部补丁之间的内在对比约束,在多个流行的 Re-ID 数据集上进行了广泛的实验,结果表明,我们的 UP - FILIP:细粒度的交互式语言图像预训练
本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模 Fine-grained 互动语言 - 图像预训练(FILIP)方法,并构建了一个用于预训练的新的大规模图像 - 文本对数据集。实验结果显示,FILIP 在多个视觉 - 语言任务中 - SLAM: 通过语音 - 文本联合预训练实现语音和语言建模的统一编码器
将无监督预训练应用于语言理解,在语音和文本之间建立单一模型,包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进,同时在 GLUE 任务中也取得了不俗的竞争力。
- KDD学习恶意软件行为的可解释表示
本文介绍了一种使用专业检测器和神经网络来识别威胁和恶意软件的方法,并且使用集成梯度方法来突出表现出威胁的特征行为模式,最后通过大规模数据的实验,探索了卷积神经网络、LSTMs 和变形金刚网络的有效性及无监督预训练技术在检测 njRAT 等恶 - ICCVDocFormer: 文档理解的端到端 Transformer
本文介绍了基于多模态变压器的 DocFormer 架构,它以无监督预训练方式运行,能够更好地理解各种格式和布局的文档,并结合了文本、视觉和空间特征,实现了多模态自注意层和共享学习空间嵌入等特点,使其在四个数据集上均取得了业界领先的结果。
- 探索识别非分布极限
该研究论文表明,大规模预训练的 transformers 网络可以显著提高深度神经网络在接近 out-of-distribution 检测上的性能,包括基于图像和基因组学数据的任务,并探索了利用少量样本进行 outlier exposure - ECCV面部表征学习的预训练策略和数据集
本文讨论了学习通用人脸表征的最佳方法,介绍了用于面部表征学习的综合评估基准,研究了人脸表示学习的两种方法(监督和非监督预训练),并调查了训练数据集的重要特征,通过大量实验,发现无监督的预训练方法在各种人脸任务中表现出一致性和显著的准确性提高 - 虚空中的行为:无监督主动预训练
通过在非有奖励的环境中最大化抽象表示空间中的非参数熵,APT 探索了环境,从而避免了具有挑战性的密度建模,并且在具有高维观察的环境中表现出色。在 Atari 游戏中,APT 在 12 种游戏上取得人类水平的性能,并且相对于经典的全监督 RL - AAAIAT-BERT: 针对缩略语识别的对抗训练 BERT 模型,SDU@AAAI-21 胜利解决方案
本文提出了一个名为 AT-BERT 的对抗训练 BERT 方法,它采用预训练 BERT 进行更好的语义表示,结合 FGM 对抗性训练策略进行微调,采用多个 BERT 变体的表示,显著提高了 SDU 挑战赛的首字母缩略词识别任务的性能。
- ACL端到端的神经检索器训练,用于开放领域的问答
本篇论文通过系统地研究检索器的预训练,提出了一种利用反向填空任务和掩盖显著跨度的无监督预训练方法,并在问题 - 上下文对上进行有监督微调的方法。此外还探讨了两种 OpenQA 模型的端对端有监督培训方法,并展示了这些方法在性能方面相对于较小 - CVPR无监督预训练用于个体再识别
本文介绍了一个名为 LUPerson 的大规模未标记人物重识别数据集,并尝试进行无监督预训练来提高学习到的人物 Re-ID 特征表示的泛化能力,探究了数据增强和对比损失等方面对学习 Re-ID 特征的关键因素,其使用预训练模型可以获得在现有 - 利用渐进式层丢弃加速基于 Transformer 的语言模型训练
本文提出了基于渐进式层丢弃的方法,通过模型结构和训练技术的提升效率,加速了基于 Transformer 的语言模型的训练,相较于基准实验可以在每个样本上平均节省 24% 的时间,让预训练速度提高 2.5 倍,同时保持强的知识可迁移性。