- 全局工作空间下的半监督多模态表示学习
本文提出了一种神经网络体系结构,灵感来源于认知学的 “全球工作区” 的概念,可以通过自监督训练对两种输入方式进行对齐和翻译,并且将全球工作区表示应用于下游分类任务和强大的转移学习。
- IJCAISS-BSN: 自监督盲点关注网络,用于非局部自相似去噪
本文提出一种新颖的自我相似注意力机制(SS-Attention),并将其集成到基于自我相似的盲点网络(SS-BSN)中,在自我监督图像去噪任务中通过实验证明,在智能手机图像去噪数据集(SIDD)和达姆斯塔特噪声数据集(DND)基准数据集上, - ICLRQAID: 基于问答启发的少样本意图检测
将意图识别重新定义为一个问答检索任务,通过批量对比损失采用了两阶段训练策略,提高了查询表示方法和同一意图答案间的上下文化令牌级相似度得分,最终在少样本意图识别测试上达到了最先进的性能。
- CVPR基于自监督的模拟到现实迁移的无标记相机与机器人姿态估计
提出了一种端到端的姿态估计框架,结合深度学习和几何视觉解决机器人姿态的问题,并利用自我监督的方法以及深度学习的技术训练神经网络,最终在真实环境的两个公共数据集上验证了该方法的有效性,并将其应用于视觉伺服系统中。
- 基于图文自监督训练的多模态预训练模型泛化算法
本研究提出了一种多模态预训练泛化算法,有效克服了神经机器翻译中缺乏视觉信息和准确性等难题,通过搜索引擎从现有句子中寻找多张图片,通过视觉信息与文本的关系完成图文自监督训练任务,得到更加有效的视觉信息,并证明基于该算法的翻译效果比基线模型高出 - CVPRDeepMapping2: 自监督大规模 LiDAR 地图优化
DeepMapping2 提出了两种新技术,基于地图拓扑的组织训练数据批次,以及借助成对的点云配准进行自监督局部 - 全局点云一致性损失,解决 DeepMapping 在大规模数据集中计算慢、全局定位网络收敛不足和缺少闭环和精确跨帧点对应等 - EMNLP部署检索为基础的任务导向对话响应模型
本文提供了一种 3 步程序来开发满足业务要求的对话模型,包括从历史对话中创建模板、使用神经网络建立对话上下文和业务约束,以及通过自我监督和受训者的方法优化模型,并进行实验验证并在人机交互的环境中应用于商业对话。
- 高效神经网络搜索的可扩展代理
该研究提出了一个使用自监督少样本训练的可扩展代理 (Eproxy) 和离散代理搜索 (DPS) 方法,以解决神经架构搜索 (NAS) 中的计算问题和多模态下游任务的问题。通过使用不可训练的卷积层,Eproxy 中的非线性优化空间可以区分体系 - ECCV利用自监督训练进行意外动作识别
该研究提出了一种多阶段框架,利用固有偏差(如运动速度、运动方向和先后顺序)识别视频中意图转变为无意的点,并通过自监督训练进行了增强表示,以进行无意识行为识别任务。研究发现,该框架和表示方法对无意识行为的识别任务具有较强的性能。
- 自监督激光雷达场景流三维物体检测
本文利用自监督多帧流表示和单帧三维检测假设之间的关系,将自监督训练策略与监督三维检测结合,提出一种利用场景流估计的自监督训练方法来增强三维检测性能的技术。实验表明,所提出的自监督预训练显著提高了三维检测性能。
- ACL同一作者还是同一主题?走向内容无关的风格表述
利用控制会话或领域标签的方法改变作者验证任务来训练文体表征,从而更好地表示独立于内容的文体维度。
- 基于 VAE 的推荐系统的正负评论
本文提出 M&Ms-VAE+,是针对现有 M&Ms-VAE 模型中用户无法「正面批判」的问题的扩展,它允许用户进行正面和负面批判,并设计了一种新的自监督式批判模块。实验结果显示,M&Ms-VAE + 在推荐和解释性能方面与 M&Ms-VAE - CVPR视听呼应
本研究提出了一种使用交叉模态转换模型的视听匹配任务,该模型使用音频 - 视觉注意力将视觉特性注入音频,以生成逼真的音频输出,并使用自我监督训练目标从 “野外” Web 视频中学习声学匹配,以便将人类语音成功转换为多种实际环境,在实验中证明该 - OSSID: 在线自我监督实例检测用于姿态估计
本研究提出了一种名为 OSSID 的框架,通过使用基于零样本学习的缓慢姿态估计器来自我监督训练快速检测算法,这使得估计器的过滤效果得到大幅改善,从而大大提高了姿态估计的速度。
- CVPR自监督视频 Transformer
本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图,实现了视频内 actions 的时空不变性,并且该方法不再需要使用负样本或专用存储器。该方法在动作 - SketchEdit: 用局部草稿实现无蒙版图像局部处理
基于草图的图像操作旨在通过用户的输入草图修改图像。本文提出一种新的草图驱动图像操作方法,名为无蒙版本地图像操作,只需要用户提供草图输入,并利用整个原始图像。
- 从点云序列学习场景动态
提出了一个新问题 -- 顺序场景流估计(SSFE),旨在从给定序列中估计所有点云对的三维场景流。引入 SPCM-Net 架构来解决该问题,利用时间和空间的多尺度相互关系以及顺序不变的循环单元来聚合关联。通过实验验证表明,与仅使用两个帧相比, - 神经分析与合成:基于自监督表示重构语音
提出了一种神经分析合成(NANSY)框架,它可以操作任意语音信号的声音、音高和速度,通过使用信息扰动提出了一种新的训练策略,使 NANSY 具有高重构质量和可控性,不需要任何瓶颈结构,使用全自监督训练方式,可以在多个应用领域获得显著的性能提 - ICCV基于条件估计的自监督三维人脸重建
本研究提出了一种条件评估框架(CEST),通过对视频进行自监督训练,从 2D 单视图图像中学习 3D 面部参数。该框架可高效地利用面部参数的统计依赖性进行评估,采用了反射对称性和一致性等方法,以提高面部参数的分离效果,并通过定量和定性实验证 - 关系预测作为改进多关系图表示的辅助训练目标
本文提出了一种新的自监督训练目标方法,通过简单地将关系预测纳入常用的 1 对所有目标中,实现了对多关系图谱表示学习的良好表述,并通过多个数据集和模型的实验表明,关系预测可以显著提高常用的 KB 完成评估任务中的实体排名效果,并在高多关系数据