- FCTalker:细粒度和粗粒度上下文建模用于生动的对话语音合成
FCTalker 是一种基于 fine and coarse-grained encoder 的语音合成模型,使用了基于 BERT 的对话编码器来建立话语历史与语音合成之间的单词级别依赖关系,以提高合成语音的表现力和适应性。
- EMNLPPALT: 轻量化参数的语言模型传递在知识图谱完成中的应用
该论文提出了一种参数轻量级的迁移学习方法,使用预训练语言模型进行知识图谱补全,在固定几个新参数的同时保持原来的语言模型不变,通过在原始 LM 之上引入一个参数轻量级编码器来建立模型,实现 KG 补全任务。实验表明,通过调整比微调更少的参数, - 基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究
该研究提出了一种新的语音识别模型,使用动态增强和电话对齐网络来优化编码器和解码器,在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果,结果表明 F1 可以达到 60%。
- ICLR使用等变平移技术进行蛋白质序列和结构联合设计
本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器,能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态,从而设计高保真度的蛋白质的新方法。实验结果表明,该方法在多项任务上均优于现有基线算法,而且比基于抽样的方法更快 - 使用遮蔽视觉预训练的真实世界机器人学习
本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练,在多种机器人任务和实体上表现出了较高效果,并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练,展示了对于机器人学习的视觉预培训的规 - 基于数据点的注意力机制的 One Shot 学习模型
本文提出使用已训练好的特征表示,改善元测试期间每个支持实例的表示,进而提高 Few-shot 分类的性能,通过实验证明,该方法在各模型背景下都有较好的表现,达到了最新的状况。
- MM一种自编码器机制框架
本文提出了自动编码器机制的理论框架,研究了编码器的两个基本属性:双射映射和数据解缠,并给出了满足这两个属性中任意一个或同时具备的编码器的构造方法。基于该理论框架,我们解释了一些自动编码器的实验结果,证明自动编码器在降维和分类方面相较于 PC - 自适应局部隐式图像函数用于任意比例超分辨率
本研究提出了一种新的自适应局部图像函数(A-LIIF)模型,旨在通过采用编码器和扩展网络,建模多个局部隐式图像函数的加权组合,从而缓解局部隐式图像函数(LIIF)模型在边缘周围出现结构失真和环状伪影等问题,实现图像超分辨率的高精度重建。
- ECCVSiRi: 一个用于基于 Transformer 的视觉定位的简单选择性微调机制
本文研究如何使用现代视觉语言转换器实现更好的视觉定位,并提出一种简单而强大的选择性重新训练(SiRi)机制。使用 SiRi 可以显着优于以前的方法,在三个受欢迎的基准测试中表现出更好的性能,即使在有限的训练数据下也表现出惊人的优越性。同时, - ECCV从共享对比语言图像预训练中学习视觉表征
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
- 使用块增强变压器提升普通话语音识别
本文提出了一种基于 Conformer 的 Block-augmented Transformer 模型来更好地利用编码器和解码器中各块的互补信息,这个模型在 AISHELL-1 语音识别任务中性能优于当前的最新模型 Conformer,并 - MM基于动作条件的即时运动生成
提出了一种新的框架 ODMO,用于仅以动作类型为条件生成逼真且多样化的长期 3D 人体运动序列,并具有自定义功能。该编码器使用对比学习来创建运动序列的分层嵌入,解码器使用分层解码策略,使得整个运动序列的木乃伊能够被重构,从而实现了有效的运动 - 神经机器翻译幻觉成因探究
本文提出使用探测方法从模型结构的角度研究机器翻译中幻觉翻译的存在原因,实验发现,幻觉翻译通常伴随缺陷的编码器,特别是嵌入和脆弱的交叉关注,而交叉关注有助于减轻编码器引起的某些错误。
- 利用时代性困难字幕进行课程学习的自动语音字幕化
本文提出了一种算法 Epochal Difficult Captions,通过使用课程表和难度水平来修改目标标题,更好地辅助自动音频字幕任务中任何模型的训练,我们在三个系统上测试并表明使用 Epochal Difficult Caption - 对比学习心电图表示增强方法分析
本文系统地研究了对心电图信号进行对比自监督学习的各种增强方法的有效性并确定了最佳参数。通过实验得出,选择特定复杂度范围内的增强方法对于自监督对比学习效果更佳,而增强方法太简单或太复杂都会妨碍模型高效学习泛化表征,本研究可为未来自监督对比学习 - 基础模型的持续学习:潜在重放的经验研究
本研究探讨大规模预训练模型在下游持续学习场景中的作用,发现使用非参分类器可以在低计算开销下达到合理的 CL 性能;解释了更广泛数据预训练模型的表现,探讨了它们的表征相似性和迁移属性;展示了自监督预训练在下游领域上的有效性,和提高潜在 CL - ACL对比对齐何时提高多对多神经机器翻译的效果?
在许多对多神经机器翻译中,使用单词级对比目标来利用单词对齐具有 0.8 BLEU 提升,并发现编码器的句子检索性能与翻译质量高度相关,这解释了所提出方法的影响所在,从而为未来的深入研究提出了动机。
- 合作 - 对抗性对比学习:正样本和负样本均可直接学习
本文提出了一种有原则的方法来直接学习正样例和负样例,以配合和对抗的方式通过最大化和最小化对比损失来学习,获得了较好的预训练结果并开源了源代码和预训练模型。
- ECCV高保真 GAN 逆向生成及其 Padding 空间
该研究提出了一种基于 padding space 的编码器结合 laten space 的方法,用于 GAN 的图像编辑任务,改善了空间细节的恢复质量,并实现了对图像更加灵活的编辑操作。
- CaSS:面向多元时间序列分类的通道感知自监督表示学习框架
本文提出了一种统一的通道感知自监督学习框架(CaSS),通过设计一个新的基于 Transformer 的编码器(CaT)来捕捉 MTS 不同时间通道之间的复杂关系,并结合 Next Trend Prediction(NTP)和 Contex