- 快速基于规则的解码:重访神经成分句法分析中的句法规则
本研究提出一种基于 GPU 加速的 CKY 解码方法,利用句法规则进行约束,能够有效地进行神经成分分析。在实验中,本方法相比之前的方法有了显著的提高,特别是在交叉领域效果显著,达到了较高的分数。
- EMNLP使用注入噪声的 CLIP 进行图像字幕的文本训练
本文提出一种使用 CLIP 模型和文本数据进行图像字幕生成的方法,只需学习如何将文本嵌入转化为文本,故只需学习一个将固定的嵌入解码的解码器,通过噪声注入进行训练,实现了 SOTA 零样本图像字幕生成。
- AAAILeNo: 可学习噪声对抗鲁棒突出目标检测网络
本文提出了一种轻量级的 Learnable Noise (LeNo) 来防御针对 SOD 模型的对抗性攻击,LeNo 包括一个简单的浅层噪声和嵌入任意 SOD 网络编码器和解码器中的噪声估计。通过基于中心先验的浅层噪声初始化和噪声估计的深度 - 具有 CTC 嵌入的语言增强变压器模型用于语音识别
本文介绍了一种基于联合 CTC-Attention 模型的改进方法 —— 语言增强变压器,它通过在训练过程中将改进的 CTC 信息引入解码器,从而使其更加鲁棒,在 AISHELL-1 语音语料库上的实验表明,字符误差率(CER)减少了高达 - ICLR使用等变平移技术进行蛋白质序列和结构联合设计
本文提出了一种基于上下文特征的三角函数编码器和旋转平移等变解码器,能够在随机初始化的基础上迭代地将蛋白质序列和结构转化为所需状态,从而设计高保真度的蛋白质的新方法。实验结果表明,该方法在多项任务上均优于现有基线算法,而且比基于抽样的方法更快 - 使用块增强变压器提升普通话语音识别
本文提出了一种基于 Conformer 的 Block-augmented Transformer 模型来更好地利用编码器和解码器中各块的互补信息,这个模型在 AISHELL-1 语音识别任务中性能优于当前的最新模型 Conformer,并 - MM基于动作条件的即时运动生成
提出了一种新的框架 ODMO,用于仅以动作类型为条件生成逼真且多样化的长期 3D 人体运动序列,并具有自定义功能。该编码器使用对比学习来创建运动序列的分层嵌入,解码器使用分层解码策略,使得整个运动序列的木乃伊能够被重构,从而实现了有效的运动 - ICML最优可控感知有损压缩
本文基于最小均方误差(MSE)和构造的完美感知解码器之间的输出进行线性插值实现失真和感知质量之间的权衡,提出了两个理论优化的训练框架,并通过实验证明这些框架在实际感知解码中不仅具有理论上的优越性,而且还能产生最先进的性能。
- ACL多语言神经机器翻译:深度编码器与多浅层解码器
对多语种翻译使用深度编码器和浅层解码器 (DEMSD) 的方法,使得在翻译质量没有显著损失的情况下,可获得 1.8 倍的平均速度提升。
- MMMIND: 基于最大互信息的神经解码器
本文提出了一种基于互信息的神经编码器(MIND)来优化数字通信系统中的检测 / 解码问题的最优神经架构。
- 使用 CLIP 潜变量的分层文本条件图像生成
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用 - PP-LiteSeg: 一种优秀的实时语义分割模型
本文提出了一种轻量级的语义分割模型 PP-LiteSeg,其中包括一个灵活和轻量级的解码器(FLD),一个统一的注意力融合模块(UAFM)和一个简单的金字塔池化模块(SPPM),通过减少计算开销和融合输入特征来加强特征表示,结果表明 PP- - ACL神经机器翻译的序列到序列预训练:理解与改进
本文主要研究了 Seq2Seq 预训练在神经机器翻译上的影响,发现 Seq2Seq 预训练可提高翻译多样性,但由于与 NMT 微调存在差异,限制了翻译质量和模型稳健性,进一步提出了域内预训练和输入适应策略可以缓解这些问题。实验结果显示,我们 - 自我知识蒸馏中的前后向查看:双向解码器用于神经机器翻译
介绍了一种使用自我知识蒸馏和双向解码的神经机器翻译模型,使用这种方法可以鼓励自回归 NMT 模型提前规划,实验表明该方法在多个机器翻译数据集上比强 Transformer 基线方法显著优秀。
- 使用统一的语音与文本编码器 - 解码器来改善 ASR
本研究利用外部文本数据提高自动语音识别的性能,探讨了一种方法,在共享解码器和编码器部分的集合中,联合训练自动语音识别和掩码语言模型。经实验验证,该方法在测试中取得了非常好的效果,耗时不增加。
- 递归解码:基于情境认知的基于语境的语言理解中的组合生成方法
本文提出了 Recursive Decoding (RD) 算法,针对 “decode-side” 推理,通过逐步预测每个单词来训练 seq2seq 模型,进而在 grounded language understanding 中,以及 s - MM从图像到 Imuge:免疫图像生成
介绍了一种图像防篡改的生成方案,利用 U-Net, 损毁定位网络和解码器等来生成视觉上不可分辨的免疫图像,能够恢复被攻击后的原始内容。
- ACL多语言机器翻译解析
本研究研究多语言机器翻译的训练,并发现多语言训练对 encoder 有益,而仅对低资源语言的 decoder 有益,提出了方法来改善性能。
- EMNLP使用 BART 进行词汇约束文本生成的并行微调
本文介绍了一种利用 Constrained BART 的方式进行词汇约束文本生成,并通过将任务分为两个子任务,将生成的负担从解码器转移到编码器,从而提高了句子质量和生成效率。实验结果表明,CBART 能够生成高质量和多样性的文本,同时显著加 - CVPR使用外观流构建渐进补充网络用于鱼眼图像矫正
本文提出了一个特征级的校正方案,并引入一个平行互补结构来解决畸变矫正网络中的模糊性能和模糊纠正等问题。实验结果证明了该方法的优越性。