- 非自回归个性化捆绑生成
本文介绍了一种基于非自回归机制的个性化捆绑生成方法,采用了预训练技术和图神经网络来提取用户偏好和物品兼容性信息,并使用自注意力机制的编码器来提取全局依赖模式,进而设计了一种置换等变的解码架构,能够直接一次性输出所需的捆绑,实验结果表明,所提 - 基于知识图谱和改进注意力机制的文本分类
为了解决文本中的语义模糊问题,我们提出了一个模型,创新地将知识图谱与改进的注意机制结合起来。该模型在字符和词级别上运作,通过集成概念来加深对文本的理解。我们首先采用信息增益选择重要词,然后采用编码器 - 解码器框架对文本及相关概念进行编码。 - IPAD:一种基于迭代、并行和扩散的场景文本识别网络
提出了一种使用并行和迭代解码器,并采用易先原则解码策略的替代方案,将文本识别视为基于图像的条件文本生成任务,并采用离散扩散策略,确保双向上下文信息的穷举性探索。大量实验证明,该方法在基准数据集上取得了优越的结果,包括中英文文本图像。
- GPT-4 增强型自动驾驶多模态基础:借助大型语言模型的跨模态注意力
在自动驾驶车辆领域中,准确识别指挥者意图并在视觉环境中执行语言指令是一个巨大的挑战。本文介绍了一个复杂的编码器 - 解码器框架,用于解决自动驾驶车辆中的视觉 grounding 问题。我们的 Context-Aware Visual Gro - CrackCLF: 基于闭环反馈的自动道路裂缝检测
基于深度学习的自动路面裂缝检测中,通过将闭环反馈嵌入神经网络,提出了 CrackCLF 模型,通过前端分割生成裂缝地图,并通过后端的多尺度损失函数修正标签和裂缝地图之间的高阶不一致性,从而解决了开环系统的问题,并在多个公共数据集上超越其他方 - 更长范围上下文化的遮蔽自编码器
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表 - PointHR: 探索高分辨率三维点云分割架构
我们在这篇论文中探讨了高分辨率架构用于三维点云分割,提出了一种名为 PointHR 的统一流水线模型,并通过在 S3DIS 和 ScanNetV2 数据集上的实验证明其优越性。
- 一种改进的食物能量估计的编码器 - 解码器框架
通过改进的编码器 - 解码器框架,我们能够从单个单目图像中估算食物的能量信息,通过在易于提取的格式中嵌入图像并由解码器提取能量信息,实现超过 10% 的改进,MAPE 上高于以往的能量估算方法超过 30 kCal 的改善。
- ViTEraser: 利用视觉 Transformer 和 SegMIM 预训练技术进行场景文本擦除
本研究提出了一种基于 ViTs 的简单而有效的文本擦除器,在编码器 - 解码器框架内集成文本定位和修复,通过 SegMIM 方法进行端到端预训练,实现了在场景文本去除方面的最先进性能提升,表明了 ViTs 在此领域的广泛应用前景。
- 自我知识蒸馏用于外科手术阶段识别
本文通过引入自我知识蒸馏框架来改善手术阶段识别模型,实验结果表明,基于这一框架的模型在 4 种流行的 state-of-the-art 方法上的准确度和 F1-score 分别提高了 3.33%和 3.95%,并且即使使用 75%的训练集, - 我看到了死人:图像文本模型的灰盒对抗攻击
本文提出了一种针对图像到文本模型的灰盒对抗攻击方法,并通过实验验证了其有效性。
- 歌曲中的美感翻译:联合学习调整旋律与翻译歌词
本文提出了一种新颖的编码器 - 解码器框架 ——Lyrics-Melody Translation with Adaptive Grouping (LTAG),通过自适应音符分组模块,可以同时翻译源歌词并确定每个解码步骤中对齐音符的数量,通 - 基于混合深度学习技术 (CNN+GRU) 的图像字幕算法
本篇论文主要介绍了一种基于 CNN-GRU 编码器 - 解码器框架的图像描述生成模型,相较于常用的 CNN-LSTM 模型,该模型考虑了图片的语义信息和时间复杂度,且在时间复杂度和准确性上优于目前最先进的 LSTM-A5 模型。
- 问答生成模型中屈折形式是冗余的
本文研究了现有 RNN-based 和预训练语言模型在提问生成中使用 encoder-decoder 架构的性能问题,在此基础上提出了利用词形变换来改善提问生成性能的方法,并在 SQuAD 和 MS MARCO 数据集上进行实验证明,相比对 - CVPRLayoutFormer++:基于约束串行化和解码空间限制的条件图形布局生成
LayoutFormer++ 提出了一种序列到序列的条件布局生成方法,采用编码器 - 解码器框架和 Transformer 模型实现,通过约束序列化机制和解码空间约束策略,能够更好地满足不同的用户约束条件,生成更高质量的布局。
- ECCV关系查询下的时间行为检测 (ReAct)
本文提出了一种名为 ReAct 的时域动作检测模型,采用编解码框架和动作查询相似于 DETR,使用关系注意力机制和两个损失函数加强动作分类的训练,最后通过预测每个动作查询的本地化质量来区分高质量的查询,该模型在 THUMOS14 上取得了最 - ACL跨模态记忆网络用于放射学报告生成
本文提出了一种跨模式记忆网络 (CMN) 来增强医学影像学中放射学报告自动生成的编码器 - 解码器框架,实验结果表明该模型能够更好地对齐放射图像和文本信息,具有更高的临床指标准确性。
- WWW金融因果关系提取的生成方法
该论文探讨了一种利用编码器 - 解码器框架和指针网络实现因果关系提取的生成式方法,并使用金融领域的因果数据集进行实验,结果表现出了极高的性能水平。
- 基于 Transformer 网络的住院历史抽象化摘要
本研究提出了一种使用编码器 - 解码器框架的抽象概括方法,其中使用 Longformer 神经网络作为编码器,BERT 作为解码器,与指针生成网络相比,在某些概括任务中表现出更高的质量。我们还与有经验的医生进行了研究,将我们的模型与 PGN - ACL基于图卷积的对比学习在医学影像学检查结果归纳中的应用
提出一种基于 Encoder-Decoder 框架且同时利用附加知识和原始结果的方法,利用图神经网络处理视频关系信息,采用对比学习方法强化关键词在结果中的表述,以提高放射学报告印象部分的准确性。