encoder-decoder architectures | BriefGPT

关键词encoder-decoder architectures

搜索结果 - 16

编码器 - 解码器模型用于短期内河船舶轨迹预测
通过对内河航行特定因素的影响，比较了不同的编码器 - 解码器架构，包括变压器编码器 - 解码器，用于预测内河船只的下一个位置，并且结果表明，将回归任务重新定义为分类问题并引入内河特定特征能够产生最低的位移误差。
PDFa month ago
COLING传统混合解码器与 CTC / 注意力解码器在连续视觉语音识别中的比较
通过对少样本数据情况下传统 DNN-HMM 解码器和先进的 CTC/Attention 解码器的研究比较，我们发现传统范式在数据稀缺的情况下具有更好的识别率、较短的训练时间和更少的参数。
PDF4 months ago
ReconU-Net: 采用反投影引起的跳跃连接的 U-Net 结构进行 PET 图像直接重建
通过引入一种新的背投影诱导的 U-Net 形状的架构 ReconU-Net，本研究旨在使用基于深度学习的直接正电子发射断层扫描（PET）图像重建来改进重建图像的准确性，并通过与其他无跳跃连接的编码器 - 解码器架构进行比较，分析直接 PET
PDF7 months ago
CV-Attention UNet：基于注意力机制的 3D 脑血管增强 TOF-MRA 图像分割
通过使用时飞磁共振血管成像等技术，本文提出了 3D 脑血管关注 UNet 方法，并通过交叉验证和标注数据验证了其在精确识别脑血管结构方面的优越性。
PDF8 months ago
图像、3D 动画和视频的条件生成建模
通过探索条件生成模型的新的形式和在图像、3D 动画和视频中的创新应用，本论文试图在计算机视觉领域推动创新。我们的研究聚焦于提供噪声和视觉数据的可逆变换的体系结构，并应用编码器 - 解码器结构进行生成任务和 3D 内容操作。在所有情况下，我们
PDF8 months ago
序列到序列的西班牙语预训练语言模型
本文介绍了在西班牙语语料库上预训练的著名编码器 - 解码器架构 ——BART、T5 和 BERT2BERT 风格模型。通过对各种序列到序列任务（包括摘要、改写和生成式问答）的综合评估，我们发现所有模型的性能竞争力，其中 BART 和 T5
PDF9 months ago
抽象会议总结：一项调查
本文对多方会议情境下的自动摘要这一任务涉及到的难点、数据集以及系统进行了综述，并介绍了未来的研究方向。
PDF2 years ago
分割问题的迁移学习：选择正确的编码器并跳过解码器
本文研究了迁移学习在分割问题中的影响，发现迁移学习编码器有利于下游分割任务，而迁移学习解码器并不帮助；同时提出了一种对无标签数据进行自我重构的对比自监督方法，以提供适合于分割问题的编码器。
PDF2 years ago
音频字幕的标题特征空间规则化
本文提出了一种两阶段的语音字幕框架，旨在解决多个字幕与同一段语音的相关性问题。第一阶段采用对比学习构建代理特征空间以减少字幕之间的距离。第二阶段利用代理特征空间作为额外监督以鼓励模型优化方向。经过实验验证，这种方法是有效的，并且在 4 种编
PDF2 years ago
超越短时记忆：长期开放领域对话
该研究探讨了长期对话设置中的开放领域对话模型表现问题，并创建多个对话会话的数据集来研究长文本模型，发现召回前期对话历史的检索增强方法和概述方法胜过标准编码解码架构，成为更好的选择。
PDF3 years ago
部分观测下的代理建模用于深度强化学习
为了消除现有的管理机构建模中对受控代理的局部信息和选择动作的假设，该研究使用编码器 - 解码器结构从受控代理的局部信息中提取表示，并在训练期间使用管理代理的观察和动作来学习提取关于管理代理的表示，从而增强了管理代理的决策策略。提供了对合作、
PDF4 years ago
UCLID-Net: 物体空间中的单视角重建
本文提出了一种新的深度几何学习方法，通过构建保留欧几里得空间结构的三维潜在空间，可以提高网络在形状识别和重建上的性能，并且在 ShapeNet 和真实世界数据集上表现优于目前最先进的方法，并且能够自然而然地扩展到多视角重建。
PDF4 years ago
MM利用卷积神经网络在全球范围内进行城市区域的高分辨率土地覆盖制图
从高分辨率图像和有限的带噪声标记数据中生成城市区域的七类土地覆盖图的方法，使用 UNet、Resnet 编码器的 UNet 和 Deeplab v3 + 编码器，结合不同的损失函数进行比较研究，并将模型预测拼接在一起生成高价值的土地覆盖图。
PDF4 years ago
IJCAI带有结构注意力的神经抽象摘要
本文提出了一种基于结构化注意力的分层编码器，用于建模句内和文档间相互依赖关系，在多文档摘要生成任务中表现出显著的改进，击败了现有的模型。
PDF4 years ago
几何与语义相遇：半监督单目深度估计
通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计，提出了一种半监督的深度估计方法，结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。
PDF6 years ago
目标驱动和视觉对话系统的全流程优化
本文介绍了一种基于深度强化学习的方法，使用策略梯度算法来优化基于任务且与视觉相关的对话，该方法在通过 Mechanical Turk 收集的 12 万个对话数据集上进行了测试，并提供了鼓舞人心的结果，可以解决生成自然对话和在复杂图像中发现特
PDF7 years ago