- 对比多人脸鉴定:一种用于多人脸伪造检测的端到端双粒度对比学习方法
本文提出了一种新的端到端的框架 Contrastive Multi-FaceForensics (COMICS),通过双粒度对比学习方法,在多脸伪造检测方面取得了显著的性能提升,并显示了与其他对手方法相比较大的潜力,适用于多种架构。
- IJCAIPowerBEV: 高效却轻量的鸟瞰图目标实例预测框架
该论文提出了名为 POWERBEV 的高效新型端到端框架,该框架依赖于平行的多尺度模块,通过流变换的后处理方法提高了 BEV 实例预测的稳定性,并在 NuScenes 数据集上表现出比现有方法更好的性能,为 BEV 实例预测提出了一种替代理 - E2EAI:用于主动投资的端到端深度学习框架
本研究首次提出了一种覆盖因子选择、因子组合、股票选择和投资组合构建等环节的端到端深度学习框架,通过实验证明,这种框架在积极投资中具有有效性。
- Structure-CLIP: 使用结构信息增强多模态语言表示
本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP,它利用场景图实现对细粒度语义信息的关注,结合结构知识来提高多模态语言表示的表示能力,并在不同的下游任务中得到了最先进的表现。
- AutoQNN: 一种自动量化神经网络的端到端框架
本文提出一种名为 AutoQNN 的端到端框架,通过引入量化方案搜索(QSS)、量化精度学习(QPL)和量化架构生成(QAG)三种技术,自动实现对不同深度神经网络(DNN)模型的不同层进行不同方案和不同精度的量化,无需人工干预,实现对深度神 - 自适应潜在表示学习下的端到端人脸交换
本文提出了一种基于 StyleGAN 的自适应潜在表示学习的高分辨率人脸交换框架,通过多任务双空间人脸编码器和自适应潜在编码交换模块来实现面部感知和融合,从而提高人脸交换的真实性和广泛适用性,并证明了该方法优于现有的最先进方法。
- ICLR明确框检测统一了端到端的多人姿态估计
ED-Pose 是一个新型的端到端框架,具有明确的框检测技术,用于多人姿态估计,该方法将全局和局部信息进行上下文学习,并解决了这个任务的两个显式框检测过程。该方法不需要后期处理和密集热图监督,并展示了其与两阶段和单阶段方法相比的有效性和效率 - ACL在社交媒体中检测先前经过事实检查的声明
通过对社交媒体上的观点进行众包事实核查,并运用改进的自适应训练方法进行学习,以建立一个端到端的自动事实核查框架来解决训练数据稀缺的问题,并较之现有技术提升 2 个百分点。
- COLINGET5: 一种新颖的面向端到端的对话机器阅读理解框架
提出了一种基于共享参数机制的端到端框架,称为 ET5,用于会话式机器阅读理解,可以在完整利用涉入推理信息的情况下实现跨步问答,并在 ShARC 数据集上达到了新的最优结果。
- 为主动发言人检测提供的端到端音视频特征融合
本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架,利用两个 BiGRU 层来处理音视频输入的时间动态,并在 AVAAcitveSpeaker 数据集上的实验结果表明,该模型具有更好的鲁棒性和更好的推断时间。
- 使用点标注技术的细胞端到端识别
本文介绍了一种基于点的细胞检测和分类框架,该框架采用了直接回归和分类方法,并采用金字塔式特征聚合策略同步处理底层特征和高层语义。实验结果表明,该方法在在免疫组织化学图像的分析中有着较高的准确性和效率,并具有较高的协助病理学家评估的潜力。
- CVPR流引导视频修复的端到端框架
本文提出了一种 End-to-End framework for Flow-Guided Video Inpainting (E$^2$FGVI) 方法,该方法通过三个可训练模块的设计实现了光流的流程化。 实验结果表明,该方法在质量和效率上 - R2-D2: 半监督深度学习的重复预测深度解码器
本文提出了一种基于端到端框架的半监督深度学习(Deep SSL)方法,通过证明伪标签与网络预测之间的关系具有指数联系,为在深度学习范式中使用预测作为伪标签提供了理论支持;本文进一步证明了通过网络预测更新伪标签会使它们变得不确定,为此提出了一 - CVPRCamLiFlow:双向相机 - LiDAR 融合,用于联合光流和场景流估计
本文提出了一种新的端到端框架 CamLiFlow,充分利用 2D 和 3D 数据的特征,通过双向连接完成光流和场景流的估计,实验表明该方法在 KITTI Scene Flow 基准测试中性能表现优异。
- ICCV使用并行解码技术的端到端稠密视频字幕生成
本文提出了一种简单而有效的端到端稠密视频字幕生成框架 PDVC,其中通过在 transformer decoder 的顶部添加事件计数器,将原始视频精确地分割为多个事件片段,并在其基础上进行事件集合预测,从根本上提高了预测字幕的连贯性和可读 - TableSense 用卷积神经网络进行电子表格识别
TableSense 是一种端到端的框架,利用卷积神经网络的成功应用于计算机视觉中,采用有效的单元格特征化方案,增强的卷积神经网络模型和有效的不确定性指标来引导基于主动学习的智能采样算法,使训练数据集高效构建,有效提高电子表格表格检测的准确 - SOLQ: 通过学习查询分割对象
本文介绍了一种基于统一查询的端到端实例分割框架 SOLQ,其通过联合学习指定每个对象的查询,并在一个向量形式中同时执行分类、框回归和掩模编码,可直接转换为空间掩模,以达到最先进的性能。
- IJCAI语音理解的流式端到端框架
本文提出了一种流式端到端框架,采用单向 RNN 和 CTC 标准进行训练,可以在线和增量地处理多个意图,实现了与最先进的非流式模型相当的精度,并在关键词检测任务中表现出高度的前途。
- PAN++:高效准确的任意形状文本端到端定位
本文提出了一个基于核心表示的端到端文本发现框架,可在自然场景中检测和识别任意形状的文本,并取得了竞争性的精度和高速度。
- ACL可搜索的隐藏中介于可分解序列任务的端对端模型
我们提出了一个利用分解子任务进行可搜索的中间隐层表示学习的端到端框架,在语音翻译等复杂序列任务上实现了优越的性能。