- 端到端信息安全任务的 Transformer:可行性研究
本研究评估 transformer 模型在端到端 InfoSec 设置中的可行性,并探索了在两种不同的 InfoSec 数据格式(即 URL 和 PE 文件)上实施 transformer 模型的方法,以及多种不同的架构设计、训练和实验设置 - Re^2TAL:针对可逆时间行为定位重构预训练视频主干网络
该论文提出了一种基于可逆网络的端到端方法 Re2TAL,用于时间行为定位(TAL),通过网络重连机制,将预训练的视频模型转换为基于可逆模块的模型,以提高模型训练效率和表现。使用此方法,只使用 RGB 模态的 Re2TAL 在 Activit - CVPRMOTRv2: 预训练目标检测器引导端到端多目标跟踪
本论文提出 MOTRv2, 旨在通过一个预先训练好的物体定位器,启动端到端的多目标跟踪。利用额外的物体探测器来提高 MOTR 的性能,并排名第一,最终达到了先进的性能。
- 优化在 Intel Xeon 处理器上的端到端人工智能管道策略
本文研究了在 Intel Xeon 处理器上,优化终端到终端的人工智能管道,通过多种优化策略和软硬件加速在计算机视觉、NLP、推荐系统等多个领域展示了高性能,并获得了 1.8 倍至 81.7 倍的性能提升。
- MM使用语义对齐的语音表示进行口语语言理解
本论文研究语义对齐的语音表示在端到端语音理解中的应用,并使用 SAMU-XLSR 模型,在不同语言中捕捉语音的语义,将语音表现学习模型(XLS-R)与语言无关的 BERT 句子嵌入(LaBSE)模型相结合。我们证明该模型的使用显著提高了端到 - EMNLP带有外部知识的检索增强型视觉问答
我们提出了一种联合训练方案,该方案包括可微分的 DPR 集成答案生成,以便系统可以以端到端的方式进行训练。 我们的实验表明,我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。 我们还引入了新的诊断指标来分析检索和生成之间 - 一种语言不可知的多语言流式本地化 ASR 系统
本文提出了一种支持流式多语言的端到端自动语音识别的模型,通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer,以及使用了更高效的 Embedding 解码器,实现了低延迟和高质量的效果,可以在移动 - 基于 RNN Transducer 的中文普通话语音识别的发音感知唯一字符编码
该研究提出了一种新颖的、基于发音的独特字符编码方法,用于构建基于 E2E RNN-T 的汉语语音识别系统,以克服同音字问题和提取建模单元的困难,实验证明了该方法的有效性。
- ECCV基于时空特征学习的端到端视觉自主驾驶
该研究旨在提高自主驾驶的性能和安全性,提出了一种解释性的基于视觉的空时特征学习方案,称为 ST-P3,通过端到端方式同时实现感知、预测和规划任务,并在开放循环 nuScenes 数据集和闭环 CARLA 仿真上验证了其优越性。
- 学习音频文本协同以实现开放式关键词定位
本文提出一种新颖的端到端的用户定义关键词检测方法,利用语音和文本序列之间的语言对应模式,实现音频和文本表征在共同的隐含空间中;采用基于注意力的跨模态匹配方法,训练具有单调匹配损失和关键词分类损失的模型,并利用去噪损失改善模型在嘈杂环境中的稳 - NatiQ:一个用于阿拉伯语的端到端文本转语音系统
本研究提出了一个基于编码器 - 解码器架构与注意力机制的端到端阿拉伯语语音合成系统 NatiQ,使用 Tacotron-1、Tacotron-2、Transformer 等多种神经网络模型进行实验,并以自家语音数据集中的男性 “Hamza” - ICML从零开始重新审视端到端的语音到文本翻译
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平 - SparseDet:朝向端到端的 3D 物体检测
本文提出了 SparseDet 这一端到端的基于点云的三维物体检测算法,通过固定数量的可学习建议来代表潜在候选框,并使用堆叠的 transformers 直接进行三维物体的分类和定位,且无需后处理步骤,相比传统方法具有更高的效率和准确率。
- 联合学习跨度抽取与序列标注,用于商务文档信息提取
本文介绍了一种新的信息抽取模型,能够同时处理长文档和稀疏信息,通过跨度抽取和序列标注两种方法的结合来进行训练和优化,实验结果表明该模型在英语和日语的四个商业数据集上取得了良好的结果,速度也比标准跨度抽取方法更快。
- 端到端多模态事实核查与解释生成:一组具有挑战性的数据集和模型
我们提出了一种端到端的多模态事实核查和解释生成方法,利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性,并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg,这是一个大规模数据集,包括 21,184 个索赔和 - ACL跨模态对比学习用于语音翻译
本文提出了一种名为 ConST 的跨模态对比学习方法,用于端到端的语音到文本翻译,并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明,相比之前的方法,该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU - CVPR利用等变特征进行绝对位姿回归
本研究通过使用平移及旋转等变卷积神经网络来将相机运动的表示直接归纳为特征空间,从而证明了直接学习等变特征优于学习中间表示,并表明我们的轻量级模型在标准数据集上优于现有模型。
- 面向设备的语音理解协商模型
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
- Nix-TTS: 模块化蒸馏轻量级端到端文本转语音
通过知识蒸馏方法,将高质量但体积较大、非自回归和端到端(无需声码器)的 TTS 教师模型压缩到只有 523 万参数的轻量级 Nix-TTS 模型,其具有非自回归、端到端等优点,具有良好的语音自然性和可懂度。
- 利用无监督和弱监督数据,提高直接语音翻译的准确性
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能,实现在 21 种语言对上 BLEU 值提高 13.6(相对增长 113%),特别是对于低资源语言的提高更为显著