- ICCV粗到细:学习单阶段图像检索的紧凑判别表示
本研究设计了一个用于单阶段图像检索的紧凑鉴别性表示学习框架,只需要图像级别的标签,通过动态调整损失尺度和边界、选择重要的局部描述符并注入细粒度语义关系,实现了全局尺度上的类间区分度优化,取得了在 Revisited Oxford 和 Rev - 评估数据驱动软件工程中自动机器学习的使用
人工智能和机器学习的广泛应用导致公司难以招聘深入了解这些技术的员工,在此背景下,自动机器学习 (AutoML) 正以一种有希望的解决方案迅速崛起,旨在自动化构建端到端的人工智能 / 机器学习流水线,这通常会由专门的团队成员进行工程设计。本文 - DiffusionSTR: 场景文本识别的扩散模型
该论文提出了一种名为 DiffusionSTR 的扩散模型场景文字识别框架,将场景文字识别任务视为图像上的文本 - 文本转换,实现了竞争性的准确性。
- 端到端自动驾驶:挑战与前沿
本文系统分析了 250 多篇论文,涵盖了自主驾驶的动机、路线图、方法论、挑战和未来趋势,并深入探讨了多模态、可解释性、因果混淆、健壮性和世界模型等若干关键挑战,同时讨论了基础模型和视觉预训练的最新进展,以及如何在端到端驾驶框架中整合这些技术 - FlowFace++:显式语义流监督的端到端人脸交换
本文提出了一种基于 FlowFace++ 的面部交换框架,利用明确的语义流监督和端到端架构来促进具有形状感知的人脸交换,并在野外人脸数据集上表现出色。
- 基于语音编辑的数据增强技术,提升语音识别中的语码切换和命名实体识别准确度
本文提出了一种基于文本的语音编辑模型的数据增强方法,以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明,相对于音频拼接和神经 TTS 数据增强系统,本文提出的方法显著地提高了识别水平。
- 基于开放世界的文本特定目标计数
提出了 CounTX,一种基于 transformer decoder 的单阶段模型,可对任何类别的目标物体进行计数并能够针对使用文本描述任务的方法在 FSC-147 基准测试上超越现有技术。
- 基于本地引导语义结构的语言建模的经验充分下限
通过在词汇层面上构建语义结构的二元向量表示方法,研究并总结了一个基于神经组件和层次符号组件相互配合的语义引导语言模型在提高文本生成的可预测性和语言解释性上的表现所必须具备的条件,包括语义向量表示的维度,以及对这些表示结果涉及噪声和信号的分布 - Mixup-Privacy: 隐私保护分割的简单而有效方法
该研究提出了一种端到端的基于客户端 - 服务器的图像分割系统,用于多中心医学图像的分析,保护患者隐私和数据完整性。
- 连接端到端和非端到端多目标跟踪之间的差距
Co-MOT 是一种简单有效的方法,通过阴影概念的新颖合作竞争标签分配来促进端到端的多目标跟踪,使得标签分配策略更加平衡,以优越的性能获得追踪表现。
- ACL无需文本的语音转文本反向翻译
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
- DocParser: 基于端到端的无 OCR 信息提取技术, 用于含丰富视觉元素的文档
本文提出了基于 DocParser 的 OCR-free 端到端信息提取模型,不同于以往的方法,其能更好地提取具有区别性的字符特征,并在各种数据集上实现了最先进的结果,同时速度比以前的工作还要快。
- SLM: 稀疏可学习掩模的端到端特征选择
提出 SLM (Sparse Learnable Masks) 方法,采用了可学习的稀疏掩码,通过最大化选定特征与标签之间相互信息的方法进行端到端的特征选择,可精确控制选择的特征数,并在多个基准数据集上达到最先进的结果。
- 使用上下文摘要和领域框架的零样本泛化端到端任务导向对话系统
该研究介绍了一种基于 GPT-2 模型的零 - shot 通用端到端任务导向对话系统,该系统利用域模式允许对未见过的域进行健壮的泛化,并利用对话历史的有效摘要,实现一般任务完成技能的学习。经过了大量的实验评估 SGD 和 SGD-X 数 - AAAI用于抽象式多文档摘要的压缩异构图
HGSUM 是一种多文档摘要模型,其通过使用异构图来表示文档中的不同语义单元(例如单词和句子),并使用图池化进行压缩以保留文档中关键信息和关系。在训练中,HGSUM 使用另一种目标来最大化压缩图与来源自地面真实摘要构建的图之间的相似性,并通 - 实现非自回归端到端 ASR 模型的时间戳预测
本文提出在非自回归 ASR 模型 - Paraformer 中,利用连续积分 - 火时间戳机制(CIF)进行时间戳预测,并采用 fire-delay、静音插入和 scaled-CIF 等后处理策略来解决 CIF 的偏置问题。实验结果显示,优 - AnyTOD: 一款可编程的任务导向对话系统
我们提出了 AnyTOD,这是一种端到端的,零 - shot 的任务导向对话系统,能够处理未见过的任务,而不需要特定的培训。我们采用了一种神经符号方法,其中神经语言模型跟踪对话中发生的事件,并执行符号程序以推荐应该采取的下一个操作,从而显著 - REVEAL:基于检索增强的多源多模态知识记忆的视觉语言预训练
本文提出了一种端到端检索增强的视觉语言模型(REVEAL),它可以将世界知识编码到大规模存储器中,并从中检索以回答知识密集型查询。
- NRTR: 三维光学显微镜下的神经元重建
提出了一种名为 NRTR 的神经元重建变压器,它不需要复杂的基于规则的组件,将神经元重建视为直接的集合预测问题,是第一个用于端到端神经元重建的图像到集合的深度学习模型,并在实验中取得了出色的成果,证明了将神经元重建视为集合预测问题的有效性, - M3ST: 三级混合语音翻译
本文提出了一种基于数据扩充的语音翻译方法 M^3ST,通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调,再通过并行输入原始语音序列和原始文本序列进行模型微调,使用 Jensen-Shannon 散度对输出进行正