- 对大型语言模型的 “隐式” 检索鲁棒性的评估
通过评估各种大规模语言模型的 “隐式” 检索鲁棒性,我们发现混合了黄金和干扰性上下文进行微调显著提高了模型对检索不准确性的鲁棒性,同时仍然保持着在检索准确时提取正确答案的能力,这表明大规模语言模型可以通过仅从最终答案的监督中学习来隐式处理相 - POWN: 原型开放世界节点分类
我们提出了一种新的端到端方法,名为 Prototypical Open-World Learning for Node Classification(POWN),它结合了图形半监督学习、自监督学习和伪标签技术,以零样本方式学习新类别的原型表 - 基于视觉变换器的端到端基于视觉的四旋翼避障
在高速四旋翼无人机中展示了一种基于关注机制的端到端方法,用于在密集、杂乱环境中避开障碍物,与各种最先进的架构进行比较。
- GazeHTA: 基于头部 - 目标关联的端到端凝视目标检测
我们提出了一种端到端的方法来检测凝视目标:预测个体和他们正在注视的目标图像区域之间的头目标连接。我们的实验结果表明,GazeHTA 在两个标准数据集上优于最先进的凝视目标检测方法和两个改进的基于扩散的基准模型。
- 大型变换的全局点云配准网络
三维数据配准是许多应用的关键问题,本文提出了 ReLaTo,建立了一个优化配准方法,特别适用于大变换的情况。
- 端到端条件鲁棒优化
将机器学习和优化整合到上下文优化领域以解决决策问题,通过结合不确定性量化与鲁棒优化提高高风险应用的安全性和可靠性,通过巧妙使用可微分的逻辑回归层在训练损失中计算覆盖质量,实现了高质量的条件覆盖,从而训练算法产生了优于传统估计和优化方法的决策 - 面向多轮医学面试的端到端语音识别后解码器偏置
介绍了一种解决特定领域重要的罕见词汇与 E2E 模型优化中遇到的困难的方法,提出了后解码偏置的新方法,并通过实验证明其在识别罕见词汇方面的改进效果。
- 朝着端到端口语语法错误纠正
本文介绍了一种针对 L2 学习者的口语语法错误修正的替代性 “端到端” 方法,利用了语音识别基础模型 Whisper 进行整个框架或部分替换,结果表明这种端到端方法在体系结构内是可行的,但由于缺乏可用数据,当前性能有限。此外,文中还讨论了使 - 神经快速逻辑学习:从原始数据中快速学习
NeuralFastLAS 是一种可扩展且快速的端到端方法,能够联合训练神经网络和符号学习器,实现在任务中找到最优符号解的能力,并提供了理论结果和实验验证。
- Deep3DSketch+: 从单个手绘草图快速进行三维建模
AR/VR 发展迅速,对 3D 内容需求巨大。本研究提出一种基于手绘草图的 3D 建模方法,使用单个手绘草图生成高保真内容,无需多个视图或步骤。采用端到端方法,引入轻量级生成网络和结构感知对抗训练,并通过 Stroke Enhancemen - 通过强化学习与环境修正实现自动演绎路径学习
本文提出一种自动化结账方案,基于深层次强化学习方法解决了搜索空间巨大、历史记录匮乏等问题,通过构建分层的动作空间和部分观察的决策问题模型,在全球最大的电子支付业务上推广了这一方案。
- 基于中层输入生成的层次化生成对抗学习在城市环境自动驾驶中的应用
本文提出了一种基于层次化对抗性模仿学习的架构 hGAIL,该架构可以将车辆的传感器感知直接映射到低层动作,并同时学习到中层的输入表征,实现了无人驾驶车辆的自主导航。
- 阿拉伯语至英语广播新闻的端到端语音翻译
本文介绍了第一个基于端到端范式的新闻广播阿拉伯语到英语语音翻译系统,并探讨了数据增强和转移学习等多种场景下基于管道和端到端的语音翻译系统的训练和比较。
- 一个高质量且大规模的英越语音翻译数据集
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
- 无配对训练数据语音命名实体识别端到端模型
本文提出了一种基于外部模型训练的新型端到端神经模型,用于提取语音信号中的语义信息,并使用 SLU 神经模块替换 ASR 模型的顶层,实现端到端模型的构建。实验结果表明,此方法在 QUAERO 语料库上具有很高的性能。
- CVPR利用激光雷达进行未来物体检测预测
本研究提出了一种基于原始传感器测量而非基于标准轨迹的端到端方法来进行对象检测和运动预测,实现对多个未来情况的推理能力,并扩展了检测度量来检验预测准确性。
- AISHELL-NER:基于中文语音的命名实体识别
本文介绍了一个 Named Entity Recognition (NER) 的数据集 AISEHLL-NER,是用于处理中文语音的 NER 任务。文章测试了几种最先进的方法,结果表明通过组合 entity-aware ASR 和预训练的 - ICMLVoice2Series:重新编写声学模型用于时间序列分类
本研究提出了一种名为 Voice2Series 的端到端方法,通过输入转换学习和输出标签映射将声学模型重新编程用于时间序列分类,展示了在 30 个不同的时间序列任务中 V2S 在 19 个任务上表现出有竞争力的结果,同时还提供了关于其人群风 - 基于模型的强化学习控制策略优化中的隐式微分技术
本文提出了一种端到端的方法,采用隐式微分直接优化期望回报,以求克服最大似然方法在模型不匹配或表示能力有限的情况下出现的缺点。具体来说,我们将一个满足模型引导的贝尔曼最优算符的值函数视为模型参数的隐函数,并展示了如何对该函数进行微分。理论和实 - ICML卷积层过滤器数量对语音识别模型准确度的影响
通过研究卷积层的滤波器数目对 CNN+RNN 语音识别模型的预测准确率的影响,提出声音到向量嵌入 (CNN 嵌入) 的假设,并通过参数优化开发出一个轻型的 End-to-End 语音识别系统。该系统在仅有声学模型且无中间语音表示和语言模型的