- LoRA-Whisper: 参数高效且可扩展的多语言语音识别
本文提出了 LoRA-Whisper 模型,通过将 LoRA 矩阵融入 Whisper,有效减轻多语种自动语音识别中的语言干扰,并通过利用 LoRA 和语言之间的相似性,在新语种上取得更好的性能,同时保持原有语种的稳定性。在涉及八种语言的真 - 提升基于 CTC 的语音识别的多样建模单元
近年来,由于转换器等深度学习架构的进展,端到端(E2E)自动语音识别(ASR)模型的演变令人瞩目。在 E2E 系统的基础上,研究人员通过使用音素模型对 E2E 模型的 N 个最佳假设进行重新评分,实现了相当大的准确性提升。我们研究了驱动这些 - GSQA:生成式口语问答的端到端模型
近期关于口语问答方面的研究表明,最新的端到端模型在提问回答方面取得了显著的进展,尤其是在提取性问题的选择上。然而,先前的研究主要集中在提取性问题上,这种基于提取的方法在直接提取答案的情况下是有效的,但在涉及抽象问题且答案不可直接提取的情况下 - ResEnsemble-DDPM:残差去噪扩散概率模型的集成学习
将去噪扩散概率模型与现有的端到端模型相融合,通过集成学习引入残差项,提出 ResEnsemble-DDPM 模型,进一步提升图像分割模型的性能,并且该集成学习策略可推广到图像生成的其他任务,具有强大的竞争力。
- 端到端语音到文本翻译:综述
语音到文本翻译中的端到端模型的综述,包括模型、评估指标和数据集,提供了挑战和未来研究方向的新见解。
- AdaFocus:面向长视频动作理解的端到端弱监督学习
开发用于长视频动作理解任务的端到端模型存在显著的计算和内存挑战。为了避免精确注释的需要,我们提出了一种弱监督方法 AdaFocus,它通过估计动作的高峰度和时间位置,从而能够自适应地聚焦于有助于更好训练的动作片段。在三个长视频数据集上的实验 - Resfusion: 先验残差噪声嵌入去噪扩散概率模型
最近,通过生成以输入图像为条件的分割掩模,去噪扩散概率模型广泛应用于图像分割。然而,以往的研究无法无缝地将现有端到端模型与去噪扩散模型结合使用。我们提出了一种新的去噪扩散过程,Resfusion,通过马尔可夫过程在似然输出和实际输出之间建立 - 基于全身运动跟踪的特征工程和端到端深度学习在自闭症谱系障碍评估中的比较
评估自闭症谱系障碍的动作学分析方法,比较手工制作特征和端到端模型在虚拟现实环境的有效性,结果显示端到端模型在动作一致性方面表现更好,但手工制作特征在特定任务方面表现出色。
- GPT-ST:时空图神经网络的生成式预训练
该研究提出了一个融入下游基线模型并提升其性能的时空预训练框架,其中包括一个时空蒙版自编码器和一个自适应蒙版策略,通过学习时空依赖关系和不同关系的建模,在交通管理和旅行规划方面取得了显著的效果。
- 在分解神经传输器中融入基于类别的语言模型的命名实体识别
为了提高端到端模型中的实体识别能力,本研究将基于类别的语言模型应用于因式分解的神经递归式转录器(FNT)中,取得显著的实体识别误差降低。
- 多模态知识图谱的端到端学习
我们提出了一种多模态的消息传递网络,不仅能够从图的结构中学习端到端信息,还能从其中多样的多模态节点特征中学习,包括数字、文本、日期、图像和几何形状,通过在一个联合表示空间中投影到它们的关系信息。通过在人工和真实数据集上进行节点分类和链接预测 - 利用多模态机器学习评估在线游戏技能的研究:以 CS:GO 为例
在线流媒体对游戏技能进行评估是一个重要任务,以帮助发现有才华的玩家,该研究通过清理数据集和提出多模态机器学习模型的变体来解决这一问题,同时发现了模型容易识别用户而不是学习有意义的表示的问题。
- 基于点监督的半监督细胞识别
本文提出了一种适用于端到端 PCR 模型的半监督点基细胞识别(SSPCR)框架,该框架利用伪标签和共同教学策略来提高细胞识别的准确性,速度和健壮性。
- DCTX-Conformer: 用于低延迟统一流和非流 Conformer 的动态上下文传递
通过动态上下文传递机制,提高端到端模型在自动语音识别领域的性能。
- E2TIMT:用于文本图像机器翻译的高效有效的模态适配器
本文旨在提出一种新型的端对端的文本图像翻译模型,充分利用现有的 OCR 和 MT 数据集的知识来追求既有效又高效的框架。我们建立了一种新颖的模态适配器,有效地连接 OCR 编码器和 MT 解码器,并联合使用端到端 TIMT 损失和跨模态对比 - 理解共享的语音文本表示
本文研究基于端到端模型训练语音模型的近期方法进展,通过两种分析方法进一步扩展了对共享语音文本表示的理解:第一是研究了自由领域适应的极限,在此基础上发现针对语音文本对齐的时长模型是最重要的,这有助于学习共享语音文本表示;第二是比较了单一(语音 - 一种基于 CTC 对齐的非自回归变压器模型用于端到端自动语音识别
本论文介绍了一种 CTC Alignment-based Single-Step Non-Autoregressive Transformer(CASS-NAT)方法,用于自动语音识别,通过利用与 CTC 对齐的语音边界信息提取标记级别音频 - WOMD-LiDAR: 运动预测原始传感器数据集基准
通过使用高质量 LiDAR 数据增强 Waymo Open Motion Dataset (WOMD) 并将其整合到模型训练中,实验结果表明 LiDAR 数据的使用能够提高运动预测任务的性能,为推动端到端运动预测模型提供新机会。
- ICLR用于端到端对齐路径学习的深度声明动态时间规整
本文提出了一种基于双层优化和深度声明网络的 DTW 层,可以将 DTW 表示为连续的优化问题,并计算出最优的对齐路径,可用于自动化的时间序列数据对齐。
- 端到端语音识别综述
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。