- 通过多阶段端到端方法增强 LLMs 的演示文稿生成
提出了一种多阶段的端到端模型,结合了 LLM 和 VLM,用于从文档中生成演示幻灯片,相比于现有的方法具有更好的自动指标和人类评估。
- TT-BLIP: 使用 BLIP 和 Tri-Transformer 增强虚假新闻检测
通过融合多模态信息的 TT-BLIP 模型,结合文本、图像和多模态信息的三种处理机制,进行假新闻的检测与分析,结果表明 TT-BLIP 模型优于现有最先进模型。
- HCDIR:在线评论的端到端仇恨上下文检测与强度降低模型
在这篇论文中,我们提出了一种新颖的端到端模型 HCDIR,用于社交媒体帖子中仇恨上下文的检测和仇恨强度的降低。我们通过微调多个预训练语言模型来检测仇恨评论,并通过集成梯度(IG)模型辩证地确定了这些仇恨词的上下文。最后,我们使用掩蔽式语言建 - 高效端到端视觉文档理解与根据聚类
通过小型的预训练图像到文本模型,我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理,取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进,超过直接预测答案的相似 Pix2Struct 模型 4% 以上。
- 儿童阅读的端到端实时跟踪与指针网络
本研究介绍了一种使用实时阅读跟踪器在儿童语音上进行高效构建的方法,通过采用端到端模型和指针网络的结构,不仅减少了语音跟踪中的延迟问题,还使用强制对齐生成了地面真实文本与读音之间的训练信号,实验结果表明这种方法能够在不同数据集上以高精确度跟踪 - 通向通用文本指导的语音转换
这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC - 基于声学语言模型预训练的端到端语音识别和流畅性修正
基于最近在大规模音频预训练方面的成功,我们重新评估两阶段和端到端模型之间的性能比较,并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过,而预训练目标的选择显著影响模型适应去除启动词任务的能力。
- HuBo-VLM:为人机交互任务设计的统一视觉语言模型
本文提出了一种基于统一变压器视觉语言模型的 HuBo-VLM 方法,用于解决与人机交互相关的感知任务,包括物体检测和视觉定位,丰富的实验表明了该方法的有效性。
- Convoifilter:一项关于进行鸡尾酒会话语音识别的案例研究
该论文提出了一种端到端模型,旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别(ASR)。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离,并结合了 ASR 模块。通过这种方法,该模型能够将 ASR 的识别错误率(WER)从 80%降 - 通过端到端语义角色标注模型改进基于方面的情感分析
本文提出了一系列方法,旨在通过利用语义角色标记(SRL)模型中提取的语义信息,提高基于方面的情感分析(ABSA)的性能。我们提出了一种新颖的端到端语义角色标记模型,有效地捕捉了 Transformer 隐藏状态中的大部分结构化语义信息。我们 - 利用预训练的 ASR 编码器进行有效和高效的端到端语音意图分类和槽填充
通过使用预训练的语音识别(ASR)编码器来初始化端到端(E2E)Conformer-Transformer 模型,本文研究了语音意图分类和槽填充(SICSF),该模型在 SLURP 数据集上实现了新的最高准确度结果,意图准确率为 90.14 - 多目标跟踪作为关注机制
我们提出了一个概念简单且快速的多目标追踪模型 TicrossNet,该模型只由基本探测器和交叉注意力模块组成,能够实现实时处理,且不会因跟踪对象数量的增加而增加计算成本。
- 基于不相交监督的密集视频目标字幕生成
我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。
- 基于卷积变换器的端到端神经性癫痫检测(EENED)
本文提出了一种融合了 Transformer 和 CNN 的端到端神经网络癫痫检测模型 EENED,在其 Transformer 编码器中引入卷积模块,从而结合了 Transformer 模型全局依赖捕捉和 CNN 模型局部特征捕捉的优势, - 树重建的 L - 系统字幕生成
本文提出了一种新的树木和植物重建方法,通过图像的字幕生成,直接推导出 L-System(L 系统)的词表示。采用端到端(end-to-end)的方法训练模型将给定的图像转换为 L-System 词,作为所显示的树的描述。此方法可以实现更高效 - 文本图像机器翻译的多教师知识蒸馏
本文提出一种基于多教师知识蒸馏 (MTKD) 的文本图像机器翻译 (TIMT) 方法,将管道模型的知识有效地转移至端到端 TIMT 模型中,包括图像编码器、序列编码器和解码器的知识引导优化,并采用令牌和句子级别知识蒸馏相结合来提高翻译性能。 - VideoXum: 视频的跨模态视觉和文本摘要
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们 - 使用大型语言模型进行大规模多语言浅层融合
利用单一多语言语言模型(LM)来进行多语言浅层融合任务,并将其应用于最先进的端到端模型,相对于类似推理期间的密集 LM ,GLaM 可将英语长尾测试集的 WER 降低 4.4 %,平均相对 WER 降低 3.85%,并且最高降低 10%。
- 使用傅立叶神经网络高效联合学习临床命名实体识别和关系抽取 —— 以药品不良事件为例
本文介绍一种高效的端到端模型,名为 JNRF,通过权值共享傅里叶网络层、可训练多项式距离函数、选择性汇集策略、距离感知注意权重和位置编码的使用,相比其他模型具有更高的效率和更低的计算成本,并在抽取医疗相关实体和关系上与其他模型相比具有更好的 - EMNLP使用端到端语音到意图预测改进印地语和英语电子商务客服语音机器人
本研究提出了一种新的基于自动语音识别的端到端 S2I(语音转目的)模型,以解决语音客服系统中传统基于多组件管道的模型构建过程中所面临的挑战,实验结果表明,新模型的 F1 得分相对提高了约 27%。