在多模数据融合中进行长音频采访与问题的时间对齐：一个案例研究

IJCAIOct, 2023

在多模数据融合中进行长音频采访与问题的时间对齐：一个案例研究

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra...

TL;DR我们提出了一种名为 INDENT 的模型，利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入，从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性（R-avg 提高了约 3%），并且演示了使用印度语音的噪声 ASR 在替代语音方面取得更好结果的情况。我们的模型只使用了印地语数据进行训练，但可以涵盖所有由（语义上）共享文本空间支持的语言，在 11 种印度语言上进行了实证研究。

Abstract

The problem of audio-to-text alignment has seen significant amount of research using complete supervision during training. However, this is typically not in the context of long audio recordings wherein the text b

audio-to-text alignment long audio recordings question localization speech embeddings noisy asr

发现论文，激发创造

视频文本对齐的强基准

通过建立一个简单而强大的基于 Transformer 的模型，本研究考虑了视频和文本在时间上的对齐问题，并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素，实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。

Dec, 2023

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

音频 - 文本检索中的语言沟通

通过使用多语言文本编码器编码文本数据，结合一致集成蒸馏优化音频编码器，我们的方法在英语语音文本检索方面表现出最先进的性能，并且仅使用额外的 10％的语言增强训练数据，也能有效检索其他七种语言的内容。

Jun, 2024

挖掘公共数据中的音频文本对以提升低资源语言的 ASR 系统有效性

本文利用 All India Radio 文档中的文本和音频对来创建了一个名为 Shrutilipi 的数据集，该数据集包含来自 12 种印度语言的 6,400 小时的语音，其对应的文本总计 4.95M 句子。将 Shrutilipi 添加到训练集中可提高 Wav2Vec 模型、Conformer 模型的准确性，且该数据集具有代表性和多样性。

Aug, 2022

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015

长时间视频的时间对齐网络

本文提出了一种时间对齐网络，能够对长期视频序列和关联文本句子进行处理，使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频，应用于多个视频理解任务，包括文本 - 视频检索和弱监督视频动作分割等，获得了更好的性能。

Apr, 2022

用低语启迪我：使用语音嵌入增强大型语言模型对口述剧本的分析

通过音频 - 语言知识蒸馏框架，将语音数据中的声学和语用信息转移到学生语言模型，从而改进了传统语言模型在分析口述文本任务上的性能。

Nov, 2023

学习音频文本协同以实现开放式关键词定位

本文提出一种新颖的端到端的用户定义关键词检测方法，利用语音和文本序列之间的语言对应模式，实现音频和文本表征在共同的隐含空间中；采用基于注意力的跨模态匹配方法，训练具有单调匹配损失和关键词分类损失的模型，并利用去噪损失改善模型在嘈杂环境中的稳健性，同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型；与其他单模态和跨模态基线相比，在各种评估集上取得了有竞争力的结果。

Jun, 2022

使用自然语言查询的音频检索：基准研究

本研究提出了三个新的跨模态检索基准，用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练，在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线，并公开了数据集和代码，希望这些基准能够激发有关自由文本查询的音频检索的研究。

Dec, 2021