VivesDebate-Speech: 一份口语论辩语料库,以利用音频特征进行论证挖掘
本文提出使用自动挖掘新闻文章中的争议性观点,在辩论中寻找其对应的观点,并通过对英文辩论的 400 次演讲分析,证明了这种方法的可行性,并提供了基础的检测措施,所有数据均可供研究者免费使用。
Jul, 2019
该研究提出了 DebateSum 数据集,其中包含 187,386 个唯一的证据片段和相应的争论和抽取式摘要,使用多个 Transformer 摘要模型进行了训练,同时引入了在数据集上训练的 FastText 词向量 debate2vec。最后,该研究还提出了一个可以广泛运用于全国演讲和辩论协会成员中的 DebateSum 搜索引擎。
Nov, 2020
我们介绍了 OpenDebateEvidence,这是一个从美国竞争辩论社区收集的全面的论点挖掘和总结数据集。该数据集包括超过 350 万个具有丰富元数据的文档,是最大的辩论证据集之一。OpenDebateEvidence 捕捉了高中和大学辩论中论点的复杂性,为训练和评估提供了宝贵的资源。我们的大量实验证明了对最新大型语言模型进行微调以进行论辩抽象总结的有效性,涵盖了各种方法、模型和数据集。通过提供这一全面的资源,我们旨在推动计算论证的发展,并支持辩论者、教育工作者和研究人员的实际应用。OpenDebateEvidence 已公开可用,以支持计算论证的进一步研究和创新。在此访问:this https URL
Jun, 2024
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
本文介绍了一个包含 78,376 次辩论和全面参与者个人资料的数据集,利用该数据集,与通常用于类似研究的语言特征相比,分析了选定用户特征对辩论结果的影响。
Jun, 2019
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文介绍了一个用于多语言演讲语音翻译研究的大规模多语言语音语料库 SpeechMatrix,并建立了基于演讲记录的平行语音翻译模型,探讨了少有的多语言语音翻译问题和一些基于模型先训练和混合专家使用的解决方案。
Nov, 2022
本文介绍了一种跨学科的对话科学,基于一个大型的多模式语料库,通过语音,视频和转录记录了 1656 次对话,利用此实验数据,研究人员提出了新的算法并应用机器学习技术,以分析对话成功或失败的因素,并探讨对话与幸福感之间的关系。
Mar, 2022
该论文提出了一个新的语音语料库 LibriTTS,用于文本转语音,并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。
Apr, 2019
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019