BasqueParl: 巴斯克语议会记录的双语语料库
本文通过先进的 NLP 方法,联合比较分析了保加利亚、捷克、法国、斯洛文尼亚、西班牙和英国等 6 个国家在 2017-2020 年间的议会和立法辩论记录,探讨并评估不同国家议员的观点、情感以及性别、政治取向的识别,发现分析对象之间存在许多差异和共性。
Jul, 2022
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
通过 NLP 管道对政治沟通领域的历史文本进行各种任务的大规模语料库使用,我们介绍了德国议会语料库(GerParCor),该语料库包含德语议会记录文本从三个世纪到四个国家的国家和联邦级别的数据,同时也包含通过 OCR 过程转换的凯尔特字提案。
Apr, 2022
我们介绍了以色列议会辩论记录的语料库,包括从 1998 年到 2022 年以色列议会中所有主要和委员会的记录,共有 3000 万句子(超过 3.84 亿个单词)。句子注有形态 - 句法信息,并与我们编制的一个议员和派别的大数据库相关的详细元信息。我们讨论了语料库的结构和组成,以及我们应用于它的各种处理步骤。为了演示这个新颖数据集的效用,我们提出了两个使用案例。我们展示了该语料库可以用于研究政治讨论风格的历史发展,通过展示辩论中词汇丰富度随时间的减少。我们还研究了男性和女性发言人之间的一些风格差异。这些使用案例展示了该语料库揭示以色列社会重要趋势的潜力,支持语言学、政治学、传媒学、法学等领域的研究。
May, 2024
本研究描述了一系列双语英语 - 法语和英语 - 德语平行语料库,其中翻译方向经过准确可靠的注释。这些语料库多样化,包括议会议事录、文学作品、TED 演讲的抄录和政治评论。它们将对翻译和机器翻译的语言研究和应用具有重大意义,特别是在翻译 ese 识别方面,这是近年来越来越受到关注的研究方向。为了验证语料库的质量和可靠性,我们复制了先前在翻译 ese 的监督和无监督识别方面的结果,并将实验进一步扩展到其他数据集和语言。
Sep, 2015
介绍一份包含 1989 年到 2020 年希腊议会文件中逾 1 百万场政治演讲及其元数据的数据集,为解决无资源语言(如希腊)的大规模、历时政治话语数据而构建,可供计算语言学和政治分析使用,如研究词语用法随时间、历史事件和政党变化而变化,以及使用算法来探测语义转移。
Oct, 2022
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
介绍了一个关于政治取向和权力地位识别的数据集,该数据集从 ParlaMint 中派生而来,ParlaMint 是 29 个国家和地区议会的一组可比较的国会演讲语料库。我们介绍了该数据集,解释了在创建过程中的一些选择原则,在数据集上提供了统计数据,并利用一个简单的分类器对政治取向在左右轴线上的预测结果以及权力地位识别的基线结果进行了介绍,即区分执政联盟党派成员和反对党派成员发表的演讲。
May, 2024