跨语言摘要调查
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了 28583 个单语和跨语种的文章 - 摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
我们引入历史文本摘要的任务,其中历史形式的语言文档被概括为相应的现代语言。基于跨语言迁移学习技术,我们提出了一个摘要模型,可以即使没有跨语言(历史到现代)平行数据,也可以进行训练,并对最先进的算法进行基准测试。我们报告了自动和人工评估,突出了我们数据集的独特性和价值,并证明了我们的迁移学习方法在这项任务上优于标准的跨语言基准。
Jan, 2021
通过跨语言检索,提出跨语言摘要数据集 CrossSum 及其训练模型,表现出优异的 ROUGE 和 LaSE 性能,成为目前最大的跨语言摘要数据集
Dec, 2021
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有技术,分别实现了 2.82 和 1.15 ROUGE-1 分数的提升。
Oct, 2020
现有的跨语言摘要(CLS)工作往往通过直接翻译预注摘要来构建 CLS 语料库,可能会包含摘要和翻译过程中的错误。为了解决这个问题,我们提出了 ConvSumX,这是一个跨语言对话摘要基准,通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务,涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析,实验证明 ConvSumX 更加忠实于输入文本。此外,基于相同的观点,我们提出了一个 2 步方法,该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明,2 步方法在 ConvSumX 上超过了强基线模型,并在自动和人工评估下显示出优势。分析表明,源输入文本和摘要对于建模跨语言摘要至关重要。
Jul, 2023
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
本文提出 “ConvSumX Challenge”,为研究人员提供了研究整合对话摘要和机器翻译的解决方案的新途径,旨在打破非英语演讲者受益于最新对话摘要进展的壁垒。通过构建新的基准,涵盖 2 种实际情况和 3 种语言方向,包括低资源语言,以期激励研究超越英语。
May, 2022