- 大型语言模型的少样本学习跨语言摘要任务
跨语种摘要生成(XLS)旨在在与源语言文档不同的目标语言中生成摘要。我们研究了各种模型的少样本学习(few-shot learning)在 XLS 任务中的表现,并发现少样本学习显著提高了 LLMs 在低资源环境中的 XLS 性能,特别是 - ACLSumTra: 跨语言少样本摘要的可微分管道
跨语言概括是生成与输入文档不同语言(例如从英语到西班牙语)的摘要,使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程,其中概括和翻译任务按顺序执行,并通过利用许多可用的公共资源进行单语概括和翻译,从而获得了非常有竞 - 跨语言摘要的自动数据检索
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方 - ACL再探跨语言摘要:基于语料库的研究与改进注释的新基准
现有的跨语言摘要(CLS)工作往往通过直接翻译预注摘要来构建 CLS 语料库,可能会包含摘要和翻译过程中的错误。为了解决这个问题,我们提出了 ConvSumX,这是一个跨语言对话摘要基准,通过一个新的注释模式明确考虑源输入上下文。ConvS - EMNLP使用内容计划作为跨语言桥梁的汇总方法 $μ$PLAN
本文介绍一种名为 μPLAN 的跨语言概括方法,该方法使用中间计划步骤作为跨语言桥梁,通过多语言知识库对计划进行对齐来生成摘要。在针对 XWikis 数据集的评估中,该规划方法通过 ROUGE 和忠实度比分方面取得了最先进的性能,并且比非规 - SimCSum: 跨语言科技新闻的简化和跨语言摘要联合学习
该研究提出了一种新的多任务框架 - SimCSum,它通过对两个高级 NLP 任务(简化和跨语言摘要)进行联合训练来提高跨语言科技新闻的翻译质量,并在人工评估中取得了显著的成果。
- CroCoSum: 用于跨语言代码切换总结的评估数据集
本文介绍了 CroCoSum 数据集,这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要,并展示了现有方法在该数据集上的表现,揭示了现有资源的有限普适性。
- 语言模型零样本函数组合性的探索
本文探讨了预训练语言模型的功能组合性问题,并指出当前的 PLMs(例如 GPT-2 和 T5)还没有具有功能组合性,远未达到人类级别的泛化能力。同时,对于零样本功能组合的语言模型提出了研究方向。
- 基于 ChatGPT 的跨语言摘要
使用互动提示进行零翻译交叉语言生成任务,ChatGPT 可以在信息性和简洁性之间保持平衡,并显着提高其交叉语言生成任务性能。ChatGPT 在三个常见交叉语言生成数据集上的实验结果表明,其优于高级的 GPT 3.5 模型 (text-dav - 跨语言摘要中的翻译特征理解
本文研究了跨语言文本摘要中的翻译现象并探究了其对模型性能和评估的影响,提出了建立适合低资源语言的 CLS 系统的方法,并提供了数据集和模型发展的建议。
- WSDM长文档跨语言摘要
本文介绍了长文档跨语言摘要的研究现状,并构建了 Perseus 数据集,评估了不同的从结构和端到端方案,结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。
- EUR-Lex-Sum: 法律领域长文摘要的多语言和跨语言数据集
本文介绍了一个名为 EUR-Lex-Sum 的新数据集,基于欧盟法律平台的法律法规摘要,包括 24 种官方欧洲语言的跨语言段落对齐数据,以及资源的关键特征对现有摘要资源进行比较。
- WikiMulti: 用于跨语言摘要的语料库
介绍了基于维基百科 15 种语言文章的新日数据集 - WikiMulti, 用于跨语言摘要生成 (CLS) 任务,并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。
- ACL跨语言摘要调查
本研究针对跨语言摘要生成任务进行了全面的系统综述,涵盖数据集、方法和挑战等方面,以便为研究人员提供起点和新想法。
- ACL神经跨语言摘要变分分层模型
本文提出了基于条件变分自编码器的层次模型,用于将一个语言的文档转化为另一个语言的摘要,从而解决了直接进行交叉语言摘要的挑战,实验证明这种方法比现有的方法更为有效和优越。
- ClueGraphSum: 让关键线索指导跨语言概括式摘要
该研究提出了一种线索引导的跨语言自动摘要方法来提高自动生成摘要的质量,并针对手写数据进行了实验评估,取得了较好的结果。
- AAAI利用最优传输距离进行知识蒸馏,提高神经跨语言摘要生成的效果
本文提出了基于知识蒸馏的跨语言摘要框架,通过 Sinkhorn Divergence 实现了师生之间的知识转移,并在跨语言摘要数据集上证明了该方法的高效性。
- SIGIR使用压缩率统一跨语言摘要和机器翻译
通过提出 Cross-lingual Summarization with Compression rate (CSC) 的创新任务,并通过有效的数据增强方法来产生不同压缩率的文档摘要对,从而提高 Cross-Lingual Summari - ACL有限平行资源下的跨语言抽象摘要
使用一种多任务框架和共享解码器的方法,跨语言摘要的跨语言资源匮乏问题得以解决,此方法名为 MCLAS。通过 MCLAS,实验表明其可以在有限的跨语言资源下,显著优于三种基准模型。
- ACL跨语言摘要的混合语言预训练
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有