VLSP 2022 概述 --Abmusu 共享任务:越南摘要多文档概括性总结的数据挑战
本文聚焦于将抽取式多篇文档自动摘要问题转化为子图选择问题,并利用整体图结构和选定子图捕捉同一文档内和同一群集内句子之间的关系,在 VLSP 2022 数据集上的实验结果表明,该模型目前在公共测试集上的 ROUGE-2 F1 值排名前 10。
Jun, 2023
本文介绍了一种基于聚类相似性的多文档综述方法,使用基于修改版 PageRank 算法和文本相关性考虑机制的混合模型的抽取方法,在每个聚类中选择最重要的句子生成摘要,并应用 BARTpho 和 ViT5 构建了缩写模型,结果表明该方法在 VLSP 2022 竞赛中取得了竞争力的成果。
Apr, 2023
本研究综述了越南产品评论比较观点挖掘的比较任务,该任务旨在通过开发从越南产品评论中有效提取比较观点的技术,推进自然语言处理领域。研究构建了一个人工标注数据集,包括 120 个文档、7427 个非比较句和 1798 个句子中的 2468 个比较,参与模型根据完全匹配宏平均的五元组 F1 得分进行评估和排名。
Feb, 2024
Transum 是一种多任务学习框架,可以将真实数据及伪造数据结合起来用于神经编码器 - 解码器的训练,达到在汉英和阿拉伯英文摘要、中英、阿拉伯英翻译任务中均获得最佳 ROUGE 分的效果,此外还对机器翻译任务有积极的影响。
Oct, 2020
该论文介绍了 2019 年 CL-SciSumm 共享任务,包括三个任务:确定引用文献与被引用文献间的关系,分类表述要素和生成概括性摘要等,使用 40 个带有注释的 CL-SciSumm 2018 语料库和 1000 个来自 SciSummNet 数据集的引用和参考文献,以及使用了两种评估指标,其中 ROUGE 作为一种评估指标。
Jul, 2019
CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.
Sep, 2019
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集,其中包含来自 44 种语言的 100 万篇新闻文章及其摘要,旨在支持跨语言抽象文本摘要的未来研究工作,且在许多语言上可实现尤其高的 ROUGE-2 分数。
Jun, 2021
提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型,并采用多阶段训练方法来提高模型处理长篇语音的能力,最终在 How-2 数据集上取得了具有竞争力的性能。
Jul, 2024
本论文介绍了在 ACL 2023 的 BioNLP 研讨会上举办的生物医学研究文章 Lay Summarisation 的共享任务的结果,并报告了总体结果和吸引了 20 支参赛队伍的设置和见解。
Sep, 2023