ACLJul, 2023

MegaWika:50 种不同语言中数百万报告及其来源

TL;DR本研究介绍了一个名为 MegaWika 的数据集,包含 13 百万篇维基百科文章和 71 百万篇引用来源材料,可以用于协作的人工智能辅助报告生成。此外,还实现了跨语言应用的非英文文章翻译和基于 FrameNet 的自动语义分析,并提供了跨语言问答和引用检索的基线结果和训练模型。