步行游记数据集

May, 2023

Arukikata Travelogue Dataset

Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya Inoue...

TL;DR我们构建了 Arukikata 旅行游记数据集并免费提供供学术研究使用。该数据集拥有超过 3100 万字的日文文本，包括 4672 篇国内和 9607 篇海外游记文章。这个数据集的建立解决了旅行游记数据稀缺的问题，以便对旅行游记的研究具有公平性和可重复性，并促进旅游业的发展。

Abstract

We have constructed arukikata travelogue dataset and released it free of charge for academic research. This dataset is a japanese text dataset

发现论文，激发创造

该研究着重于文档级别的地理解析技术，提供了一个富有地理实体信息的旅行日志数据集，包括 200 个文档，12171 个提及，6339 个共指簇和 2551 个与地理数据库条目相关联的地理实体。

May, 2023

该论文介绍了一种名为 Potrika 的大型单标签 Bangla 新闻文章文本数据集，包括八个区分不同类别的分类属性，为 NLP 研究提供了两个不平衡和平衡的数据集，以适应广泛的 NLP 研究，并且是目前最大、最全面的新闻分类数据集。

Oct, 2022

本研究构建了一个日语单词相似性数据集，是目前唯一可用于评估分布式单词表示在日语中的有效资源，包括各种词性和生僻词汇在内，该数据集的建立是对分布式单词表示在日语中评估的一次有益尝试。

Mar, 2017

通过并行翻译圣经来开发广泛的主题，并利用众包工具收集标记数据，标注英文端的数据，并通过已对齐的诗句将标签映射到其他语言，从而为 1500 多种语言生成文本分类数据集，并对多个现有的多语言语言模型进行广泛基准测试。

May, 2023

本文介绍了一个大规模印尼文摘要数据集，使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法，并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析，揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。

Nov, 2020

该论文提出了一个名为 NarraSum 的大规模叙述性摘要数据集，在多种影视类型中收集了 12.2 万个叙述文档及其对应的提取式摘要。实验证明，与最先进的摘要模型相比，人类在 NarraSum 上存在较大的性能差距。我们希望该数据集能够促进未来的摘要研究以及自然语言理解和生成的更广泛研究。

Dec, 2022

该研究创建了第一个专注于非洲语言的大型多语言表格生成文本数据集：TaTa，并通过深入的人类评估表明，TaTa 对当前模型具有挑战性，现有指标的表现不佳。

Oct, 2022

介绍 Ubuntu 对话语料库，包含近 100 万个多轮对话，可以用于建立基于神经语言模型的对话管理器，同时提供适用于此数据集的两种神经学习架构，并在选择最佳下一个响应的任务上提供了基准表现。

Jun, 2015

该研究构建了一个日语聊天数据集，用于调整大型语言模型（LLMs），结果显示该数据集有可能对 LLMs 有利，但也揭示了在非英语语言中构建 LLMs 所面临的一些困难。

May, 2023

本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018