AMuRD：跨语言键信息提取与分类的注释多语种收据数据集

Sep, 2023

AMuRD：跨语言键信息提取与分类的注释多语种收据数据集

AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification

Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt

TL;DR本文介绍了一种用于收据提取的新颖多语言数据集，解决了信息提取和项目分类中的关键挑战，并介绍了 InstructLLaMA 方法，在关键信息提取和项目分类方面实现了 0.76 的 F1 分数和 0.68 的准确性。

Abstract

key information extraction involves recognizing and extracting text from scanned receipts, enabling retrieval of essential content, and organizing it into structured documents. This paper presents a novel

key information extraction multilingual dataset receipt extraction information extraction item classification

发现论文，激发创造

CORU: 全面的后光学字符识别解析与收据理解数据集

这篇论文介绍了一种新颖的数据集 CORU，旨在增强 OCR 和信息提取技术在多语言环境中处理阿拉伯语和英语收据的能力，并评估传统方法和基于神经网络的方法在 CORU 上的性能。

Jun, 2024

DocILE 文件信息定位与提取基准测试

本文介绍了 DocILE 数据集及其应用，它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件，旨在为关键信息定位和提取以及行项目识别等任务提供基准，并提供了几个基线模型，包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。

Feb, 2023

MAUD：用于并购协议理解的专家注释法律自然语言处理数据集

本研究介绍了基于美国律师协会的 2021 年公共目标交易要点研究的 Merger Agreement Understanding 数据集，通过专家注释读解的法律文本可以提高阅读理解的准确性，其中 Transformer 基线对大多数问题的表现良好，而对于大部分问题仍有改进的空间。

Jan, 2023

低资源语言的跨语言金融交易数据 NER

我们提出了一个高效的建模框架，用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练，并且利用预训练在源语言上的大型语言模型（XLMRoBERTa）的知识，通过学生 - 教师关系（知识蒸馏）。学生模型在低资源目标语言上采用无监督的一致性训练（使用 KL 散度损失）。我们使用两个独立的 SMS 数据集，分别是英语和阿拉伯语，每个数据集都携带有半结构化的银行交易信息，并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本，我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明，在低资源语言的少量标记样本的情况下，学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序，尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义，有时与英语混合使用或独立使用。

Jul, 2023

MultiEURLEX -- 用于零样本跨语言转移的多语言和多标签法律文件分类数据集

MULTI-EURLEX 是一个多语言数据集，用于法律文件的主题分类，其中包含 65,000 个欧盟法律，并使用 EUROVOC 分类法进行了注释。在使用该数据集进行零 - shot 跨语言转移时，发现使用单个源语言对多语言预训练模型进行微调会导致多语言语言知识的严重遗忘，并因此表现出较差的零 - shot 转移结果，但是通过部分微调等调整策略可以帮助保留预训练模型的跨语言知识，从而显著提高零 - shot 跨语言转移性能。

Sep, 2021

一个多模态多语言文件图像分类基准

文档图像分类是一项与纯文本文档分类不同的任务，它通过理解表单、电子邮件和其他文档的内容和结构来对文档进行分类。本研究介绍了两个新的多语言数据集 WIKI-DOC 和 MULTIEURLEX-DOC，克服了现有数据集的限制。此外，本研究对以前未经测试的文档图像分类任务中的流行视觉丰富的文档理解或文档智能模型进行了全面研究，包括多标签分类和零样本跨语言迁移设置。实验结果显示多语言文档智能模型在跨语言迁移上存在一定的局限性。我们的数据集和研究结果为未来改进文档智能模型打开了大门。

Oct, 2023

多语言亚马逊评论语料库

该研究介绍了一个包含英文、日文、德语、法语、西班牙语和中文的跨语言 Amazon 评论语料库 (MARC)，并提出了利用多语言 BERT 模型进行文本分类和零样本跨语言迁移学习的方法。研究使用平均绝对误差 (MAE) 代替分类准确率进行了实验，并获得了基准结果。

Oct, 2020

大规模多语言抽象意义表示：一份用于幻化检测的数据集和基准

我们介绍了 MASSIVE-AMR 数据集，它是迄今最大且最多样化的 AMR 数据集，包含超过 84,000 个文本到图形的注释，映射到 50 多种具有不同语言类型的信息寻求话语，并使用大型语言模型进行多语言 AMR 和 SPARQL 分析的实验，以及在知识库问答上应用 AMR 进行虚构检测的结果，对使用 LLMs 进行结构化分析的持续问题提供了一些启示。

May, 2024

RMDM: 一个用于越南证据验证的多标签虚假新闻数据集

本研究提出了一个新的、具有挑战性的多标签越南数据集 (RMDM)，用于评估大型语言模型 (LLMs) 在验证与法律背景相关的电子信息方面的表现，特别关注作为电子证据潜在输入的假新闻。RMDM 数据集包含四个标签：real、mis、dis 和 mal，分别代表真实信息、错误信息、误导信息和恶意信息。通过包含这些不同的标签，RMDM 捕捉了不同假新闻类别的复杂性，并为处理可能成为电子证据一部分的各种信息的不同语言模型的能力提供了见解。该数据集共有 1556 个样本，每个标签有 389 个样本。使用基于 GPT 和基于 BERT 的模型对数据集进行的初步测试显示，不同标签之间模型的性能存在差异，这表明该数据集有效地挑战了各种语言模型验证这种信息真实性的能力。我们的研究结果表明，验证与法律背景相关的电子信息，包括假新闻，对于语言模型仍然是一个困难的问题，需要进一步引起研究界的关注，以推进更可靠的人工智能模型，用于潜在的法律应用。

Sep, 2023

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023