跨语言时间与数字表达式抽取与规范化的数据集与基线系统

Mar, 2023

跨语言时间与数字表达式抽取与规范化的数据集与基线系统

Dataset and Baseline System for Multi-lingual Extraction and Normalization of Temporal and Numerical Expressions

Sanxing Chen, Yongqiang Chen, Börje F. Karlsson

TL;DR本文描述了一种多语言评估数据集 - NTX，该数据集涵盖了 14 种语言中的不同时间和数字表达式，覆盖了提取、规范化和解析，并提供了一种强大的基线对比其他模型在此数据集中的评估。

Abstract

Temporal and numerical expression understanding is of great importance in many downstream Natural Language Processing (NLP) and Information Retrieval (IR) tasks. However, much previous work covers only a few sub-types and focuses only on →

temporal expression numerical expression entity extraction multi-lingual evaluation ntx

发现论文，激发创造

XLTime：一个用于时间表达式抽取的跨语言知识迁移框架

XLTime 使用预训练语言模型和多任务学习，在英语和非英语语言之间促进跨语言知识转移，以减轻目标语言数据短缺引起的问题，在法语、西班牙语、葡萄牙语和巴斯克语等语言上表现优于先前的自动 SOTA 方法，并且显著缩小了手工制作的 HeidelTime 方法的差距。

May, 2022

使用掩码语言模型进行多语言时态词语归一化

提出了一种基于遮蔽语言模型的新型神经网络方法用于归一化时间表达式，其在多语言情况下优于传统的基于规则的系统，并在低资源语言方面取得了高达 33 F1 的表现提升。

May, 2022

NUMTEMP：一个用于验证具有统计和时间表达的声明的实际基准

自动事实核查在数字时代应对不断增长的误信息方面引起了极大的关注。我们在这项工作中发布了 Numtemp，这是一个多领域的数据集，专门针对数字性声明，包括时间、统计和各种方面的细粒度元数据和证据集合，不会泄漏任何信息。与现有的主要关注合成声明的研究不同，我们的工作解决了验证实际数字性声明的挑战，这些声明复杂且通常缺乏精确信息。我们评估和量化了现有解决方案在验证数字性声明任务方面的局限性。我们还评估了基于声明分解的方法、基于数字理解的模型，最好的基准线模型达到了 58.32 的宏 F1 值。这表明 Numtemp 作为一个具有挑战性的数字性声明验证评估集。

Mar, 2024

使用深度学习和基于语法的方法进行多语言 Timex 检测和归一化的模块化方法

本文提出一种模块化的多语言时间处理系统，结合了微调的遮蔽语言模型和基于语法的规范化器，实验在西班牙语和英语中并与 HeidelTime 进行比较，获得了最佳结果的金标准 timex 标准化、timex 检测和类型识别，并在组合 TempEval-3 松弛值度量中具有竞争性的表现。

Apr, 2023

上下文中基于对话的时态表达规范化的学习

使用大型语言模型和上下文学习，通过样本选择策略实现时间表达归一化，取得了与此任务相关模型相媲美的竞争性结果，并在非标准设置中通过动态包含相关示例在推断过程中实现大幅度的性能改进。

Apr, 2024

评估跨语言句子表示的 XNLI

本文提出了 XNLI 数据集用于跨语言句子理解的评估，并研究了多语言句子理解的基准和挑战。

Sep, 2018

ManTIME: TempEval-3 挑战赛中的时间表达式识别和归一化

本文介绍了一个用于 TempEval-3 挑战的时间表达式识别和归一化系统 ManTIME，其中识别阶段结合了条件随机场和后处理识别管道，而规范化阶段则使用 NorMA，探讨了不同特征类型对性能的影响。最好的运行在标识阶段达到 0.95（P），0.85（R）和 0.90（F1），规一化精度分别为 0.84（类型属性）和 0.77（值属性）

Apr, 2013

探寻语言模型对时间表达的理解能力

该研究针对自然语言推理（NLI）挑战，提出了三个涉及时间表达式的挑战集，包括时间点之间的顺序、时间之间的持续时间及不同单位时间的大小关系，并发现尽管很多 MNLI 预训练大语言模型对时间点之间的顺序有基本的认知，但它们并没有充分理解时间表达式之间的关系。

Oct, 2021

XNLI 2.0：改进 XNLI 数据集和跨语言理解（XLU）性能

本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集，包括 XNLI 测试和开发集，以改进原始 XNLI 数据集，并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理，同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言（如斯瓦希里和乌尔都语）中提高性能的可能性。

Jan, 2023

从文本中提取时间表达式的多语言模型的对抗性对齐

本论文探讨了跨语言多领域的时间表达抽取方法，并通过对抗训练来将嵌入空间对齐到一个公共空间，从而创建了一个单一的跨语言模型，我们在跨语言迁移实验中取得了最新的成果。

May, 2020