TweetNERD -- 用于推文的端到端实体链接基准测试

MMOct, 2022

TweetNERD -- 用于推文的端到端实体链接基准测试

TweetNERD -- End to End Entity Linking Benchmark for Tweets

Shubhanshu Mishra, Aman Saini, Raheleh Makki, Sneha Mehta, Aria Haghighi...

TL;DRTweetNERD 是一个包含 340k + 推文数据集，是用于评估自然语言处理（NLP）中在推文上进行 NERD 系统基准测试的最大和最具时间差异性的开放数据集之一。

Abstract

named entity recognition and disambiguation (NERD) systems are foundational for information retrieval, question answering, event detection, and other natural language processing (→

named entity recognition disambiguation tweetnerd dataset nlp

发现论文，激发创造

Twitter 上的命名实体识别：短期时间漂移的数据集和分析

本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题，构建了一个包含七个实体类型的数据集 TweetNER7，并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响，尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。

Oct, 2022

跨数据集和语言学习开放式命名实体识别的通用实体分类

通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD，并使用减少冗余的数据修剪策略，在开放领域命名实体识别方面，提高了大型语言模型的泛化性能，优于 GPT-4 和以往的方法。

Jun, 2024

Few-NERD：少样本命名实体识别数据集

本文提出了 Few-NERD 数据集，并利用其来制定基准任务，从而全面评估模型的泛化能力，结果表明 Few-NERD 具有挑战性并需要进一步研究。

May, 2021

在 Tweebank 语料库上进行命名实体识别注释，并建立用于社交媒体分析的 NLP 模型

本研究旨在创建 Tweebank-NER，一个基于 Tweebank V2 的英文 NER 语料库，用 TB2 训练最先进的 Tweet NLP 模型，并发布名为 Twitter-Stanza 的 NLP 管道。

Jan, 2022

推文中的命名实体识别与链接分析

本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文（一种微博形式），运用自然语言处理技术进行挖掘和智能信息访问的挑战，重点关注了从推文中提取实体并进行实体消歧的任务，介绍了一个新的 Twitter 实体消歧数据集，并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。

Oct, 2014

USFD: 带有漂移补偿和关联数据的 Twitter 命名实体识别

本研究通过利用来自 Linked Data 的词汇表和无监督特征聚类，利用结构化学习方法针对社交媒体文本中的实体标签问题，构建了一个针对 Twitter 数据集的 NER 系统，其效果竞争力较强。

Nov, 2015

众包工作者与自然语言处理工具在政治推文的命名实体识别和情感分析方面的性能比较

比较了众包工作者和七个自然语言处理工具在命名实体识别和实体级情感分析两个重要 NLP 任务中的准确性，并测试了几个商业和开源工具，实验结果表明，在我们的政治推文数据集中，最准确的 NER 系统谷歌云 NL 表现几乎与众包工作者一样，但最准确的 ELS 分析系统 TensiStrength 的准确性与众包工作者的准确性相差很大，超过 30 个百分点。

Feb, 2020

用于命名实体识别和立场检测的推特数据集标注

本篇论文介绍了一份土耳其推文数据集，对其中的命名实体和立场信息进行了注释，并公开了其中的内容。它将有助于发现推文中命名实体识别和立场检测之间的可能关系。

Jan, 2019

NERetrieve: 下一代命名实体识别与检索数据集

通过大规模语言模型，命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标，但这些目标仍然需要进一步研究和探索。

Oct, 2023

NNE: 英语新闻中嵌套命名实体识别数据集

本文介绍了 NNE 数据集，这是一种精细的、嵌套的命名实体识别数据集，可应用于英语新闻文本中。该数据集包含多个命名实体类型、多层嵌套，希望其公开发布能推动嵌套 NER 新技术的发展。

Jun, 2019