TweetNERD -- 用于推文的端到端实体链接基准测试
本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题,构建了一个包含七个实体类型的数据集 TweetNER7,并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响,尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。
Oct, 2022
通过构建一个通用的、包含 400 多种实体类型的数据集 B2NERD,并使用减少冗余的数据修剪策略,在开放领域命名实体识别方面,提高了大型语言模型的泛化性能,优于 GPT-4 和以往的方法。
Jun, 2024
本文提出了 Few-NERD 数据集,并利用其来制定基准任务,从而全面评估模型的泛化能力,结果表明 Few-NERD 具有挑战性并需要进一步研究。
May, 2021
本研究旨在创建 Tweebank-NER,一个基于 Tweebank V2 的英文 NER 语料库,用 TB2 训练最先进的 Tweet NLP 模型,并发布名为 Twitter-Stanza 的 NLP 管道。
Jan, 2022
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
本研究通过利用来自 Linked Data 的词汇表和无监督特征聚类,利用结构化学习方法针对社交媒体文本中的实体标签问题,构建了一个针对 Twitter 数据集的 NER 系统,其效果竞争力较强。
Nov, 2015
比较了众包工作者和七个自然语言处理工具在命名实体识别和实体级情感分析两个重要 NLP 任务中的准确性,并测试了几个商业和开源工具,实验结果表明,在我们的政治推文数据集中,最准确的 NER 系统谷歌云 NL 表现几乎与众包工作者一样,但最准确的 ELS 分析系统 TensiStrength 的准确性与众包工作者的准确性相差很大,超过 30 个百分点。
Feb, 2020
本篇论文介绍了一份土耳其推文数据集,对其中的命名实体和立场信息进行了注释,并公开了其中的内容。它将有助于发现推文中命名实体识别和立场检测之间的可能关系。
Jan, 2019
通过大规模语言模型,命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标,但这些目标仍然需要进一步研究和探索。
Oct, 2023
本文介绍了 NNE 数据集,这是一种精细的、嵌套的命名实体识别数据集,可应用于英语新闻文本中。该数据集包含多个命名实体类型、多层嵌套,希望其公开发布能推动嵌套 NER 新技术的发展。
Jun, 2019