在 Tweebank 语料库上进行命名实体识别注释,并建立用于社交媒体分析的 NLP 模型
本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题,构建了一个包含七个实体类型的数据集 TweetNER7,并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响,尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。
Oct, 2022
本篇论文介绍了一份土耳其推文数据集,对其中的命名实体和立场信息进行了注释,并公开了其中的内容。它将有助于发现推文中命名实体识别和立场检测之间的可能关系。
Jan, 2019
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
比较了众包工作者和七个自然语言处理工具在命名实体识别和实体级情感分析两个重要 NLP 任务中的准确性,并测试了几个商业和开源工具,实验结果表明,在我们的政治推文数据集中,最准确的 NER 系统谷歌云 NL 表现几乎与众包工作者一样,但最准确的 ELS 分析系统 TensiStrength 的准确性与众包工作者的准确性相差很大,超过 30 个百分点。
Feb, 2020
TweetNLP 是一个支持社交媒体中自然语言处理任务(包括情感分析、实体识别、表情预测和辱骂识别)的综合平台,其采用基于 Transformer 的语言模型,专门用于处理社交媒体文本,提供 Python 库、在线演示和教程等多种支持。
Jun, 2022
本文基于神经网络的半监督学习方法,利用非监督学习获取的词向量及专门为微博文本设计的语言无关特征,成功生成一种识别土耳其微博文本中命名实体的系统,并在推特信息上表现出较好的 F-score 性能,相比之前提出的 NER 系统有所提升。该方法没有使用任何特定的语言特征,因此可以轻松地适用于其他形态丰富的语言的微博文本。
Oct, 2018
TweetNERD 是一个包含 340k + 推文数据集,是用于评估自然语言处理(NLP)中在推文上进行 NERD 系统基准测试的最大和最具时间差异性的开放数据集之一。
Oct, 2022
提出了一种新的多任务方法,通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务,利用多任务神经网络构架来学习更高阶特征表示,以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。
Jun, 2019
本文介绍了一个计算机编程领域的新命名实体识别(NER)语料库,包括 15,372 个句子和 20 种细粒度实体类型。我们使用基于 BERToverflow 的训练数据对 BERT 模型进行了改进,并提出了 SoftNER 模型,通过上下文无关代码标记分类器和语料库级特征,可在 StackOverflow 数据集上实现代码和命名实体识别。
May, 2020