提高土耳其推文中命名实体识别的实验
本文基于神经网络的半监督学习方法,利用非监督学习获取的词向量及专门为微博文本设计的语言无关特征,成功生成一种识别土耳其微博文本中命名实体的系统,并在推特信息上表现出较好的 F-score 性能,相比之前提出的 NER 系统有所提升。该方法没有使用任何特定的语言特征,因此可以轻松地适用于其他形态丰富的语言的微博文本。
Oct, 2018
本文讨论了对于不规则、嘈杂、依赖上下文及动态性的推文(一种微博形式),运用自然语言处理技术进行挖掘和智能信息访问的挑战,重点关注了从推文中提取实体并进行实体消歧的任务,介绍了一个新的 Twitter 实体消歧数据集,并对多个最先进的 Named Entity Recognition & Disambiguation 模型进行了实证分析。
Oct, 2014
本篇论文介绍了一份土耳其推文数据集,对其中的命名实体和立场信息进行了注释,并公开了其中的内容。它将有助于发现推文中命名实体识别和立场检测之间的可能关系。
Jan, 2019
本研究旨在探索利用预训练模型进行 Twitter 命名实体识别的问题,构建了一个包含七个实体类型的数据集 TweetNER7,并提供了一组语言模型基线。通过分析不同时期对语言模型性能的影响,尤其是短期降级、基于不同时间段进行语言模型微调的策略和自我标记作为最近标记数据的替代方案。
Oct, 2022
我们提出了一种新方法用于识别目标化命名实体;我们的方法不需要重新训练统计模型,这使得它对于经常更新的实体类型更加适应。我们的系统使用从 Twitter 收集的数据,以电影标题为例进行测试。在两个评估集上进行测试,我们的最终模型显示 F1 得分为 76.19%和 78.70%,这表明我们的方法完全不偏向于任何训练过程中找到的特定实体集。
Aug, 2014
提出了一种新的多任务方法,通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务,利用多任务神经网络构架来学习更高阶特征表示,以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。
Jun, 2019
我们研究了基于 BERT 模型的多种训练策略,旨在从口语化文本中识别出医疗领域的症状,并通过一系列实验发现了与这些训练策略相关的模型行为模式,提出了有效识别口语化文本中实体的训练策略设计原则。
Jan, 2024
本研究旨在创建 Tweebank-NER,一个基于 Tweebank V2 的英文 NER 语料库,用 TB2 训练最先进的 Tweet NLP 模型,并发布名为 Twitter-Stanza 的 NLP 管道。
Jan, 2022
本文使用监督学习方法,基于新闻周期预测 Twitter 上实体的受欢迎程度,并提取四类特征进行预测,结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。
Jul, 2016
在本文中,我们提出了一种基于神经网络的命名实体识别方法,它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息,并且采用注意力机制和门控机制来编码和聚合这些信息,从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。
Oct, 2020