运用语义增强的方式进行社交媒体文本的命名实体识别
本研究旨在提出一种基于外部知识语义增强的神经网络方法,通过多通道语义融合模型结合检索自搜索引擎的外部相关文本,对中文命名实体识别进行研究,实验证明该方法在正式和社交媒体语境下四个命名实体数据集中均取得了较好的效果。
Oct, 2022
本研究提出 Multimodal Named Entity Recognition (MNER) 任务,针对用户生成的显式短文本和图像(如 Snapchat 详情)创建了一个新的数据集 SnapCaptions,并利用最先进的 Bi-LSTM 基于词语 / 字符的 NER 模型和深度图像网络结合通用模态注意力模块实现 MNER 任务,成功的通过利用提供的视觉上下文背景比文本 NER 模型具有更佳的性能表现。
Feb, 2018
提出了一种新的多任务方法,通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务,利用多任务神经网络构架来学习更高阶特征表示,以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。
Jun, 2019
使用多任务框架,将文本描述与知识图谱实体相关联,以改进知识图谱的性能,并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示,与传统的卷积神经网络相比,使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。
Jul, 2023
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本文在 Twitter 和 Instagram 等社交媒体大规模爆炸的情况下,探索了基于多媒体发布中关于实体识别的问题。我们提出了一种端到端模型,学习了文本和图像的联合表示。模型扩展了多维自我关注技术,其中现在图像有助于增强单词之间的关系。实验表明,我们的模型能够更精确地捕捉文本和视觉语境,实现了 Twitter 多模式命名实体识别数据集的最新结果。
Apr, 2019
本文基于神经网络的半监督学习方法,利用非监督学习获取的词向量及专门为微博文本设计的语言无关特征,成功生成一种识别土耳其微博文本中命名实体的系统,并在推特信息上表现出较好的 F-score 性能,相比之前提出的 NER 系统有所提升。该方法没有使用任何特定的语言特征,因此可以轻松地适用于其他形态丰富的语言的微博文本。
Oct, 2018
本文通过引入一种基于语义相关性的神经模型,旨在提高汉语社交媒体摘要中源文本和摘要之间的语义相关性,使用编码器 - 解码器框架,通过最大化表示之间的相似性得出结论,实验表明,该模型在社交媒体语料库上优于基线系统。
Jun, 2017