基于隐马尔可夫模型的社交媒体英文文本实体抽取系统(FIRE 2015)
本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验,并开发了一种基于三元隐马尔可夫模型的工具,该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。 在受控模式下,我们的系统平均整体准确度(在所有三种语言对上取平均值)为 75.60%,这非常接近排名高于我们系统的其他两个系统(IIITH 为 76.79%,AMRITA_CEN 为 75.79%)。 在不受约束的模式下,我们的系统获得了平均整体准确度为 70.65%,这也接近获得最高平均整体准确度的系统(AMRITA_CEN 为 72.85%)。
Jan, 2016
该研究提出了一种基于实体屏蔽语言建模和层次化多标签分类的多任务学习方法,以解决社交媒体危机管理中的事件相关偏差和高度不均衡标签分布问题,并在 TREC-IS 数据集上表现出高达 10% 的 F1 得分绝对性能提升。同时,实体屏蔽可以减少过度拟合和提高跨事件泛化能力。
Nov, 2022
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本文提出两种利用字符级音韵、词嵌入和词性标注等特征解决社交媒体文本处理困难的模型,比现有技术在噪声环境下的表现更好, F1 得分比之前提高了 2.45% 和 3.69%。
Jun, 2019
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017
本研究探讨了利用社交媒体中个人状态和意见来研究人类健康的方法,包括数据预处理、持续预训练和优化策略,特别是对于命名实体识别任务,我们使用了名为 W2NER 的模型架构以提高模型的泛化能力。我们的方法在任务 3 中获得第一名。
Dec, 2023
提出了一种新的多任务方法,通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务,利用多任务神经网络构架来学习更高阶特征表示,以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。
Jun, 2019
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021
该文介绍了一种基于 Semantic Modular Model 的事件检测方法,结合自然语言处理技术和聚类算法,更精确地提取社交媒体上的事件信息和关键词。
Jan, 2023