基于隐马尔可夫模型的社交媒体英文文本实体抽取系统（FIRE 2015）

Dec, 2015

基于隐马尔可夫模型的社交媒体英文文本实体抽取系统（FIRE 2015）

A Hidden Markov Model Based System for Entity Extraction from Social Media English Text at FIRE 2015

Kamal Sarkar

TL;DR本文研究使用三元隐马尔科夫模型开发工具进行实体提取，基于统计学的 HMM 模型在印度语言的社交媒体文本中表现最佳，其中英文的精度为 61.96%。

Abstract

This paper presents the experiments carried out by us at Jadavpur University as part of the participation in FIRE 2015 task: entity extraction from Social Media Text - indian languages (ESM-IL). The tool that we

entity extraction social media text trigram hidden markov model indian languages precision

发现论文，激发创造

ICON 2015 上面向混合语印度社交媒体文本的词性标注

本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验，并开发了一种基于三元隐马尔可夫模型的工具，该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。在受控模式下，我们的系统平均整体准确度（在所有三种语言对上取平均值）为 75.60％，这非常接近排名高于我们系统的其他两个系统（IIITH 为 76.79％，AMRITA_CEN 为 75.79％）。在不受约束的模式下，我们的系统获得了平均整体准确度为 70.65％，这也接近获得最高平均整体准确度的系统（AMRITA_CEN 为 72.85％）。

Jan, 2016

利用实体掩蔽语言建模和多任务学习提高危机相关推文分类

该研究提出了一种基于实体屏蔽语言建模和层次化多标签分类的多任务学习方法，以解决社交媒体危机管理中的事件相关偏差和高度不均衡标签分布问题，并在 TREC-IS 数据集上表现出高达 10% 的 F1 得分绝对性能提升。同时，实体屏蔽可以减少过度拟合和提高跨事件泛化能力。

Nov, 2022

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

利用多任务神经网络模拟噪声以识别社交媒体中的命名实体

本文提出两种利用字符级音韵、词嵌入和词性标注等特征解决社交媒体文本处理困难的模型，比现有技术在噪声环境下的表现更好， F1 得分比之前提高了 2.45% 和 3.69%。

Jun, 2019

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

SMM4H 2023 中的探索者：通过知识和模型融合增强 BERT 在健康应用中的能力

本研究探讨了利用社交媒体中个人状态和意见来研究人类健康的方法，包括数据预处理、持续预训练和优化策略，特别是对于命名实体识别任务，我们使用了名为 W2NER 的模型架构以提高模型的泛化能力。我们的方法在任务 3 中获得第一名。

Dec, 2023

社交媒体数据中的命名实体识别多任务方法

提出了一种新的多任务方法，通过使用 NE 分段及精细 NE 分类的主要任务和更一般的辅助任务，利用多任务神经网络构架来学习更高阶特征表示，以传统的 CRF 分类器和神经网络结合的方式来解决 Twitter 和分类不一致的问题。

Jun, 2019

探索基于 Transformer 的模型以识别英语和印度雅利安语中的仇恨言论和攻击性内容

本篇论文探索了基于 Transformer 的多种机器学习模型，用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容，研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型，我们在 Code-Mixed 数据集排名第二（宏平均 F1：0.7107）、在印地语二分类中排名第二（宏平均 F1：0.7797）、在英语四分类中排名第四（宏平均 F1：0.8006），在英语二分类中排名第十二（宏平均 F1：0.6447）。

Nov, 2021

社交媒体事件主题建模的语义模块化框架

该文介绍了一种基于 Semantic Modular Model 的事件检测方法，结合自然语言处理技术和聚类算法，更精确地提取社交媒体上的事件信息和关键词。

Jan, 2023