ICON 2015 上面向混合语印度社交媒体文本的词性标注

Jan, 2016

ICON 2015 上面向混合语印度社交媒体文本的词性标注

Part-of-Speech Tagging for Code-mixed Indian Social Media Text at ICON 2015

Kamal Sarkar

TL;DR本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验，并开发了一种基于三元隐马尔可夫模型的工具，该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。在受控模式下，我们的系统平均整体准确度（在所有三种语言对上取平均值）为 75.60％，这非常接近排名高于我们系统的其他两个系统（IIITH 为 76.79％，AMRITA_CEN 为 75.79％）。在不受约束的模式下，我们的系统获得了平均整体准确度为 70.65％，这也接近获得最高平均整体准确度的系统（AMRITA_CEN 为 72.85％）。

Abstract

This paper discusses the experiments carried out by us at Jadavpur University as part of the participation in ICON 2015 task: pos tagging for Code-mixed Indian Social Media Text. The tool that we have developed for the task is based on →

pos tagging code-mixed indian social media text trigram hidden markov model dictionary accuracy

发现论文，激发创造

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

基于隐马尔可夫模型的社交媒体英文文本实体抽取系统（FIRE 2015）

本文研究使用三元隐马尔科夫模型开发工具进行实体提取，基于统计学的 HMM 模型在印度语言的社交媒体文本中表现最佳，其中英文的精度为 61.96%。

Dec, 2015

基于统计和深度学习的奥迪亚语词性标注

本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验，发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。

Jul, 2022

英 — 印度混合语语料库：立场注释和基础系统

本研究使用新的 3545 英汉混合推文数据集，研究了社交媒体用户对 2016 年印度废钞事件的观点，并提出了一个基于各种机器学习技术的监督分类系统，以实现在 10 倍交叉验证下 58.7% 的准确性。

May, 2018

SAIL_Code-Mixed 共享任务 @ICON-2017：印度混合语言情感分析综述

介绍了关于印地语和英语以及孟加拉语和英语的混合数据情感分析的共享任务，描述了任务、数据集、评估、基线和参与者的系统。

Mar, 2018

SemEval-2020 Task 9 中的 HCMS：一种用于代码混合文本情感分析的神经网络方法

本文描述了我们在 Sentimix 印地语 - 英语任务中提交的内容，涉及对代码混合文本进行情感分类，并表现出 F1 得分为 67.1％，证明简单的卷积和注意力可能会产生合理的结果。

Jul, 2020

基于字符和语音的 LSTM 模型的孟加拉 - 英文混合代码文本语言识别

本文提出一种基于深度长短期记忆 (LSTM) 模型的有监督学习方法，针对社交媒体上的低资源孟加拉语 - 英语混合数据的单词级别语言识别问题，采用字符编码和词根编码两种方法训练模型，并使用堆叠和阈值技术创建两个集成模型，在测试数据上分别获得了 91.78% 和 92.35% 的准确率。

Mar, 2018