自动规范混合语言社交媒体文本中的单词变体

Apr, 2018

自动规范混合语言社交媒体文本中的单词变体

Automatic Normalization of Word Variations in Code-Mixed Social Media Text

Rajat Singh, Nurendra Choudhary, Manish Shrivastava

TL;DR本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Abstract

social media platforms such as Twitter and Facebook are becoming popular in multilingual societies. This trend induces portmanteau of South Asian languages with English. The blend of multiple languages as

social media platforms multilingual societies code-mixed data contextual property distributed representations

发现论文，激发创造

SMPOST: 用于代码混合的印度社交媒体文本的词性标注器

研究社交媒体上社会语言的使用及其对自然语言处理的影响，参考三种不同语言对的社交媒体数据，通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。

Feb, 2017

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

多语社会中代码混合自然语言处理所面临的挑战和考虑

讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例，探究五个涉及到社会福祉的应用领域：危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时，提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。

Jun, 2021

为情感分析准备孟加拉英语混合编码语料库

本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库，结合规则和监督模型，研发了自动感知分析的混合系统，以降低标注的人工工作量；同时，通过各种测量方法，对这种混合语料库的语言和情感特征进行了定量和定性的评估。

Mar, 2018

将序列对序列模型用于社交媒体文本规范化

介绍了一个基于混合词 - 字符注意力编码 - 解码模型的社交媒体文本标准化系统，以预处理噪音文本并适应社交媒体上的 NLP 应用。

Apr, 2019

混合代码社交媒体文本中跨语言滥用识别

本文提出了一种针对多语言 Moj 数据集的辱骂识别方法，解决了非英语社交媒体内容中常见的混合码，音译和使用不同文字的额外挑战。

Mar, 2022

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

利用语言识别提升混合编码文本分类

本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能，并测试了不同的指标，如准确性、精确度、召回率和 F1 分数，以证明语言增强的重要性，以应用于文本情感分析、仇恨言论检测和情感检测等任务

Jun, 2023

一种用于印地语 - 英语混合编码数据情感分析的集成模型

本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型，用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性，实验结果表明，相较于几个基准和其他基于深度学习的提出的方法，我们的方法在真实用户混合数据上取得了最先进的结果。

Jun, 2018

ICON 2015 上面向混合语印度社交媒体文本的词性标注

本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验，并开发了一种基于三元隐马尔可夫模型的工具，该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。在受控模式下，我们的系统平均整体准确度（在所有三种语言对上取平均值）为 75.60％，这非常接近排名高于我们系统的其他两个系统（IIITH 为 76.79％，AMRITA_CEN 为 75.79％）。在不受约束的模式下，我们的系统获得了平均整体准确度为 70.65％，这也接近获得最高平均整体准确度的系统（AMRITA_CEN 为 72.85％）。

Jan, 2016