自动规范混合语言社交媒体文本中的单词变体
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017
研究发现,针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳,而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务,这些模型在混合编码数据上的表现稍微优于非混合编码数据。
May, 2024
讨论多语社会中 NLP 研究的现状、局限与未来的发展。提出英汉混合语言作为案例,探究五个涉及到社会福祉的应用领域:危机管理、医疗保健、政治宣传、假新闻与仇恨言论等。同时,提出了未来多语言 NLP 应用中可能涉及到的数据集、模型和工具。
Jun, 2021
本文提出了一种标注了语言和极性标签的孟加拉英语混合语料库,结合规则和监督模型,研发了自动感知分析的混合系统,以降低标注的人工工作量;同时,通过各种测量方法,对这种混合语料库的语言和情感特征进行了定量和定性的评估。
Mar, 2018
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024
本研究旨在通过实验语言增强方法来提高基于 BERT 的模型在低资源 Code-Mixed Hindi-English 数据集上的性能,并测试了不同的指标,如准确性、精确度、召回率和 F1 分数,以证明语言增强的重要性,以应用于文本情感分析、仇恨言论检测和情感检测等任务
Jun, 2023
本研究提出了基于字符三元组 LSTM 模型和基于词元素的多项式朴素贝叶斯 (MNB) 模型的集成模型,用于识别印地语 - 英语 (Hi-En) 混合数据的情感极性,实验结果表明,相较于几个基准和其他基于深度学习的提出的方法,我们的方法在真实用户混合数据上取得了最先进的结果。
Jun, 2018
本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验,并开发了一种基于三元隐马尔可夫模型的工具,该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。 在受控模式下,我们的系统平均整体准确度(在所有三种语言对上取平均值)为 75.60%,这非常接近排名高于我们系统的其他两个系统(IIITH 为 76.79%,AMRITA_CEN 为 75.79%)。 在不受约束的模式下,我们的系统获得了平均整体准确度为 70.65%,这也接近获得最高平均整体准确度的系统(AMRITA_CEN 为 72.85%)。
Jan, 2016