XLM-T:用于社交媒体情感分析等多语言语言模型在Twitter中的应用
本文提出利用多语言Transformer模型,通过使用自动翻译进行数据增强,来适应非英语语言中的小型推特语料库,以提高转换器的效果。
Oct, 2020
TwHIN-BERT是一种多语言语言模型,使用来自Twitter的专业领域数据进行训练,并通过具有基于Twitter异构信息网络(TwHIN)中丰富的社交互动的社交目标的训练使其不同于以前的预训练语言模型。我们在各种多语言社交推荐和语义理解任务上评估了我们的模型,并展示了相对于已建立的预训练语言模型的重大指标改进。
Sep, 2022
本文基于XLM-T提出了一种基于transformer的系统,用于预测多语言推特的亲密度,使用英语翻译数据可用于优化训练和推理,取得了0.599的总体Pearson's r值和排名第四的成绩。
Apr, 2023
本研究评估了多语言文本处理技术的热门系统ChatGPT在37种不同的语言中进行的7项不同任务的表现,揭示了其在不同NLP任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
该研究提供了一个由79个数据集组成的开放性跨语言语料库,可用于培训情感模型,同时展现了基于不同基础模型、训练目标、数据集集合和微调策略所进行的数百次实验的多方面情感分类基准。
Jun, 2023
通过AfriSenti-SemEval共享任务,评估了14种非洲语言情感分析中当前最先进的转换器模型,比较了用单一模型处理所有语言与为每种语言训练一个模型之间的性能。结果表明,对非洲语言专门开发的模型在所有任务上表现出色,对于一些样本较小的语言,一个更大的多语言模型在情感分类上可能比专门针对该语言的模型表现更好。
Oct, 2023
社交媒体的快速发展使得我们能够分析用户意见。尽管常用语言的情感分析已经取得了显著的进展,但由于资源限制,低资源语言像阿拉伯语等仍然很少有研究。本研究探讨了SemEval-17和阿拉伯语情感推文数据集上的推文文本的情感分析,并研究了四种预训练语言模型以及提出了两种集成语言模型。我们的发现包括单语言模型表现出更好的性能,集成模型优于基线,而多数投票集成模型胜过英语。
Mar, 2024
近年来,多模态自然语言处理引起了广泛关注,但我们需要更清晰地分析多语言环境下的多模态任务。本文通过一个简单的策划过程,将一份现有的文本Twitter情感数据集转化为多模态格式,从而填补了先前主要关注英语的情感分析研究的空白,并为研究界开辟了情感相关研究的新领域。此外,我们利用这个增强的数据集进行了基准实验,并报告了结果。值得注意的是,我们的评估结果显示,在单模态和多模态配置相比较时,使用一个经过情感调整的大型语言模型作为文本编码器表现出色。
Apr, 2024
在跨语言情感分析领域,公共的小型多语言语言模型在零样本跨语言性能上优于大型通用语言模型,但在少样本跨语言设置中,公共的大型通用语言模型展现出更高的适应潜力。
Jun, 2024
本研究针对在推特/X数据中应用的基于方面的情感分析(ABSA),解决了小语种情感分类的不足问题。通过微调多种大型语言模型,发现部分模型在多语言推特任务中的微调表现优越,可以在较小的训练集上达到最新的技术水平。研究结果揭示了最佳设置的组合,可能对小语种情感分析领域产生重要影响。
Aug, 2024