使用多语言转换器集成的文本亲密度分析
本文基于 XLM-T 提出了一种基于 transformer 的系统,用于预测多语言推特的亲密度,使用英语翻译数据可用于优化训练和推理,取得了 0.599 的总体 Pearson's r 值和排名第四的成绩。
Apr, 2023
该研究讨论了使用数据增强技术 fine-tune 最流行的 Transformer 模型来参加 SemEval-2023 任务 9,多语言推文的亲密度分析。研究结果表明,我们的系统在多种语言中有良好表现,尤其是葡萄牙语、英语和荷兰语。
Feb, 2023
本文介绍了在 SemEval 2023 多语言推文亲密度分析共享任务中的提交。任务的目标是评估十种语言的 Twitter 帖子的亲密程度。所提出的方法由几个步骤组成,包括域内预训练、训练回归模型的集成以及使用伪标记示例扩展训练集等。该方法在十个语言子任务中有五个排名第一,在所有语言中获得了最高平均分数。
Apr, 2023
提出了一个名为 MINT 的针对 13,372 条推文的多语言亲密性分析数据集,并在英语、法语、西班牙语、意大利语、葡萄牙语、韩语、荷兰语、中文、印地语和阿拉伯语等 10 种语言上进行了基准测试,并发布了该数据集。同时,与此数据集相关的语义分析比赛任务为 SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis。
Oct, 2022
本研究使用一种新的计算框架研究了人们在语言中表达亲密度的方式,并开发了相应的数据集和深度学习模型,用于准确预测问题的亲密水平,并通过三个研究证明了这种表达方式与社会规范有关。
Nov, 2020
本文提出利用多语言 Transformer 模型,通过使用自动翻译进行数据增强,来适应非英语语言中的小型推特语料库,以提高转换器的效果。
Oct, 2020
本文研究了跨多语言数据集及经过机器翻译的文本中,变压器模型在情感分析任务中的表现,并通过比较这些模型在不同语言环境中的效果,洞察其性能变化对情感分析跨多种语言的潜在影响,同时还探讨了其缺点及未来研究的潜在方向。
May, 2024
本研究利用预训练转换器对多语言和多领域的输入文本进行情感分析,使用基于趋势 - 唤醒维度的情感分析方法,比传统方法更细致地区分不同的情感,并发现模型大小对预测质量有显著影响,可自信地预测不同语言的趋势性和唤醒性。
Feb, 2023
本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统,用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案,我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现,平均 F1 得分为 0.6850,对于西班牙语 - 英语任务,我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064,排名团队第 17 位 (29 个参赛者中).
Sep, 2020
本文提出一种名为 WADER 的基于弱标签的数据增强策略,旨在解决文本回归任务中的数据不平衡和数据稀缺问题,还分析了在多语言语境下优化数据增强的采样技术,结果表明 WADER 的表现优于基准模型。
Mar, 2023