使用多语言转换器集成的文本亲密度分析

Dec, 2023

使用多语言转换器集成的文本亲密度分析

Text Intimacy Analysis using Ensembles of Multilingual Transformers

Tanmay Chavan, Ved Patwardhan

TL;DR本文介绍了作者在 SemEval 共享任务 9 中对给定文本的亲密度水平进行预测的研究工作，采用多语言模型的集成和语言特定的单语模型，并评估了其他数据增强方法，最后呈现了一些有价值的研究结果。

Abstract

intimacy estimation of a given text has recently gained importance due to the increase in direct interaction of nlp systems with humans. Intimacy is an important aspect of natural language and has a substantial i

intimacy estimation nlp systems semeval shared task multilingual models data augmentation

发现论文，激发创造

使用 XLM-T、Google Translate 和集成学习的多语言推文亲密度检测在 SemEval-2023 任务 9 中的应用

本文基于 XLM-T 提出了一种基于 transformer 的系统，用于预测多语言推特的亲密度，使用英语翻译数据可用于优化训练和推理，取得了 0.599 的总体 Pearson's r 值和排名第四的成绩。

Apr, 2023

HULAT 参加 SemEval-2023 任务 9：基于数据增强的预训练 Transformer 在多语言推特亲密度分析中的应用

该研究讨论了使用数据增强技术 fine-tune 最流行的 Transformer 模型来参加 SemEval-2023 任务 9，多语言推文的亲密度分析。研究结果表明，我们的系统在多种语言中有良好表现，尤其是葡萄牙语、英语和荷兰语。

Feb, 2023

2023 年 SemEval 任务 9 中的 OPI：一种简单而有效的多语言推文亲密度分析方法

本文介绍了在 SemEval 2023 多语言推文亲密度分析共享任务中的提交。任务的目标是评估十种语言的 Twitter 帖子的亲密程度。所提出的方法由几个步骤组成，包括域内预训练、训练回归模型的集成以及使用伪标记示例扩展训练集等。该方法在十个语言子任务中有五个排名第一，在所有语言中获得了最高平均分数。

Apr, 2023

SemEval 2023 任务 9：多语言推文亲密度分析

提出了一个名为 MINT 的针对 13,372 条推文的多语言亲密性分析数据集，并在英语、法语、西班牙语、意大利语、葡萄牙语、韩语、荷兰语、中文、印地语和阿拉伯语等 10 种语言上进行了基准测试，并发布了该数据集。同时，与此数据集相关的语义分析比赛任务为 SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis。

Oct, 2022

量化语言中的亲密性

本研究使用一种新的计算框架研究了人们在语言中表达亲密度的方式，并开发了相应的数据集和深度学习模型，用于准确预测问题的亲密水平，并通过三个研究证明了这种表达方式与社会规范有关。

Nov, 2020

利用多语言 Transformer 和自动翻译增强数据的非英文推文情感分析改进

本文提出利用多语言 Transformer 模型，通过使用自动翻译进行数据增强，来适应非英语语言中的小型推特语料库，以提高转换器的效果。

Oct, 2020

跨语言情感分析：机器翻译英语前后的评估

本文研究了跨多语言数据集及经过机器翻译的文本中，变压器模型在情感分析任务中的表现，并通过比较这些模型在不同语言环境中的效果，洞察其性能变化对情感分析跨多种语言的潜在影响，同时还探讨了其缺点及未来研究的潜在方向。

May, 2024

使用多语言预训练变压器量化文本情感的价值和唤起程度

本研究利用预训练转换器对多语言和多领域的输入文本进行情感分析，使用基于趋势 - 唤醒维度的情感分析方法，比传统方法更细致地区分不同的情感，并发现模型大小对预测质量有显著影响，可自信地预测不同语言的趋势性和唤醒性。

Feb, 2023

使用变形金刚和多任务学习识别混合代码社交媒体文本中的情感 - 在 SemEval-2020 任务 9 中的 UPB

本篇论文描述了研究团队为 SemEval-2020 Task 9 开发的两个系统，用于涵盖印地语 - 英语和西班牙语 - 英语这两种混合语言。通过介绍利用多种神经网络方法和预训练的单词嵌入的解决方案，我们提出的多语言 BERT 方法在印地语 - 英语任务中取得了有前途的表现，平均 F1 得分为 0.6850，对于西班牙语 - 英语任务，我们使用另一种基于 Transformer 的多语言模型 XLM-RoBERTa 获得了平均 F1 得分为 0.7064，排名团队第 17 位 (29 个参赛者中).

Sep, 2020

WADER 参加 SemEval-2023 任务 9：一种弱标注框架用于文本回归任务中的数据增强

本文提出一种名为 WADER 的基于弱标签的数据增强策略，旨在解决文本回归任务中的数据不平衡和数据稀缺问题，还分析了在多语言语境下优化数据增强的采样技术，结果表明 WADER 的表现优于基准模型。

Mar, 2023