HFL 在 SemEval-2022 任务 8 中：一种基于语言学的回归模型与数据增强的多语言新闻相似性方法

Apr, 2022

HFL 在 SemEval-2022 任务 8 中：一种基于语言学的回归模型与数据增强的多语言新闻相似性方法

HFL at SemEval-2022 Task 8: A Linguistics-inspired Regression Model with Data Augmentation for Multilingual News Similarity

PDF

Zihang Xu, Ziqing Yang, Yiming Cui, Zhigang Chen

TL;DR本文介绍了我们的系统，以应对针对于 SemEval-2022 任务 8：多语言新闻文章相似性。我们提出了一种受语言学启发的模型，采用了几个任务特定的策略进行训练。我们的系统的主要技术包括：1）数据增强，2）多标签损失，3）适应 R-Drop，4）头尾组合中的样本重构。我们还对一些负面方法进行了简要分析，例如两塔架构。我们的系统在排行榜上排名第 1，并在官方评估集上实现了 0.818 的皮尔逊相关系数。

Abstract

This paper describes our system designed for semeval-2022 Task 8: multilingual news article similarity. We proposed a linguistics-inspired model<

semeval-2022 multilingual news article similarity linguistics-inspired model data augmentation multi-label loss

发现论文，激发创造

HULAT 参加 SemEval-2023 任务 9：基于数据增强的预训练 Transformer 在多语言推特亲密度分析中的应用

该研究讨论了使用数据增强技术 fine-tune 最流行的 Transformer 模型来参加 SemEval-2023 任务 9，多语言推文的亲密度分析。研究结果表明，我们的系统在多种语言中有良好表现，尤其是葡萄牙语、英语和荷兰语。

Feb, 2023

Wolfies 参加 SemEval-2022 任务 8：多语言新闻文章相似性特征提取管道的 Transformers

本文介绍了使用预训练嵌入模型计算余弦相似度，并建立不同相似度度量的管道进行特征提取，在此基础上，使用前馈神经网络进行训练以提高相似性测量结果的方法。

Aug, 2022

AAdaM 参与 SemEval-2024 任务 1：多语言语义文本相关性的增强和适应

本文提出了在 SemEval-2024 Task 1 中开发的系统：用于非洲和亚洲语言的语义文本相关性。该共享任务旨在测量句子对之间的语义文本相关性，重点关注一系列少数语言。我们在这项工作中提出了使用机器翻译进行数据增强来解决有限训练数据的低资源挑战。此外，我们对未标记任务数据进行任务自适应预训练，以弥合预训练和任务适应之间的差距。对于模型训练，我们研究了完全微调和基于适配器的微调，并采用适配器框架实现了有效的零次跨语言迁移。在共享任务中，我们取得了具有竞争力的结果：我们的系统在子任务 A（监督学习）和子任务 C（跨语言迁移）中排名最高。

Apr, 2024

GateNLP-UShef 参加 SemEval-2022 任务 8：用实体增强的 Siamese Transformer 进行多语言新闻文章相似性计算

本文描述了 SemEval-2022 任务 8 排行榜上排名第二的系统。我们提出了一种基于实体增强的连体 Transformer，根据新闻文章中讨论的事件的共享叙述、实体、位置和时间等不同子维度计算新闻文章相似性。

May, 2022

MaiNLP 在 SemEval-2024 任务 1 中的表现：跨语言文本相关性中的源语言选择分析

本文介绍了我们为 SemEval-2024 任务 1 所开发的系统：语义文本相关性（STR），在 Track C：跨语言下。该任务的目标是在没有直接监督（即零 - shot 跨语言转移）的情况下，检测给定目标语言中两个句子的语义相关性。为此，我们关注两个不同预训练语言模型：XLM-R 和 Furina 上的不同源语言选择策略。我们通过以下实验：1）单源转移并基于类型学相似性选择源语言，2）用两个最近邻源语言扩充英语训练数据，以及 3）多源转移，我们将所有训练语言与同一语系的语言进行比较。我们还研究了基于机器翻译的数据增强和脚本差异的影响。我们的提交在 C8（Kinyarwanda）测试集中取得了第一名。

Apr, 2024

NU HLT 参加 CMCL 2022 共享任务：通用语言空间中多语和跨语人类阅读行为预测

本文提出了一种适用于各种语言中单词阅读时间的多语言和跨语言预测的统一模型。通过使用国际音标将单词转换为通用语言表示，该模型的预处理步骤是成功的关键。该模型从基本频率、n-gram、信息论和心理语言学启发的预测变量中提取了各种特征，随后使用随机森林模型进行训练，实现了最佳表现。

Feb, 2022

UZH_CLyp 参加 SemEval-2023 任务 9：Tweet 亲密度预测的跨语言 Fine-Tuning 和 ChatGPT 数据生成

跨语言信息亲密度的多语言 Tweet 分析，通过融合预训练模型与少量合成数据，提出了一种跨语言迁移学习方法 HeFiT，进一步探究其对模型域适应和零样本学习的影响，显著提高了模型性能，证实了合成数据在零样本学习中的作用。

Mar, 2023

UH-PRHLT 在 SemEval-2016 任务 3 中的表现：结合基于词汇和语义的特征用于社区问答

该论文介绍了 UH-PRHLT 系统，使用词汇和语义相似性来表示文本对实例，使用 BabelNet 和 FrameNet 生成知识图谱，并在三个英文子任务中的实验结果优于随机和 Google 搜索引擎基线，尤其在子任务 B 中获得了最高成绩。

Jul, 2018

作为挑战性自然语言理解任务的新闻标题分组

本文介绍了 HeadLine Grouping 的任务和相应数据集，并提出了一个新颖的模型用于该任务。研究结果表明，虽然当前的最先进的 Transformer 模型只能达到 0.75 F-1，但是我们提出的无监督 Headline Generator Swap 模型可接近最佳监督模型的 F-1 分数，并发现了现有体系结构建模的局限性。

May, 2021

KInITVeraAI 在 SemEval-2023 任务 3 中的表现：简单而强大的多语言微调用于说服技巧检测

本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案，主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签，该方案使用大型的跨语言模型（XLM-RoBERTa 大型模型）在所有输入数据上联合训练，而且针对已知语言和未知语言分别设置合理的置信度阈值，最终在 9 种语言中的 6 种语言上（包括两个未知语言）表现最优秀并取得了高度竞争的结果。

Apr, 2023