Wolfies 参加 SemEval-2022 任务 8：多语言新闻文章相似性特征提取管道的 Transformers

Aug, 2022

Wolfies 参加 SemEval-2022 任务 8：多语言新闻文章相似性特征提取管道的 Transformers

Wolfies at SemEval-2022 Task 8: Feature extraction pipeline with transformers for Multi-lingual news article similarity

Nikhil Goel, Ranjith Reddy

TL;DR本文介绍了使用预训练嵌入模型计算余弦相似度，并建立不同相似度度量的管道进行特征提取，在此基础上，使用前馈神经网络进行训练以提高相似性测量结果的方法。

Abstract

This work is about finding the similarity between a pair of news articles. There are seven different objective similarity metrics provided in the dataset for each pair and the →

news articles similarity metrics embedding model neural network feature extraction

发现论文，激发创造

GateNLP-UShef 参加 SemEval-2022 任务 8：用实体增强的 Siamese Transformer 进行多语言新闻文章相似性计算

本文描述了 SemEval-2022 任务 8 排行榜上排名第二的系统。我们提出了一种基于实体增强的连体 Transformer，根据新闻文章中讨论的事件的共享叙述、实体、位置和时间等不同子维度计算新闻文章相似性。

May, 2022

HFL 在 SemEval-2022 任务 8 中：一种基于语言学的回归模型与数据增强的多语言新闻相似性方法

本文介绍了我们的系统，以应对针对于 SemEval-2022 任务 8：多语言新闻文章相似性。我们提出了一种受语言学启发的模型，采用了几个任务特定的策略进行训练。我们的系统的主要技术包括：1）数据增强，2）多标签损失，3）适应 R-Drop，4）头尾组合中的样本重构。我们还对一些负面方法进行了简要分析，例如两塔架构。我们的系统在排行榜上排名第 1，并在官方评估集上实现了 0.818 的皮尔逊相关系数。

Apr, 2022

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

基于 Transformer 的大语料库语义相似度分析的认知研究

本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模，并对 Decoding Enhanced BERT（DeBERTa）的四种不同变体进行实验，在此基础上通过 K 次交叉验证提高性能，实验结果表明我们的方法比传统技术更具有优越性，平均 Pearson 相关系数为 0.79。

Jul, 2022

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

利用语言相似性进行零样本跨语言转移语言选择

研究使用语言相似性来选择最佳的迁移语言，从而提高在情感分析、命名实体识别和依赖解析等不同自然语言处理任务中的跨语言迁移性能。

Jan, 2023

基于 ReLU 和余弦相似度的 BERT 微调在 SemEval-2021 任务 2 中的应用

本文介绍我们在 SemEval-2021 任务 2（多语种和跨语言上下文中的词义消歧）中的贡献，包括使用多个语言模型进行细化调整以取得更好的结果，最终我们的最佳模型结果为 92.7％的准确率，排名第四。

Apr, 2021

SemEval-2022 任务 11 中的多语言人士：基于 Transformer 的复杂 NER 架构

本文研究了英文语言的复杂 NER 任务，使用预训练语言模型如 BERT 取得竞争性成绩，并 qualitatively 分析了多种架构在此任务上的表现，最佳模型相比 baseline F1-score 提升了超过 9%。

Apr, 2022

跨语言新闻 - 跨语言文档相似性与事件追踪

本研究基于 Event Registry 系统，使用基于 Wikipedia 的不同语言交叉文档相似度计算方法，解决了多语言流的新闻推送跟踪，提出了一种链接不同语言文章聚集的方法，并对整个系统进行了充分评估。

Dec, 2015

SemEval-2023 任务 3 的英国谢菲尔德 VeraAI 团队：新闻体裁、主题和说服技巧分类的单语和多语方法

研究使用多语言集成模型，针对 SemEval-2023 任务 3：在在线新闻中检测类别、框架和说服技巧。在三个子任务中，使用 RoBERTa 和 mBERT 等方法，分别在不同语言中获得前几名的结果。

Mar, 2023