Wolfies 参加 SemEval-2022 任务 8:多语言新闻文章相似性特征提取管道的 Transformers
本文描述了 SemEval-2022 任务 8 排行榜上排名第二的系统。我们提出了一种基于实体增强的连体 Transformer,根据新闻文章中讨论的事件的共享叙述、实体、位置和时间等不同子维度计算新闻文章相似性。
May, 2022
本文介绍了我们的系统,以应对针对于 SemEval-2022 任务 8:多语言新闻文章相似性。我们提出了一种受语言学启发的模型,采用了几个任务特定的策略进行训练。我们的系统的主要技术包括:1)数据增强,2)多标签损失,3)适应 R-Drop,4)头尾组合中的样本重构。我们还对一些负面方法进行了简要分析,例如两塔架构。我们的系统在排行榜上排名第 1,并在官方评估集上实现了 0.818 的皮尔逊相关系数。
Apr, 2022
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模,并对 Decoding Enhanced BERT(DeBERTa)的四种不同变体进行实验,在此基础上通过 K 次交叉验证提高性能,实验结果表明我们的方法比传统技术更具有优越性,平均 Pearson 相关系数为 0.79。
Jul, 2022
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
本文介绍我们在 SemEval-2021 任务 2(多语种和跨语言上下文中的词义消歧)中的贡献,包括使用多个语言模型进行细化调整以取得更好的结果,最终我们的最佳模型结果为 92.7%的准确率,排名第四。
Apr, 2021
本文研究了英文语言的复杂 NER 任务,使用预训练语言模型如 BERT 取得竞争性成绩,并 qualitatively 分析了多种架构在此任务上的表现,最佳模型相比 baseline F1-score 提升了超过 9%。
Apr, 2022
本研究基于 Event Registry 系统,使用基于 Wikipedia 的不同语言交叉文档相似度计算方法,解决了多语言流的新闻推送跟踪,提出了一种链接不同语言文章聚集的方法,并对整个系统进行了充分评估。
Dec, 2015
研究使用多语言集成模型,针对 SemEval-2023 任务 3:在在线新闻中检测类别、框架和说服技巧。在三个子任务中,使用 RoBERTa 和 mBERT 等方法,分别在不同语言中获得前几名的结果。
Mar, 2023