危机相关社交媒体文本的语义丰富跨语言句子嵌入

Mar, 2024

危机相关社交媒体文本的语义丰富跨语言句子嵌入

Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts

Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera

TL;DR通过使用多语言句子编码器，我们提出了一种能够为 50 多种语言中的相关社交媒体文本进行嵌入的模型，以使具有相似含义的文本在相同的向量空间中靠近，无论语言多样性如何。研究结果对句子编码和匹配任务表现出良好的性能，表明这些模型可以作为嵌入多语言危机相关社交媒体文本时的强大基准模型。

Abstract

Tasks such as semantic search and clustering on crisis-related social media texts enhance our comprehension of crisis discourse, aiding decision-making and targeted interventions. Pre-trained language models have advanced performance in →

crisis informatics semantic search multi-lingual sentence encoders social media texts semantic similarities

发现论文，激发创造

危机转型：面向危机相关社交媒体文本的预训练语言模型和句子编码器

社交媒体平台在危机传播中起着重要作用，但由于其非正式性质，分析危机相关的社交媒体文本具有挑战性。为了解决危机信息学文献中的这些差距，本研究引入了 CrisisTransformers，这是一个预训练语言模型和句子编码器的集合，它们经过广泛的语料库训练，包含了超过 150 亿词元的推文，涉及 30 多个危机事件，包括疾病爆发、自然灾害、冲突和其他重大事件。评估现有模型和 CrisisTransformers 在 18 个危机特定的公共数据集上表现，我们的预训练模型在所有数据集的分类任务中都优于强基线，而我们表现最佳的句子编码器在句子编码任务中将现有技术水平提高了 17.43%。此外，我们研究了模型初始化对收敛性的影响，并评估了领域专用模型在生成语义有意义的句子嵌入中的重要性。所有模型已公开发布，以期成为分析危机相关社交媒体文本任务的强大基准。

Sep, 2023

基于 Transformers 的危机相关社交媒体跨语言查询式摘要生成算法

本文提出了一种跨语言方法来检索和总结社交媒体帖子中与危机相关的信息，该方法基于多语种变形金刚嵌入，可以创建准确，有结构的摘要，与现有的最先进方法相比，被认为更加专注，有结构并且相关性更强。

Apr, 2022

多语言通用句子编码器用于语义检索

本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型，并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中，以提高检索效率，与最先进的语义检索、翻译检索和检索问题回答模型相竞争，并在某些情况下超越了英文单语句子嵌入模型的表现水平。

Jul, 2019

用图神经网络增强的语言模型进行高效的多语言文本分类

提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统，该系统可以在有限的监督下工作，并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试，该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。

Mar, 2022

CReMa：通过计算机识别和匹配社交媒体上的跨语言请求和提供以进行危机响应

在应对危机时，社交媒体平台起着至关重要的作用，通过促进沟通和协调资源。本研究提出了一个系统方法 CReMa 来高效地在社交媒体平台上识别和匹配援助请求和提供，利用危机专用模型和跨语言嵌入空间，从而优化识别和匹配任务，并在分类和危机嵌入生成任务中胜过强基线算法。同时，我们还介绍了一个模拟澳大利亚 16 种常用语言的社交媒体求助和援助场景的多语言数据集，并通过全面的跨语言实验证明了我们的方法。此外，我们还分析了一个包含百万级地理标记全球数据集，以了解社交媒体上的求助和援助模式。总的来说，这些研究成果推动了危机信息学领域的发展，并为未来的研究提供了基准。

May, 2024

CrisisBERT：用于危机分类和语境嵌入的强大 Transformer

本文提出了基于 Transformer 的 CrisisBERT 模型和基于 Attention 的 Crisis2Vec 架构，分别用于危机检测、危机识别和危机嵌入，相较于传统方法，该架构表现出更好的性能和稳健性，在危机事件领域中，具有更好的应用前景。

May, 2020

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

EMS: 高效有效的大规模多语言句子表示学习

通过跨语言重建和句子级对比学习，提出了一种有效的高效多语句子表示学习算法 EMS，不依赖于大规模预训练模型，能显著减少并行句子和 GPU 计算资源的使用，支持 62 种语言，在双语挖掘、零样本跨语言流派分类和情感分类方面，该模型显著获得更好或相当的效果。

May, 2022

从多语种句子编码器探究跨语言词汇知识

本文将多语言预训练模型转化为多语言句子编码器，通过对句子编码器进行探索，采用基于对比学习的简单而高效的方法，揭示了句子编码器隐含的跨语言词汇知识，进而提供了一种利用跨语言词汇的工具。

Apr, 2022

利用实体掩蔽语言建模和多任务学习提高危机相关推文分类

该研究提出了一种基于实体屏蔽语言建模和层次化多标签分类的多任务学习方法，以解决社交媒体危机管理中的事件相关偏差和高度不均衡标签分布问题，并在 TREC-IS 数据集上表现出高达 10% 的 F1 得分绝对性能提升。同时，实体屏蔽可以减少过度拟合和提高跨事件泛化能力。

Nov, 2022