比较不同基于语言学的词嵌入在网络欺凌检测中的性能

Jun, 2022

比较不同基于语言学的词嵌入在网络欺凌检测中的性能

Comparing Performance of Different Linguistically-Backed Word Embeddings for Cyberbullying Detection

Juuso Eronen, Michal Ptaszynski, Fumito Masui

TL;DR为了探究如何在词汇元素和结构之间获取更深的关系并过滤多余信息，我们提出了保留词素、句法和其他类型语言信息并结合原始 tokens 或 lemmas 的方法，从而训练出更精确的词向量，并将其应用于预训练的语言模型以提高其性能，为解决复杂的语言表达问题（如检测网络欺凌）提供帮助。

Abstract

In most cases, word embeddings are learned only from raw tokens or in some cases, lemmas. This includes pre-trained language models like BERT. To investigate on the potential of capturing deeper relations between lexical items and structures and to filter out redundant information, we

word embeddings linguistic information morphological syntactic pre-training

发现论文，激发创造

利用特征密度和基于语言学的嵌入来改善基于机器学习的网络欺凌检测的初步研究

本研究对自动网络暴力检测的 Formspring 数据集进行了语言预处理和特征密度分析，并探索了使用不同语言支持嵌入来训练卷积神经网络的新方法，证实了神经网络在网络暴力检测中的有效性和分类器性能与特征密度的相关性。

Jun, 2022

形态学词向量

通过使用德语数据作为案例研究，我们使用语素标注数据引导连续单词嵌入，使嵌入空间中的接近词彼此共享语素特征，并展示了我们学习得到的嵌入实现了这一目标。

Jul, 2019

Word Embeddings 中语义与形态的相互作用

本文探索了单词嵌入捕捉语义和形态相似性的能力，通过各种类型的语言属性（表面形式，词形，形态标签）将每个单词的表示组合起来影响该过程。我们训练了几个模型，每个模型使用不同的属性子集来组合它的表示。通过对语义和形态度量进行评估，我们揭示了语义和形态之间关系的一些有用洞见。

Apr, 2017

用于概率神经词嵌入的形态学先验

通过将形态学信息融合到词向量中，构建了一个统一的概率框架，其中词嵌入是一个潜变量，并以形态学信息提供先验分布。此方法改进了内在词相似性评估，也在词性标注下游任务中提高了性能。

Aug, 2016

隐含地将形态信息融入到词向量中

本文提出了三种新模型，通过隐性使用形态信息增强单词嵌入，实验结果表明隐性模型优于传统显性模型，表现优于所有现有模型，并能在单词嵌入训练过程中补充语义信息。

Jan, 2017

利用形态信息增强深度神经网络

通过将词汇学特征添加到 LSTM 和 BERT 模型中，我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现，结果显示，根据所添加的特征的质量和任务的不同，这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好，而不太适用于 CF 任务；对于 BERT，只有在高质量特征时才会对 DP 表现有所改善，而且相对于强大的多语言 BERT 模型，语言特异性 BERT 变体的改善程度较小。

Nov, 2020

使用大型语言模型进行网络欺凌检测

社交媒体、网络欺凌、机器学习、大型语言模型和 RoBERTa 在网络欺凌检测方面的应用和效果的研究。

Feb, 2024

用于辱骂语言检测的神经词分解模型

探究用户生成文本中的仇恨言论和语言的识别与处理问题，使用字符，子字和字节对编码模型，分析其在预训练语言模型微调中的应用，以及研究 Wikipedia 攻击，毒性和 Twitter 仇恨言论数据集。

Oct, 2019

多语言 BERT 模型的词形句法探测

本研究介绍了一个广泛的多语言探测词形信息数据集，利用预训练变形金刚模型（mBERT 和 XLM-RoBERTa），并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。

Jun, 2023

学习将单词嵌入上下文以执行句法任务

我们提出了一种基于标准神经网络架构的简单，高效的令牌嵌入模型，并通过大量未注释的文本学习了令牌嵌入，评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征，发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。

Jun, 2017