利用用户嵌入改进虐待性评论的监控

Aug, 2017

利用用户嵌入改进虐待性评论的监控

Improved Abusive Comment Moderation with User Embeddings

John Pavlopoulos, Prodromos Malakasiotis, Juli Bakagianni, Ion Androutsopoulos

TL;DR本文探讨了如何通过添加用户嵌入、用户类型嵌入、用户偏差或用户类型偏差来改进一种最先进的基于循环神经网络的评论审核方法，并在希腊新闻体育门户网站的约 160 万条用户评论数据集上实验，观察到在所有情况下都有改善，其中用户嵌入具有最大的性能提升。

Abstract

Experimenting with a dataset of approximately 1.6M user comments from a Greek news sports portal, we explore how a state of the art rnn-based moderation method can be improved by adding user embeddings,

rnn-based moderation user embeddings user type embeddings user biases user type biases

发现论文，激发创造

用户评论内容的深度学习审核

本文研究了希腊新闻门户网站的 160 万条用户评论和已有的英文维基百科评论数据集，发现使用循环神经网络（RNN）进行评论管理的表现超过了现有技术水平。此外，使用具有分类特定的注意机制的深度学习模型进一步提高了 RNN 的性能，同时还针对全自动和半自动管理情况与使用卷积神经网络（CNN）和词表技术的基准算法进行了比较。

May, 2017

面向个性化文本分类的增量用户嵌入建模

本研究提出一种增量用户嵌入建模方法，通过使用转换编码器将用户的最近交互历史的嵌入动态集成到累积历史向量中，从而实现个性化用户表示的学习，并成功将其应用于 Reddit 数据集的个性化多类分类任务中，并在评论历史编码和任务建模方面相应地实现 9% 和 30% 的相对提升。

Feb, 2022

基于神经网络字符组合的滥用检测模型

本研究设计了一个可以为未知单词组合嵌入的模型，与现有的自然语言处理技术相比，本方法可以更好地检测社交媒体上的滥用言论，数据集包含 Twitter 和 Wikipedia talk page。

Sep, 2018

探索嵌入技术以衡量文本相关性：揭示在线评论中的情感和关系

由于一次导致互联网使用增长 70% 的大流行病，全球范围内使用社交媒体的人数大幅增加。本研究通过使用词嵌入来分析评论中的组成部分和文档，调查了不同社交媒体平台上的情感和语义关系，论述了共享意见在这些不同媒体平台之间的重要性，为研究人员、政治家和商业代表提供跟踪全球用户共享情绪的路径。本研究呈现了多种测量从这些热门在线平台上提取的文本相关性的方法，通过利用捕捉语义关系的词嵌入来分析网络上的情感，我们可以揭示公众舆论作为一个整体的联系。该研究利用了来自 YouTube、Reddit、Twitter 等的现有数据集，并利用了像双向编码器表征来自变形器（BERT）等热门自然语言处理模型来分析情感和探索评论嵌入之间的关系。此外，我们还将利用聚类和 Kl 散度来发现不同社交媒体平台上这些评论嵌入之间的语义关系。我们的分析将使人们更加深入地了解在线评论之间的相互关联，并探讨互联网作为一个庞大的相互连接的大脑的概念。

Sep, 2023

顶评或踩评？预测和解释在线新闻讨论中的用户参与

本研究采用神经网络模型对用户评论进行了分析，跟踪评论获得的赞和回复，并基于这些信息区分出具有高或低赞回复概率的评论。研究表明，有助于激发用户互动的评论特征可以按照一定的分类学进行整理，神经网络在分析这种回归问题时表现出最好的性能。

Mar, 2020

使用机器学习和自然语言处理方法进行情感分析中 Reddit 评论的性能评估

使用 GoEmotions 数据集评估情感分析模型的效能并扩展研究范围，发现 RoBERTa 模型在细粒度情感分类任务上表现出色，推动了情感分析能力的发展。

May, 2024

新闻室的混合式调节：为内容调节员推荐精选文章

本文提出一种基于分类概率排名的推荐系统，能够结合用户和文本内容的特征，帮助和支持在线新闻机构评论区的内容管理者在选择精选评论时进行决策。通过使用文本特征和用户内容特征，该系统在测试集上获得了 F1-score 为 0.44 的最佳分类，同时在一组大型验证文章上获得了 NDCG@5 均值的最优值为 0.87，最后，根据内容管理者的专业评估，该系统在精选评论上得分为 0.83，并得出结论：添加文本特征可获得最佳得分，尽管精选评论仍然有些主观性，但该系统的推荐评论仍然很适合大多数内容管理者。

Jul, 2023

在 Reddit 中发现和分类语言偏见

本文介绍了一种利用词嵌入发现并分类 Reddit 上语言偏见的数据驱动方法，并通过连接数据中的评价性词语和受保护属性，并经过语义分析系统分类来自动发现 Reddit 社区中编码的语言偏见。

Aug, 2020

基于社交媒体的用户嵌入：文献综述

该研究回顾了最近在社交媒体用户的表征学习领域的进展，并提供了从异构用户数据（例如，将社交媒体文本与图像相结合来学习统一用户表征）中学习统一用户嵌入的典型方法，该技术对于创建高性能的基于社交媒体的人类特征和行为模型至关重要。

Jun, 2019

个性化语言提示的用户嵌入模型

通过将用户历史数据嵌入模型中，并用其作为软提示，我们展示了一种在处理较长历史文本时具有优势的方法，可用于提高推荐系统的效果。

Jan, 2024