越南电子商务网站垃圾评论检测的元数据整合

May, 2024

越南电子商务网站垃圾评论检测的元数据整合

Metadata Integration for Spam Reviews Detection on Vietnamese E-commerce Websites

Co Van Dinh, Son T. Luu

TL;DR利用 PhoBERT 模型结合产品描述功能实现了检测越南电子商务网站上垃圾评论的最先进性能，可以通过同时整合文本和分类属性来提高垃圾评论分类的准确性。

Abstract

The problem of detecting spam reviews (opinions) has received significant attention in recent years, especially with the rapid development of e-commerce. spam reviews are often classified based on comment content

spam reviews vispamreviews v2 dataset textual and categorical attributes deep neural network models phobert model

发现论文，激发创造

检测越南电子商务网站上的垃圾评论

本文提出了一个叫做 ViSpamReviews 的数据集，用于检测电子商务平台上的垃圾评论，包含两个任务，一个是二分类任务，用于判断评论是否为垃圾评论，另一个是多分类任务，用于识别垃圾评论的类型。 PhoBERT 在两个任务中都表现最好，分别获得了 86.89％和 72.17％的宏平均 F1 分数。

Jul, 2022

基于多种神经网络模型的越南社交媒体数据集的简单高效集成分类器

使用深度学习模型和集成模型对社交媒体上的越南文本进行分类，实现了比之前研究更好的性能。

Sep, 2020

使用监督机器学习和 BERT 模型进行在线虚假评论检测

本研究提出使用 BERT 模型从文本（即评论）中提取词嵌入来改进现有的虚假评论分类或检测方法，结果表明 SVM 分类器在准确度和 F1 得分方面优于其他分类器，并且比之前的研究中使用的分类器高出 7.6％。

Jan, 2023

使用机器学习和基于网络的算法进行意见垃圾检测的新方法

本研究提出一种新方法将机器学习与消息传递算法相结合，采用主动学习方式进行标签采样，用于判别评论者是垃圾评论者还是正常评论者，并在三大真实数据集中进行实验，证明其在机器学习方法和标签数据较少情况下性能优越。

May, 2022

从用户和产品级别信息中学习评论表示以进行垃圾邮件检测

提出一种用于自动学习用户和产品层次的评论语义的 HFAN 方法，包括设计多重注意单元以提取用户（产品）相关评论信息、使用正交分解和融合注意力从评论信息中学习用户、评论和产品表示以及将评论作为用户和产品实体之间的关系并将其编码为评论表示。实验结果表明此方法在四个真实数据集上表现优于现有方法。

Sep, 2019

越南语中基于方面的情感分析的跨度检测

本研究提出了一种基于 BiLSTM-CRF 的新颖系统，利用收集的词汇和语境特征，针对基于方面的情感分析中的波及用户观点的判定问题，利用越南语语言数据集进行评估，最终实现了 62.76% 的 F1 分数的最优解。

Oct, 2021

针对越南评论的情感分析 BERT 微调

本文介绍了使用 BERT fine-tuning 方法处理越南评论数据集中情感分析任务的实验结果，并且发现相比于使用 GloVe 和 FastText，使用 BERT 模型略胜一筹。同时，本文研究提出的 BERT fine-tuning 方法也比原模型表现更好。

Nov, 2020

使用深度学习进行垃圾评论检测

本文介绍了利用深度学习方法来检测虚假的评论，并提出了使用多层感知器（MLP）、卷积神经网络（CNN）和长短时记忆（LSTM）的变体等方法，同时也应用了传统的机器学习分类器，如朴素贝叶斯（NB）、K 近邻（KNN）和支持向量机（SVM），并对两种不同分类器的性能进行了比较。

Nov, 2022

基于网络的在线社交媒体评论垃圾检测框架 NetSpam

利用映射垃圾邮件检测程序为网络中的分类问题的异构信息网络，提高了垃圾邮件特征的重要性，证明该方法在 Yelp 和 Amazon 等真实评论数据集上优于现有方法，其中除其他类别外，评论行为类别的特征表现得更好。

Mar, 2017

利用凝聚层次聚类和基于主题的方法对垃圾邮件进行分类

基于主题的方法用于将垃圾邮件分类为多个类别，作者提出了两个新数据集，对其进行了标记，并评估了不同特征表示技术和分类器的性能。实验结果表明，英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归，而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。

Feb, 2024