超越负面性:关于希望言论检测的重新分析和后续实验
本文介绍了一个用于分类 Twitter 推文的希望言论数据集,并提供了基于不同学习方法的多项基准测试以进行评估和分析。研究中发现,使用严格的注释过程并提供详细的注释指南可以提高数据集的质量。同时,使用上下文嵌入模型进行希望言论检测有更高的性能表现。
Oct, 2022
本研究旨在利用机器学习、深度学习和转换器等自然语言处理技术,分别分析英语、泰米尔语和马拉雅拉姆语中社交媒体帖子或评论包含希望言论的可能性,并发现 XLM-Roberta 技术能够达到最佳的分析效果。
Feb, 2021
该论文通过对使用 youtube 的消息发文的语料 (来自 392460 个用户的英文评论) 的分析,研究了 2019 年 2 月 14 日在克什米尔的普尔瓦马恐怖袭击事件。该文三个主要贡献是:首先,提出了结合语言聚类的文档语言识别技术,具有极少的人工注释要求,表明该方法在各种低资源语言数据集中均具有可行性和效用。第二,对亲和和亲战意图的时间趋势进行了分析。最后,在两个国家军事紧张局势加剧的背景下,提出了自动识别可以缓解不友好氛围的用户生成的网络内容的重要性。
Sep, 2019
本文介绍了使用上下文嵌入和预训练 transformer 模型的方法来检测 HopeEDI 数据集中的 Hope speech。实验表明,使用预训练 transformer 模型的方法在英语、泰米尔语和马拉雅拉姆语上均优于使用逻辑回归、随机森林、SVM 和 LSTM 的方法,F1 得分最高值达到了 0.93。
Feb, 2021
研究表明,语言使用与抑郁症相关,但需要大规模验证。本研究使用 Whispter 工具和 BERTopic 模型从 265 名参与者的 3919 个智能手机采集的语音记录中鉴定出 29 个话题。其中六个话题中 PHQ-8 中值大于等于 10 被视为抑郁风险话题:无期望、睡眠、心理疗法、剪发、学习和课程作业。我们比较了识别到的话题之间的行为(通过可穿戴设备)和语言特征,揭示了话题的产生及其与抑郁症的关联。同时,通过调查话题转变与时间内抑郁症严重程度的变化之间的关系,证明了长期监测语言使用的重要性。此外,我们还在一个类似较小的数据集上测试了 BERTopic 模型(57 名参与者的 356 个语音记录),获得了一些一致的结果。总结起来,我们的发现表明特定的语音话题可能会指示抑郁症的严重程度。所呈现的数据驱动工作流提供了一种在真实环境中收集和分析大规模语音数据的实用方法,可用于数字健康研究。
Aug, 2023
为了更好地检测和过滤仇恨言论,需要开发出可以检测仇恨言论并帮助用户理解何时越过界限的机器学习模型。该研究使用深度神经网络和蒙特卡洛 dropout 正则化方法来进行预测和评估,以可靠地检测仇恨言论并提高分类可靠性和准确性。
Sep, 2019
该研究在对七种针对仇恨言论检测的最先进模型进行分析后,得出了基于数据类型和标注标准重要性大于模型架构的结论,并证明了字符级特征可以有效抵御自动插入错别字等对抗攻击。
Aug, 2018
本研究提出了一种新方法,利用情感话题标记在自然语言推理框架中增强仇恨言论检测,并在实际数据集上证明了其相对于现有表示学习模型的有效性。
Apr, 2022
本文通过提供一个西班牙语口音的基于社交媒体中与 COVID-19 相关的新闻发布的用户回复的语料库,证明了对于检测 hate speech,加入上下文信息可以提高自动检测模型的性能。
Oct, 2022