为何应删除此文章?多语言维基百科编辑讨论中的透明立场检测
该研究介绍了一个多语言 Reddit 评论数据集,并通过对该数据集的实验分析,阐述了内容管理的挑战和相关研究问题,为自动内容管理的挑战和机遇做准备。
Feb, 2023
本文旨在研究大型语言模型在对于语言数据集难以获得的语言,如形态复杂、资源较少的语言中进行自动立场检测的适用性,同时探索了 ChatGPT 作为一种全零样本分类器的可行性,结果表明 ChatGPT 的性能可与有监督学习相当。最佳模型的应用还可用于研究爱沙尼亚主流新闻来源和右翼民粹主义新闻来源在七年间的历时趋势,并探讨立场变更与现实事件的对应关系,这为新闻分析和媒体监测提供了一个更为简单和省钱的文本分类任务的替代方案。
May, 2023
使用真实新闻机构的评级,我们创建了一份多语言新闻语料库,其中包括粗略的立场注释(左翼和右翼)以及自动提取的主题注释。我们展示了使用这些数据训练的分类器能够识别英语、德语、西班牙语和加泰罗尼亚语中大部分未见过的报纸的编辑立场。我们随后将这些分类器应用于 ChatGPT 和 Bard 在四种语言中撰写的 101 篇类似报纸文章,并观察到,类似传统报纸,ChatGPT 的编辑立场会随着时间而演变,并且作为一个数据驱动的系统,生成的文章在不同语言中的立场也有所不同。
Oct, 2023
大规模内容审核面临着在评估内容时考虑本地文化差异的挑战。该研究探讨了如何通过适应本地理解细微差别来解决这个问题,培训大型语言模型以捕捉跨地理区域的交流细节,并在关于何为冒犯内容的文化和社会变化时提供解释。研究发现,基于广泛的媒体数据集进行培训成功地培养了文化意识,并在区域基础上改善了处理内容违规行为的能力,表明灵活的内容审核方法在跟上内容不断演变的本质方面发挥了关键作用。
Dec, 2023
缺乏多元观点导致维基百科内容中的中立偏见,从而使数百万全球读者接触到潜在的不准确信息。因此,中立偏见的检测和缓解是一个关键问题。我们为此提供了两个大型数据集 mWikiBias 和 mWNC,分别涵盖 8 种语言,用于中立偏见的检测和缓解任务。接下来,我们通过将检测建模为二元分类问题和将缓解建模为样式转换问题,研究了流行的多语言基于 Transformer 的模型在这两个任务中的有效性。我们将代码和数据公开提供。
Dec, 2023
本文研究在线仇恨在新闻评论中的传播情况,提出了使用机器学习和自然语言处理实现半自动恶意语言检测的方法,并通过德国报纸评论数据集的测试发现,传统机器学习技术对于动态语言环境下的检测效果不佳,需要考虑时序动态性以避免使用不具实用价值的模型。
Jul, 2022
本研究分析了在六种最活跃的语言版本的 Wikipedia 上,850 万名编辑者的所有 5700 万条留言,研究有毒言论对编辑者行为的潜在影响。我们发现,有毒留言一致降低编辑者的活动水平,短期内对每个用户的活动损失为 0.5-2 天,长期来看则会显著增加编辑辞职的风险,并对整个项目的进展造成阻碍。基于代理模型,我们证明了对 Wikipedia 的毒性攻击可能会扼杀整个项目的进展。这强调了在如 Wikipedia 之类的协作平台上缓解有毒言论的重要性。
Apr, 2023
本文介绍了一种新型系统的设计,旨在支持维基百科社区解决平台上的破坏行为。通过收集 47 种语言的大规模数据集和应用高级过滤和特征工程技术,包括多语言掩蔽语言模型,从人类生成的数据中构建训练数据集。通过与维基百科生产中使用的 ORES 进行比较评估系统的性能。我们的研究结果大大增加了覆盖的语言数量,使维基百科的巡逻对更广泛的社区更加高效。此外,我们的模型胜过 ORES,确保所提供的结果不仅更准确,而且对某些贡献者群体的偏见较小。
Jun, 2023