基于事实增强的合成新闻生成
本文介绍了受控产生合成文本的方法,以解决政治科学家在使用受监督文本模型方面面临的挑战。作者用三个应用程序证明了合成文本的实用性,包括生成描述乌克兰战斗的虚拟推文,为训练事件检测系统的合成新闻文章,以及训练句子级民粹主义分类器的多语言语料库。
Mar, 2023
本研究探讨自动事实检查器对人工制造的对抗性证据的敏感性,研究证明这种类型的系统容易受到攻击,并讨论了现代 NLG 系统作为虚假信息生成器的威胁。
Feb, 2022
通过对 fact-checkers 的语言特征进行分析和提出建议,使用基于深度学习的文本生成框架来生成可以提高辨别信息真假的参与度的回复,提高了辨别真假信息的准确度。
Oct, 2019
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
本文探索了一种基于语言处理的自动新闻生成和事实核查系统,旨在提高新闻生产的效率和质量,同时确保新闻内容的真实性和可靠性。通过整合事实核查技术,该系统可以有效防止虚假新闻的传播,提高新闻的准确性和可信度,而自动新闻生成和事实核查所涉及的关键技术包括文本生成、信息提取和知识图谱的应用,并通过实验证实了这些技术的有效性。此外,本文讨论了自动新闻生成和事实核查系统的未来发展方向,强调了技术进一步整合和创新的重要性。研究结果表明,随着技术的不断优化和实际应用,这些系统在未来新闻行业中将发挥越来越重要的作用,提供更高效和可靠的新闻服务。
May, 2024
研究发现,随着大型语言模型(LLM)的普及,越来越多的新闻网站开始利用它们生成文章,导致合法网站的 factual 准确性不断下降,不法新闻网站可以利用这些 LLM 大量制造虚假信息。通过对 3074 家不良媒体和主流新闻网站的 12.91 百万篇文章进行分类与研究,发现在 2022 年 1 月 1 日至 2023 年 4 月 1 日期间,主流网站的合成新闻文章相对数量增加了 79.4%。而不良网站的增幅则高达 342%,同时还有所关注的是,ChatGPT 发布后,小型网站和不良媒体的合成文章数量急剧增加,但在大型主流新闻网站上并没有相应的增长。最后,社交媒体 Reddit 中的数据显示,社交媒体用户在 2023 年 3 月比 2022 年 1 月与合成文章的互动更多。
May, 2023
通过使用出版商元数据以隐含发布者的模板、文本类型、政治立场和可信度,我们提出了一种新颖的验证框架 Style-News,用于防止有害的虚假信息从恶意社交媒体传播,同时通过识别风格与出版商对应以及区分给定新闻的来源是人类撰写还是机器生成,我们训练了一个适应特定出版商生成新闻内容的风格感知神经网络生成器和风格和来源鉴别器。通过整合各种维度指标(语言流畅性、内容保留性和风格遵循性)评估生成内容的质量,我们证明了 Style-News 在流畅性上超过了以前的方法 0.35,内容上高出 15.24,风格上高出 0.38 的幅度。此外,我们的鉴别模型在发布者预测(高达 4.64%)和神经假新闻检测(+6.94%~31.72%)方面优于最先进的基准模型。
Jan, 2024
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023
通过扩充大语言模型 (ChatGPT) 的事实核查,重新审视了由人类记者验证的现有虚假新闻数据集,并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力,为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。
Dec, 2023