SynDy: 用于虚假信息任务的合成动态数据集生成框架
我们提出了一种新颖的多跳语法感知假新闻检测(MSynFD)方法,该方法利用互补的语法信息来处理假新闻中的微妙转折。通过引入语法依赖图和设计多跳子图聚合机制来捕捉多跳语法,扩展了词感知的效果,从而实现有效的噪声过滤和相邻关系增强。随后,设计了一个顺序相对位置感知的 Transformer 来捕捉顺序信息,并结合一个精心设计的关键词去偏模块来减少先验偏差。在两个公共基准数据集上的大量实验结果验证了我们提出的 MSynFD 方法的有效性和卓越性能,超过了最先进的检测模型。
Feb, 2024
通过引入 SynEval 评估框架,对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估,以帮助研究人员和从业者在使用合成数据时有效地确定其适用性,并强调用户隐私的重要性。
Apr, 2024
该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性,并在讽刺检测任务中对比研究了三种方法以提高准确性,评估证明 Grounding 方法更为有效,该研究提供了合成数据高保真性的一些建议。
May, 2023
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。
Jun, 2024
综合大型语言模型(LLMs)与现有知识图谱(KG)数据库为一体,旨在增强 LLM 的效力和减轻其 “幻觉”。本研究提出 SyntheT2C 方法,通过基于 LLM 的提示和模板填充的两个不同流程,构建了一个合成的查询 - Cypher 对数据集,以样本值采样自底层 Neo4j 图数据库。实验证明,MedT2C 数据集有效提升了主干 LLM 在 Text2Cypher 任务上的性能。
Jun, 2024
通过使用大型语言模型生成合成数据,研究了其在帮助执行与在线赞助内容披露相关的法律要求方面的潜力。通过评估生成的合成标题的真实性和对未公开广告的识别训练效果,发现真实性和实用性目标之间可能存在冲突,并且即使合成帖子在个体上看起来逼真,它们在整体上缺乏多样性、主题连贯性和真实的用户互动模式。
Mar, 2024
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
通过使用大型语言模型(LLMs)生成语言的最新成果,本文提出了一种创建辨别虚假信息的银标准真实数据集的方法,通过在受信任的新闻文章上构建 LLMs 的提示,自动生成该文章的摘要版本,并针对性地生成具体类型的事实错误,如错误数量、错误归属等,以研究此数据集的实用性,并进行了一系列的实验,训练了一系列用于辨别虚假信息的监督模型。
Jan, 2024
本研究展示了大型语言模型的潜力,即使在无法直接解决 LLM 的任务中,也可以合成有用的数据。其中一项方法是通过引导 LLM 生成符合目标结构的文本,此方法已经成功应用于闭合信息提取,并通过 SynthIE 模型在微观和宏观 F1 值上超过了同样规模的基准模型 57 和 79 个百分点。
Mar, 2023