时态感知的数据集是应对新常态的适应性知识库
本文提出了构建一种基于时间敏感的问答数据集,用于评估长文档 QA 系统的时间推理能力,针对现有的 QA 数据集缺乏时序问题的问题,展示出当前现有的 SoTA QA 系统(如 BigBird 和 FiD)对于时间推理的能力仍不完备,在此基础上提出将该数据集作为开发更加敏感于时间推理的 NLP 模型的基准测试。
Aug, 2021
介绍了一个用于探讨语言模型在知识更新方面的诊断数据集,提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”,而无需从头开始重新训练。
Jun, 2021
通过分析虚假信息的语言属性及相关数据集,本论文展示了在检测虚假内容方面,采用相关符号知识和神经语言模型的适当使用可以取得最先进的性能,在准确性、时间效率和资源利用方面提供了有效且稳健的替代方法。
Jan, 2024
在金融服务行业中,检测异常已成为一项越来越关键的功能。该研究提出了一种基于时间知识蒸馏的标签增强方法,利用旧模型的学习来快速提升最新模型的能力,从而有效减少模型重新训练的时间并改善其性能。
Dec, 2023
本文提出了事实持续时间预测来缓解时间错位带来的影响,在实验中演示了确定容易变化的事实,可以帮助模型避免重复过时信息,同时在知识密集型任务下建模事实持续时间有助于提高校准性。
May, 2023
本研究旨在帮助检测社交媒体上具有传播不实信息优势的迷因,研究人员构建了名为 DisinfoMeme 的数据集,覆盖了 COVID-19 大流行、黑人的命也是命运动以及素食主义 / 素食主义等三个流行话题,探讨了它们的特点,并在数据集上测试了多种模型,结果表明目前模型的提升空间仍然很大。
May, 2022
本研究提出一种基于新闻来源可信度标签的弱监督学习方法,通过自监督或重新标注等方式纠正可能存在的标签不准确性,构建大规模、多样化的新领域虚假信息数据集。同时,本文应用提出的方法提供了一个 COVID-19 疫苗虚假信息数据集。
Feb, 2022
该研究发表了一篇医疗虚假信息数据集的机器学习处理方法,其中包含了 317k 篇医疗文章和 3.5k 个经过事实核查的声明,并且提供了 573 个人工标注和 51k 个自动标注的声明与文章之间的映射,这些映射包括声明是否出现在给定文章中以及文章对声明的态度。该数据集可以用于医疗虚假信息的特征研究和来自不同来源的虚假信息传播的研究。
Apr, 2022
本文通过对超过 2.42 亿条推文的大规模计算分析,对 COVID-19 流言与准确信息的特征进行比较研究,并创建了 COVID-19 的流言分类数据集,研究发现该数据集可提高流言分类的正确率超过 9%。
Apr, 2023
使用半监督学习框架来解决极度类别不平衡的问题,并使用实际数据扩充少数类别,该方法在处理社交媒体中极不平衡的发布单元时比 SMOTE、ADASYN、GAN 等其他方法效果显著提高,尤其在相关的 Covid 数据上初步测试表明有效性。
Apr, 2023