关键词temporal generalization
搜索结果 - 5
- 评估 LLMs 在时间泛化上的表现
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准 - 生成式视觉问答
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的 - TempoSum:评估抽象化摘要的时间泛化能力
本文研究了文本摘要模型的时态泛化能力和忠实度,并提出了新的基准测试集 TempoSum,对不同时间段的数据进行测试,发现现有的基准测试集可能依赖于事先的知识,不具有泛化能力,并且现有的忠实度提升方法对未来数据的忠实度提升是不可靠的。
- EMNLP利用词汇语义变化提高预训练语言模型的时间泛化能力
本论文提出了一种基于词汇层面 masking 的后训练策略,以此来解决大规模神经语言模型在时间通用性方面存在的问题,实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。
- 训练未来:一种简单的梯度插值损失函数用于时间泛化
提出一种利用 Gradient Interpolation(GI)正则化模型的时间复杂度的简单方法来解决机器学习模型在时间序列数据上的过拟合问题,结果证明该方法表现优于现有的基线方法。