语言数据集漂移的表征与测量
该研究在 Wikidata 数据集上,评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响,以确保其能够适应不断更新的现实世界的事实更新,并提供了一个综合框架来构建不同时间粒度的事实数据集,并通过多个评估角度来评估模型是否过时。
Feb, 2023
本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响,并通过两组实验表明数据的分布对评估具有统计学上的重要性,并且可预测模型的泛化能力。
Mar, 2024
利用大型语言模型(LLMs)生成的嵌入向量,我们提出了一种基于聚类的算法来测量文本数据的分布漂移,并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标,并从 18 个月的实际部署中总结了经验教训。
Dec, 2023
探讨使用不同文档嵌入、降维技术和漂移检测方法来识别文本数据中的协变漂移的有效性,结果表明某些组合的嵌入、降维技术和漂移检测方法在检测协变漂移方面表现优异。
Sep, 2023
本文介绍了一种比较多语言计算表示相互关系的方法,可以重建语言学家所假定的类似的分类树,同时提出了一种检测语言家族之间语义漂移的度量,并使用基于单词和句子的多语言模型进行了实验,结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。
Apr, 2019
本文提供了四种文本漂移生成方法,以便生成带有标记漂移的数据集,并使用增量分类器测试它们恢复漂移的能力。结果表明,所有方法在漂移后性能都有所下降,增量支持向量机在准确性和宏 F1 得分方面运行速度最快,恢复了之前的性能水平。
Mar, 2024
本文就自然领域转变设置中,fine-tuned model 和 few-shot learning model 的 domain robustness challenge 进行了研究,并提出 Source Drop (SD) 和 Target Drop (TD) 两种观点进行考虑。我们发现 DR challenge 在 fine-tuned model 和 few-shot learning model 中都存在,但在后者中不太显著。此外,本研究还发现增加 fine-tuned model 的大小可以提高模型的性能,特别是在分类方面。
May, 2023
本文介绍了两种不同的分布式度量方法如何用于检测两种不同类型的语义变化,第一种方法分析词汇分布语义的全局转变,对语言漂移等规则过程的变化敏感,第二种方法则更敏感于文化转变,两种方法的比较可以帮助研究人员确定变化的性质是更具文化性还是更具语言学性。
Jun, 2016
提出了一种评估数据集语言多样性的方法,通过比较语言特征集合的 Jaccard 指数来分析,发现大部分流行的多语种数据集中缺乏多种语言类型,特别是 (poly) synthetic languages。
Mar, 2024