Feb, 2024

多国检索器:密集检索表示分析

TL;DR压缩源文件并以(可能会有损失的)矢量表示的密集检索器将所保存的信息与丢失的信息相比,并分析其对下游任务的影响。通过在带有 25 个随机初始化的 MultiBERT 检查点上训练的 MultiContrievers,我们对密集检索器捕获的信息进行了第一次分析。通过信息论探测,我们测量了从类似维基百科的文件的 Contriever 矢量中是否可以提取特定信息,如性别和职业。我们还研究了提取性与性能和性别偏见之间的关系,以及这些结果对随机初始化和数据洗牌的敏感性。我们发现:(1)Contriever 模型的提取性明显增加,但提取性通常与基准性能相关性较差;(2)存在性别偏见,但不是由 Contriever 表示引起的;(3)对随机初始化和数据洗牌的敏感性较高,因此未来的检索研究应该在更广泛的范围内进行测试。