Oct, 2023

基于对比学习的句子编码器隐式加权信息词汇

TL;DR通过对比损失的简单调优,句子编码器的性能可以得到显著提高。本文理论上和实验上展示出,在对比学习过程中模型获得了怎样的特征,即基于信息论的数量对词汇进行隐式加权。本文还使用多种模型、多个数据集、两种度量模型隐式加权的方法(集成渐变法和SHAP)以及两个信息论数量(信息增益和自信息量)进行了全面实验。结果提供了对对比调优强调信息丰富词汇的经验证据。