面向电子商务的领域自适应产品搜索器
本文介绍了一种基于回归领域自适应(RegDA)的方法,该方法首先利用对抗回归器来最大化目标域上的差异,并训练一个特征生成器来最小化这种差异,之后通过引入空间概率分布来指导对抗回归器的学习,从而解决了高维度空间中回归器无法探测偏差样本的问题,并在不同数据集上实验得到了 8%至 11%的精度提升。
Mar, 2021
该研究论文提出了一种新的无监督领域适应方法 Generative Pseudo Labeling,该方法结合查询生成器和交叉编码器的伪标记,证明该方法可以在数据集较小的目标领域中进行更加鲁棒的训练,并且在检索任务上比最先进的密集检索方法提高了近 9.3 个百分点的 nDCG@10 指标。
Dec, 2021
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
Dec, 2022
我们提出了一种无监督领域适应方法,该方法通过使用类正则化的超图匹配,考虑目标域中仅有的未标记数据,在标准对象识别数据集上的实验验证了我们的框架有效性。
May, 2018
通过生成对抗网络生成的合成数据和应用 DA 方法到 DG 场景的协议,作者提出了两种方法来解决领域泛化挑战,并在四个跨领域基准数据集上进行了大量实验。实验结果表明,所提出的模型在 DG 方面优于当前最先进的方法。
Dec, 2018
我们提出了 Catalog Phrase Grounding (CPG) 模型,能够将产品的文本数据(标题、品牌)关联到相应的产品图像区域(孤立的产品区域、品牌标志区域),用于电子商务视觉语言应用。我们使用最先进的调制多模态 Transformer 编码器 - 解码器架构,统一了物体检测和短语关联。通过从电子商务网站合成的 230 万个图像文本对进行自监督训练。自监督数据使用由一些教师模型(例如,预训练的通用领域短语关联模型和专门的标志检测模型)生成的高置信度伪标签进行注释。这使得 CPG 作为学生模型可以从这些基础模型的转移知识中受益,结合了通用领域知识和专业知识。除了立即的目录短语关联任务之外,我们将 CPG 表示引入到需要深度语义理解产品的下游目录应用中作为机器学习特征,从中受益。我们在一个具有挑战性的电子商务应用(产品 - 品牌匹配)上的实验表明,将 CPG 表示引入到现有的生产集成系统中,在固定的 95% 精度下,全球性能平均提升 5%的召回率(在一个单一的国家中提升 11%),超越了其他可选方案,包括标志检测教师模型和 ResNet50。
Aug, 2023
本文探讨了电子商务平台中产品检索服务的质量问题。针对嵌入式检索系统中存在的问题,提出了一种新的多粒度深层语义产品检索模型。改进的算法通过平滑噪声数据和生成硬负样本来提高相关性,并在淘宝搜索上进行了线下和在线实验,证明了其有效性,并成功应用于现有的多通道检索系统中。
Jun, 2021
本文提出了一种新的方法,称为反映原型的对比生成和调整方法(CPGA),用于解决源自由的无监督域适应问题,并证明其在三个 UDA 基准数据集上的有效性和优越性。
Jun, 2021
该论文探讨了基于梯度的角度重新思考域自适应算法优化方案的问题,并提出了 Pareto Domain Adaptation 方法来协作优化所有训练目标,提高目标分类精度
Dec, 2021
本文提出了一种基于 Grappa 的无监督学习方法,通过从不同任务领域的未标记图像中学习,扩展了预训练模型,并通过伪标签来模拟不同的伪粒度,并学习融合层,使所有检索任务都适用。结果表明,Grappa 模型改善了自监督学习模型的零样本性能,并在某些地方达到或超过任务标签感知的最合适伪粒度。
Oct, 2022