Jun, 2023

使用多模态 Transformer 进行基于帧的直播流点击率预测

TL;DR本文提出了一种基于多模态 Transformer 的 ContentCTR 模型,采用帧级别的 CTR 预测来充分利用视觉帧、音频和评论等多模态信息,借助具有一阶差分约束的新型成对损失函数来利用亮点和非亮点间的对比信息,以及基于动态时间规整的时间文本 - 视频对齐模块以捕捉实时内容变化,实验表明该方法在真实场景和公共数据集上进行推荐时均优于传统方法,应用于公司平台后的在线 A/B 测试也进一步验证了其实际意义。