- ACL使用超生成与评级提升数学多项选择题自动生成的效果
通过过度生成和排名方法,我们提出了一种新的方法来提高生成干扰项的质量,训练一个排名模型来预测干扰项被真实学生选择的可能性。在真实数据集上的实验结果和与数学教师的人工评估显示,我们的排名模型与人工编写的干扰项的一致性增加,尽管人工编写的干扰项 - WILBUR:面向强健与准确网络代理的自适应上下文学习
Wilbur 使用可微分的排名模型和新颖的指令合成技术来优化黑盒大型语言模型的提示,通过从先前运行中的任务演示集合中获取任务演示,以实现最大化端到端成功率,并提供智能回溯机制以从错误中学习和恢复。Wilbur 在 WebVoyager 基准 - CVPR语言 - 视觉模型下的零样本物体计数
零样本目标计数 (ZSC) 是一种新的设置,只需类名作为测试时间的输入。我们提出了找到几个目标裁剪样本并将其用作计数示例的方法,该方法消除了对人工注释者的需求并实现了自动化操作。通过使用大型语言 - 视觉模型构建类原型,我们选择包含目标对象 - 一石二鸟:音频字幕系统是否也可用于音频文本检索?
通过探索未经微调的 AAC 系统,该研究调查了 AAC 和 ATR 之间的关系,发现使用标准的 Cross-Entropy 损失值可以实现良好的 ATR 性能。
- 基于对比学习的注意力加权专家混合模型在电子商务个性化排序中的应用
该研究提出了一种基于 MoE 框架和对比学习的个性化排序方法 AW-MoE,能够有效地处理长尾用户和不同用户的个性化特征交互,并在真实的京东数据以及公共数据集上验证了其有效性和优越性。
- 为在线广告设计的一种面向一致性的预排名算法
提出了一种面向在线广告的一致性预排名框架,包括使用基于块的采样模块和即插即用的等级对齐模块,显式地优化 ECPM 排名结果的一致性。
- KDD标量不足以描述:基于向量化的无偏学习排序
本文提出一种基于向量的解法,用于构建与点击、偏差和排序特征等相关联的、不受限制的点击概率模型,并基于此方法提出了一种名为统计向量化的自适应学习排序模型,实验证明其表现优于现有的无偏学习方法。
- 少即是少:何时片段不足以进行人类与机器相关性评估?
本研究考察基于文本摘要以及完整文本的人工评估和神经模型的相关度评估的差异,发现较长的查询和文档类型对于人类和 BERT 模型而言完整文本是有益的,不过人类和机器对完整文本的反应存在不同。
- SIGIRL2R2: 利用排名进行缺失推理
本文提出了一种基于排序的 $L2R^2$ 方法,用于解决自然语言推理任务中的假设排序问题,并使用 ESIM 或预训练语言模型(如 BERT 或 RoBERTa)作为评分函数,实验证明,该方法取得了 ART 数据集中最先进的性能水平。
- KDD基于非负矩阵分解的排名模型及其在网球比赛中的应用
我们提出了一种新的排名模型,结合 Bradley-Terry-Luce 概率模型和非负矩阵分解框架,旨在建模和揭示影响顶级网球选手表现的潜在变量。我们的模型自动推断出球场表面是男选手表現的关键决定因素,但对女性的影响则较小,并以客观的方式识 - 文档排名的词实体对表示
本文提出了一种单词实体对框架,用于利用知识库在自适应检索中,通过单词和实体的交互生成排序特征来排名文档,使用基于注意力的模型 AttR-Duet 来处理来自实体表示的不确定性,并证明了它们比基于单词或实体的系统更有效。
- TweetCred: Twitter 上内容的实时可信度评估
本研究开发并评估了一个使用机器学习的排名模型来评估 Twitter 上的信息可信度的实时系统 TweetCred,并评估了其响应时间、有效性和可用性。
- 情感分类的统计分析框架
本文提出了一个基于统计语法分析的句子级情感分类框架,在此我们发展了一个统计分析器来直接分析句子的情感结构,并在上下文自由语法的基础上形成情感规则。我们训练情感分析器 s.parser,从用户评级的大量评论句子中直接获得情感极性标签,利用情感