大型语言模型能准确预测搜索者偏好

Sep, 2023

大型语言模型能准确预测搜索者偏好

Large language models can accurately predict searcher preferences

Paul Thomas, Seth Spielman, Nick Craswell, Bhaskar Mitra

TL;DR通过获取真实用户的仔细反馈来改进相关性标签的质量，并提出一种基于大型语言模型的标签生成方法，从而获得具有和人工标记员相似的准确性和能力的高质量标签，为搜索系统的评估和优化提供了有效途径。

Abstract

relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for th

relevance labels search systems large language models label quality searcher needs

发现论文，激发创造

产品搜索的相关判断大型语言模型

基于 Large Language Models (LLMs) 的技术，通过自动化查询 - 商品对的相关性判断，改善产品搜索的相关性预测精度，对商品搜索的相关判断自动化领域具有重要影响。

Jun, 2024

利用自然语言解释缩放人类判断

本文提出了一种利用自然语言解释对大型语言模型进行训练的方法，通过收集一致性注释来标记数据，以及利用该方法对大型语言模型进行训练，从而提高标注数据的质量。

May, 2023

我们能利用大型语言模型填补相关性评判空缺吗？

利用大型语言模型填补测试集中的空缺，以扩展现有的测试集合，并找出人工注释与自动注释的一致性差异，从而更好地满足人类需求的工作。

May, 2024

基于预测的大型语言模型排序

使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Feb, 2024

通过人类反馈提高分类性能：标注一部分，剩下的我们来标注

借助大语言模型，本文着眼于通过少量标注样本来显著提高模型准确性，从而通过持续的人类反馈循环改进人工智能模型的准确度、回归率和精确度。通过在金融短语库、银行、Craigslist、Trec 和亚马逊评论数据集上的基准测试，证明了即使只有少量标注样本，我们也能超过零样本大语言模型的准确性，提供更好的文本分类性能，而无需手动标记数百万行数据。

Jan, 2024

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023

使用模型编写的评价方法发现语言模型行为

本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在 RL from human feedback 上也得到了验证。

Dec, 2022

利用大型语言模型为人类导师提供解释性反馈

研究表明，学习者参与制作解释以支持他们的推理过程，对学习有积极影响。本文介绍了两种方法，可供教师在在线课程中提供实时反馈，并介绍了采用大型语言模型促进的命名实体识别的增强方法的进展。

Jun, 2023

使用人类反馈训练语言模型遵循指令

本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法，并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型，并最终得出该方法为改进语言模型对齐的一个有前途的方向。

Mar, 2022

无需真实标准的大型语言模型排名

大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Feb, 2024