XPrompt:通过联合提示归因解释大型语言模型的生成
基于因果分析的方法用于系统地分析大语言模型(LLMs)输入提示与生成代码之间的因果关系,研究结果展示了该技术在提供 LLMs 有效性方面的潜力,并帮助最终用户理解预测,同时提供改进 LLMs 生成代码质量的可操作见解。
Oct, 2023
本文探讨利用大型语言模型的学习能力来发现和解释数据中的模式,并提出了一种名为 iPrompt 的算法来生成自然语言字符串,从而实现可解释的自动提示,用于帮助数据分析、科学发现和信息处理等领域。
Oct, 2022
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了 LLMs 在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。
Nov, 2023
为了提高用户满意度和建立信任,推荐系统内提供解释尤为重要,特别是对为用户定制的推荐物品进行解释。在这个研究领域中,主要方法是生成基于文本的解释,主要侧重于应用大型语言模型(LLMs)。然而,由于时间限制和计算资源限制,对于可解释性推荐来说,细化 LLMs 的工作并不可行。作为替代方案,当前的方法是训练提示而不是 LLMs。在这项研究中,我们开发了一个模型,利用用户和项目输入的 ID 向量作为 GPT-2 的提示。我们在多任务学习框架内使用联合训练机制来优化推荐任务和解释任务。这种策略能更有效地探索用户的兴趣,提高推荐的效果和用户满意度。通过实验,在 Yelp、TripAdvisor 和 Amazon 数据集上,我们的方法在解释能力评估指标上分别达到 1.59 DIV、0.57 USR 和 0.41 FCR,相比于四种现有技术,表现出卓越性能。此外,我们发现所提出的模型能够确保在这三个公共数据集上文本质量的稳定。
Jan, 2024
提出了一种名为 X-Prompt 的方法,通过引入虚构单词的可扩展词汇表,指导大型语言模型(LLM)完成超越自然语言的任务,使得提示更具描述性,并实现了上下文引导学习及提示增强,从而使其虚构单词可以用于不同的提示上下文,以达到精细的规范。该方法在人类与 LLMs 间构建了通信桥梁,有望实现更高级的交互。
Dec, 2022
本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果,发现对于涉及文本推理的自然语言推理和问答任务,使用不同样式的说明对 OPT、GPT-3(davinci)和 InstructGPT(text-davinci-001)等四个 LLM 的性能仅会带来小至中等的准确性提高,而 text-davinci-002 能够带来更实质性的提高,并且 LLM 产生的说明可能不支持、甚至与模型预测不一致,但这些说明仍有助于验证模型的预测,在此观察基础上,文章通过训练校准器使用自动提取的评分评估说明的可靠性,从而在全部数据集上实现后处理性能的提高。
May, 2022
通过研究大型语言模型的评估生成文本的提示设计,本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响,进而提出了优化评分一致性的方法。
Jun, 2024
该研究介绍了一种新的推理方法,Prompt Highlighter,通过在生成过程中用户可以突出特定的提示段来实现交互式控制,利用突出显示的令牌通过注意力权重指导模型来产生期望的输出。实验结果证实了该方法在关注输入背景和生成可靠内容方面的有效性。
Dec, 2023