层次指导分类法：大型语言模型的通用评估框架

Jun, 2024

层次指导分类法：大型语言模型的通用评估框架

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha

TL;DR通过引入层次化提示分类法及其规则以及自适应层次化提示框架，研究衡量大型语言模型在解决多样任务中的效果，进而发展一种用于评估数据集复杂性和语言模型能力的通用评价指标。

Abstract

Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying d

large language models hierarchical prompting taxonomy hierarchical prompt framework adaptive hierarchical prompt framework evaluation metric

发现论文，激发创造

基于结构化语言知识的视觉 - 语言模型的层次化提示学习

本研究提出一种称为分层提示调整的新方法，利用大语言模型（LLMs）建立描述每个类别的图形模型，以模拟描述类别的实体和属性及其相关性，并通过引入关系引导注意模块来捕捉实体和属性之间的关联，以及通过结合整体语义建模来处理更复杂和长期的关系。实验结果表明，我们的方法具有很强的效果，并且比现有的最先进方法具有更好的泛化性能。

Dec, 2023

HPT: 针对分层文本分类的层次感知提示调整

本研究提出了一种分层感知提示调节方法（HPT）来处理多标签文本分类（HTC），通过构建动态虚拟模板和标记词，融合标记层次结构知识并引入零界多标签交叉熵损失，以提高预训练语言模型在 HTC 领域的性能，实验结果表明 HPT 在三组常用数据集上均取得了最先进的表现，能够有效地处理平衡不足和低资源情况。

Apr, 2022

逼迫还是微调？大型语言模型在分类构建中的比较研究

通过对大规模语言模型进行提示，可以在受限结构约束下构建符合要求的分类法，相比微调方法模型的性能更好，但处理由提示方法生成的分类法违规的情况具有挑战性。

Sep, 2023

TELeR: 用于复杂任务基准测试的 LLM 提示的通用分类

提出了一种通用分类法，以设计具有特定属性的提示来执行广泛的复杂任务，从而解决了使用不同提示类型 / 样式和提示中提供不同程度细节时 LLMs 性能差异的问题，使未来的基准研究能够报告所使用的特定类别的提示，启用对不同研究的有意义的比较，并通过这种分类法建立共同标准，研究人员将能够更准确地得出关于 LLMs 在特定复杂任务上的表现的结论。

May, 2023

监督式提示训练

通过使用监督性提示训练（Supervisory Prompt Training）方法，我们提出了一种新颖的方法，可以自动地生成高效的提示，从而提高大型语言模型（LLMs）的性能和减少幻觉，为传统的模型微调提供了一种高效且可扩展的替代方案。

Mar, 2024

帮助语言模型学习更多知识：多维任务提示用于少样本调整

通过提出多维任务提示学习方法（MTPrompt），将更多的任务相关信息嵌入提示中，以激发大型语言模型中嵌入的知识，从而实现在少样本和五个不同数据集上取得最佳结果，并在不同实验设置和削减实验中展示了该方法的有效性和稳定性。

Dec, 2023

针对零样本提示优化的层次化多智能体工作流

构建了一种名为 HMAW 的分层多代理流程，不受人类限制和培训，并能适应底层任务的微妙之处，通过创建详细且合适的提示，进一步提高当前 LLMs 的性能。

May, 2024

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

大型语言模型可以学习规则

使用大型语言模型（LLM）进行推理任务时，我们介绍了一种名为 Hypotheses-to-Theories（HtT）的框架，该框架学习了一个用于与 LLM 进行推理的规则库。通过实验，我们证明 HtT 能够显著提高现有的提示方法的准确性，并且所学习的规则也可迁移到不同的模型和相同问题的不同形式中。

Oct, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023