优化评审生成通过提示生成
通过案例研究,使用 GPT-3.5、LLaMA2 和 PaLM2 等三种大型语言模型根据 TELeR 分类法的不同类型 / 级别的引导,自动生成学术同行评审中的元评审,然后对元评审进行详细的定性研究,总结了在这一复杂任务中为大型语言模型提供引导的发现和建议。
Feb, 2024
LLMs 的潜力并未被常用的提示方法充分利用,我们提出了 Evoke,一种自动提示改进框架,通过作者 - 评论者反馈循环来确保每次迭代中的提示被优化,在数据选择方面进行了进一步的汇总,实验证明 Evoke 显著优于现有方法。
Oct, 2023
通过研究大型语言模型的评估生成文本的提示设计,本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响,进而提出了优化评分一致性的方法。
Jun, 2024
我们开发了一个名为 SCRABLE 的新系统,利用检索增强生成(RAG)和先进的大语言模型(LLM)从用户贡献的文档中生成自动回复,通过自优化提示和基于 LLM 的评判机制增强自身的自适应客户评价回复自动化,通过模仿人类评估者的自动评分机制评估生成回复的质量,在真实数据集上进行的广泛实验和分析表明,相比基准线,我们的方法在生成高质量回复方面有效,改进率超过 8.5%。通过对生成回复的手动检查进一步验证了我们提出的系统的效果。
May, 2024
通过探索多种提词策略,本研究旨在研究基于大型语言模型(LLMs)的零样本和少样本生成文章反馈的能力,发现同时处理自动化文章评分(AES)和反馈生成可以改善 AES 性能,但评分对生成的反馈质量的影响最终仍较低。
Apr, 2024
该论文提出了一种新颖的提示技术,以提高科学文章的自动摘要系统的性能。通过提供额外的上下文信息来引导摘要系统,并使用从文章中提取的关键词列表进行输入。实验证明了提示方法的效果,特别是对于单独摘要各个部分的较小模型而言,突出了提示是克服较弱系统局限性的一种有前途的方法。我们的发现引入了使用提示来辅助较小模型的新研究方向。
Dec, 2023
这篇综述研究了大型语言模型在编码生成任务中的有效提示方法,探讨了从个别编码问题到仓库规模解决方案的转变,旨在推进开发者生产力,为商业应用场景提供有用且适用的黑盒语言模型方法,并介绍了基于仓库级提示生成技术与 RepoCoder 的迭代检索与生成方法之间的权衡,以确立最佳实践,为尖端编码基准提供改进路径。
Dec, 2023