使用大型语言模型评估编程策略的可解释性

AAAINov, 2023

使用大型语言模型评估编程策略的可解释性

Assessing the Interpretability of Programmatic Policies with Large Language Models

Zahra Bashir, Michael Bowling, Levi H. S. Lelis

TL;DR使用大语言模型来评估编程策略的可解释性，并验证其在解决编程问题和实时策略游戏中的应用，结果表明该度量标准在评估编程策略的可解释性方面是可靠且廉价的工具。

Abstract

Although the synthesis of programs encoding policies often carries the promise of interpretability, systematic evaluations to assess the interpre

programs encoding policies interpretability large-language models natural language explanation programmatic policies

发现论文，激发创造

大型语言模型是可解释学习者

大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。

Jun, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

码作策略：语言模型程序用于实体控制

该研究论文介绍了如何将大型语言模型用于编写机器人策略代码，并达成具有几何空间推理能力、可自主创新、精确且具备行为常识的策略，同时提供了对多个真实机器人平台进行演示和基准测试的代码和视频。

Sep, 2022

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

程序辅助语言模型

本论文介绍了一种新颖的方法，使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤，但将求解步骤委托给运行时，如 Python 解释器，在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。

Nov, 2022

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

评估大型语言模型的程序执行运行时行为

本文提出了一个名为 REval 的框架，用于评估代码 LLM 的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码 LLM 的代码推理能力的迫切需求。

Mar, 2024

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

基于 LLM 的应用程序基于意图的管理政策生成

通过使用大型语言模型，我们探索自动化意图分解和执行的能力，提出了一种通过生成所需操作来进行逐步分解意图的方法，并通过创建封闭控制循环来自动化策略执行，从而实现了应用程序管理的意图自动化。

Jan, 2024

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023