使用大型语言模型生成符号语言数据

May, 2023

使用大型语言模型生成符号语言数据

Generating Data for Symbolic Language with Large Language Models

Jiacheng Ye, Chengzu Li, Lingpeng Kong, Tao Yu

TL;DR本篇论文提出 SymGen，一种使用 LLMs 生成注释昂贵的符号语言数据的方法。与 LLMs 相比，SymGen 可以生成与人类注释数据效果相当或更好的数据，同时节省了大量的注释工作量。

Abstract

While large language models (LLMs) bring not only performance but also complexity, recent work has started to turn LLMs into data generators rather than task inferencers, where another affordable task model is tr

large language models data generation symbolic language tasks performance inference

发现论文，激发创造

朝可证实的文本生成方向前进：带有符号引用

该论文提出了符号基于生成（SymGen）的方法，通过与条件数据中的显式符号引用交替输出文本，实现对大语言模型（LLMs）输出文本的验证和溯源，从而减少人工验证的工作量，同时保持流畅和准确。

Nov, 2023

GenSim：通过大型语言模型生成机器人仿真任务

通过使用语言模型生成丰富的仿真环境和专家演示，在模拟数据上进行多任务策略训练，极大地增强了任务级泛化能力，并实现了对未见过的现实任务的强大转移能力。

Oct, 2023

Symbol-LLM: 面向大型语言模型的基础符号中心化界面

Symbol-LLM 系列模型通过收集各种符号任务并注入符号知识，解决了大型语言模型面临的符号间关系和符号中心与自然语言中心能力平衡的挑战，实验结果表明 Symbol-LLM 系列模型在符号和自然语言任务上具有平衡和优越的性能。

Nov, 2023

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

大型语言模型是神经符号推理器

该论文研究了大型语言模型作为符号推理器的潜在应用，提出了一个针对符号挑战和实现游戏目标的 LLM 代理，并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力，对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。

Jan, 2024

TarGEN：大型语言模型的有针对性数据生成

通过使用 TarGEN 多步提示策略来生成高质量的合成数据集，结合自校正方法增强语言模型生成过程中的准确性，从而创建复杂和多样的基准测试数据集。

Oct, 2023

Logic-LM: 使用符号求解器增强大型语言模型进行可靠的逻辑推理

Logic-LM 是一种将大型语言模型与符号推理相结合的框架，通过首先使用大型语言模型将自然语言问题转化为符号形式，然后进行确定性符号求解，以及自我精炼阶段来修正符号形式，在 ProofWriter、PrOntoQA、FOLIO 和 LogicalDeduction 等四个逻辑推理数据集上的结果表明，与仅使用大型语言模型相比，我们的方法可以显著提高逻辑推理的性能。

May, 2023

大型语言模型是可解释学习者

大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。

Jun, 2024

NeSy 活力四射：一种以 LLM 为驱动的符号化方法，用于更好的代码注释数据生成和分类

我们提出了一种神经符号（NeSy）工作流，将基于符号的学习技术与大型语言模型（LLM）代理相结合，以生成 C 编程语言中用于代码注释分类的合成数据。我们还展示了如何使用此工作流生成可控的合成数据来修复基于 LLM 的生成的一些明显弱点，并提高经典机器学习模型在代码注释分类任务上的性能。我们的最佳模型，即神经网络，在数据增强后实现了 91.412% 的宏 F1 分数，提高了 1.033%。

Feb, 2024

评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

本研究探讨了在社会科学中使用开放生成的大型语言模型（LLMs）进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题，并主张采用可在独立设备上运行的开放（源）模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型（neural-chat-7b-v3-2，Starling-LM-7B-alpha，openchat_3.5，zephyr-7b-alpha 和 zephyr-7b-beta）的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。

Dec, 2023