While large language models (LLMs) bring not only performance but also
complexity, recent work has started to turn LLMs into data generators rather
than task inferencers, where another affordable task model is tr
我们提出了一种神经符号(NeSy)工作流,将基于符号的学习技术与大型语言模型(LLM)代理相结合,以生成 C 编程语言中用于代码注释分类的合成数据。我们还展示了如何使用此工作流生成可控的合成数据来修复基于 LLM 的生成的一些明显弱点,并提高经典机器学习模型在代码注释分类任务上的性能。我们的最佳模型,即神经网络,在数据增强后实现了 91.412% 的宏 F1 分数,提高了 1.033%。