MMMay, 2024

利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能

TL;DR利用大型语言模型(LLMs)生成的合成观察数据,用于改善机器学习模型对于自闭症谱系障碍(ASD)诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据,并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异,发现数据增加了召回率 13%,但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。