Oct, 2023

基于 LLM 的数据增强解决层级学科主题推断中的不平衡问题

TL;DR使用大型语言模型(Llama V1)作为数据生成器,通过在复杂的学科层次结构中对研究提案进行采样,并设计基于关键词的研究提案生成方法,旨在解决数据不平衡问题,提高专家分配的公平性。实验结果表明,使用这种方法生成的研究提案能够有效解决前述问题,并生成高质量的科学文本数据,有助于模型克服数据不平衡问题。