May, 2024

CRAFT: 从野外提取和调整文化指引

TL;DR本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令,并与通用指令调优数据集相结合,我们的模型展示出了较强的识别和理解区域文化细微差别的能力,从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验,取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径,并为未来在该领域的创新设立了先例。