Jun, 2024

迈向透明:通过视觉主题建模和语义框架探索 LLM 训练数据集

TL;DR利用人工智能和认知科学改善文本数据集的提炼,我们展示了利用主题建模和二维地图学技术增加数据集透明度,以及将相同主题建模技术应用于偏好数据集来加速微调过程并提高模型在不同基准测试中的能力。通过框架分析揭示训练文本中现有偏见的情况,从而呼吁更好的工具用于探索和提高 LLMs 训练数据集的质量和透明度。