Jul, 2024

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

TL;DR本文综述了使用大规模网络挖掘语料库预训练大型语言模型(LLMs)所面临的挑战,包括噪声、内容重复、低质量或错误信息、偏见以及在网络挖掘语料库中包含敏感或个人信息等。解决这些问题对于开发准确、可靠和符合伦理责任的语言模型至关重要。通过对当前的数据清理、预处理、偏见检测和缓解方法进行检视,我们强调现有方法的不足之处,并提出未来研究的方向。我们的讨论旨在推动发展更复杂和符合伦理责任的 LLMs 的进步。