Jun, 2024

AnomaLLMy -- 通过低置信度的单词预测在黑盒 LLM 中检测异常的单词

TL;DRAnomaLLMy 是一种新颖的技术,用于通过 API 访问自动检测黑盒大型语言模型中的异常标记。通过利用低置信度的单词预测作为一种成本效益的指标,AnomaLLMy 识别模型行为中的异常,解决异常标记降低模型质量和可靠性的问题,通过在 cl100k_base 数据集上验证,AnomaLLMy 检测到了 413 个主要异常和 65 个次要异常,仅花费了 24.39 美元的 API 积分。本研究的发现有望增强大型语言模型的鲁棒性和准确性,特别是在分词器开发和评估方面。