Jun, 2024

BELLS: 未来证据高效安全评估的框架

TL;DR该研究介绍了用于检测大型语言模型系统中的异常迹象的输入输出保护装置,提出了评估这些保护装置的基准测试,并实施并分享了第一个下一代架构测试,以及相应的数据集的交互式可视化。