Jun, 2024

ProgressGym:对千年道德进步的对齐

TL;DR致力于解决大型语言模型(LLMs)对人类用户认知论的影响以及其可能导致的问题,并引入ProgressGym作为一个实验框架,以便从历史中学习道德进步的机制,从而促进未来在现实道德决策领域的进展。