Apr, 2024

AI 对齐的社会选择:应对多样化的人类反馈

TL;DR基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。