May, 2024

大型语言模型中情感和语言模型的融合,用于道德合规

TL;DR这项研究开发了用于大型语言模型(LLMs)更好地管理与情感和伦理有关的语言行为的先进方法。我们引入 DIKE,这是一个对抗性框架,可以增强 LLMs 内化和反映全球人类价值观的能力,以适应不同的文化背景,以促进用户之间的透明度和信任。该方法涉及情感的详细建模,语言行为的分类和道德保护栏的实施。我们的创新方法包括使用自监督学习技术将情感和行为进行映射,通过对抗性审查来完善这些道德保护栏,并系统地调整输出以确保道德一致性。该框架为具有道德完整性和文化敏感性的 AI 系统建立了坚实的基础,为更负责任和与环境相适应的 AI 交互铺平了道路。