ACLApr, 2022

防止对话表征泄露说话人的个人隐私:你不知道我的最喜欢的颜色

TL;DR本研究旨在探究基于语言模型训练的社交聊天机器人中隐藏状态的隐私泄露问题,并提出了有效的防御目标以保护用户隐私。通过大量实验验证,我们的防御目标可以将攻击准确率从 37.6% 降低到 0.5%。