提高标准:通过生成进化测试研究大型语言模型的价值
利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL,并构建了包含 2,397 个提示的高质量数据集 MoralPrompt,使用 VILMO 进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。
Oct, 2023
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了 Llama 2 外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
研究调查了将大型语言模型(LLMs)与金融优化对齐的道德影响,以 GreedLlama 为案例研究,该模型经过精调以优先考虑经济上有益的结果。通过将 GreedLlama 在道德推理任务中的表现与基准的 Llama2 模型进行比较,研究结果显示了一个令人担忧的趋势:在道德含糊度低和高的情况下,GreedLlama 表现出明显偏向于利润而不是道德考虑,在低含糊度情境中,GreedLlama 的道德决策下降至 54.4%,而基准模型为 86.9%;在高含糊度情境中,该比例为 47.4%,而基准模型为 65.1%。这些发现强调了 LLMs 中单一维度价值对齐的风险,强调在 AI 开发中整合更广泛的道德价值以确保决策不仅仅受金融激励驱动的必要性。该研究呼吁在 LLM 的应用中采取平衡的方式,主张在商业应用模型中纳入道德考虑,特别是在监管缺乏的背景下。
Apr, 2024
本研究旨在通过引入 TrustGPT,评价 LLMs 在毒性、偏见和价值对齐三个关键领域,以促进更具伦理和社会责任感的语言模型的发展。
Jun, 2023
本文研究了大规模语言模型(LLM)获取高质量训练数据所面临的多方面挑战,包括数据稀缺、偏差以及低质量内容,并通过使用 GPT-4 和 GPT-4o 进行一系列评估,证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略,包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发 LLM 时需要积极考虑数据限制的有效性和伦理影响,以促进创建更可靠和普遍适用的人工智能系统。
Jun, 2024
通过对 24 种模型的 11 个评估标准进行综合评估,本文首先回顾了当前的评估方法 —— 多项选择题回答(MCQA),并突出了 MCQA 的一些潜在缺点,接着引入了 RWQ-Elo 评分系统,通过 24 种大型语言模型的竞争性对战,模拟现实世界的使用情景,最后分析了系统特点、与先前排行榜的对比,揭示了 RWQ-Elo 系统的稳定性、注册新模型的可行性和其重塑 LLM 排行榜的潜力。
Mar, 2024
基于心理学方法研究,该论文通过提出 ValueLex 框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析 LLMs 在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
本文提出了第一个用于测试和修复 LMMs 不道德建议的框架,包括测试套件 ETHICSSUITE、建议 - 评论 - 反思(SCR)流程、在线修复方案等,并使用 ETHICSSUITE 测试了 7 个流行的 LMM,发现了总计 109824 个不道德建议,并在 Llama-13B 和 ChatGPT 上应用了 OTF 方案,为更加注重伦理的 LMMs 铺平了道路。
May, 2023
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024