鹰：真实互动的伦理数据集

Feb, 2024

Eagle: Ethical Dataset Given from Real Interactions

Masahiro Kaneko, Danushka Bollegala, Timothy Baldwin

TL;DR本研究通过从 ChatGPT 与用户之间的真实交互中提取出具有社会偏见、毒性和不道德问题的 Eagle 数据集，实验结果表明 Eagle 捕捉到了现有用于评估和缓解这些道德挑战的数据集所没有覆盖到的互补方面。

Abstract

Recent studies have demonstrated that large language models (LLMs) have ethical-related problems such as social biases, lack of moral reasoning, and generation of offensive content. The existing evaluation metrics

large language models ethical challenges evaluation metrics eagle datasets real-world applications

发现论文，激发创造

全球数据限制：大型语言模型中的道德与效果挑战

本文研究了大规模语言模型（LLM）获取高质量训练数据所面临的多方面挑战，包括数据稀缺、偏差以及低质量内容，并通过使用 GPT-4 和 GPT-4o 进行一系列评估，证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略，包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发 LLM 时需要积极考虑数据限制的有效性和伦理影响，以促进创建更可靠和普遍适用的人工智能系统。

Jun, 2024

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

Do-Not-Answer: 评估 LLMs 中的保障措施的数据集

通过开发一个标注的数据集，本文研究了大型语言模型的危险能力评估，并展示了使用 BERT 类别分类器在自动安全评估中能够获得与 GPT-4 相媲美的结果。

Aug, 2023

揭示和提升数据可信度：用于训练无害语言模型的数据集研究

本研究专注于评估数据集的可信度，鉴定标签错误，并评估噪声标签对语言数据的影响，特别关注不安全评论和对话分类，通过直接修复标签错误来显著提高数据的可信度和下游学习性能，说明清理现有的真实世界数据集的重要性。

Nov, 2023

从长期存在的问题到新兴的困境剖析大型语言模型的伦理

本文全面调查了与大型语言模型（LLMs）相关的伦理挑战，从长期存在的问题，如侵犯版权、系统性偏见和数据隐私，到新兴问题，如真实性和社会规范。我们批判性地分析了现有研究，旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中，从而引导负责任和道德对齐的语言模型的发展。

Jun, 2024

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

大型语言模型中情感和语言模型的融合，用于道德合规

这项研究开发了用于大型语言模型（LLMs）更好地管理与情感和伦理有关的语言行为的先进方法。我们引入 DIKE，这是一个对抗性框架，可以增强 LLMs 内化和反映全球人类价值观的能力，以适应不同的文化背景，以促进用户之间的透明度和信任。该方法涉及情感的详细建模，语言行为的分类和道德保护栏的实施。我们的创新方法包括使用自监督学习技术将情感和行为进行映射，通过对抗性审查来完善这些道德保护栏，并系统地调整输出以确保道德一致性。该框架为具有道德完整性和文化敏感性的 AI 系统建立了坚实的基础，为更负责任和与环境相适应的 AI 交互铺平了道路。

May, 2024

评估 ChatGPT 生成的好、坏和丑陋的论证：一个新的数据集、方法论和相关任务

本论文介绍了一种从 ChatGPT 生成的论述性文章中提取好的、坏的和丑陋的论点的方法，并描述了一个包含多样化论证的新颖数据集 ArGPT。我们评估了数据集的有效性并为几个与论述相关的任务建立了基线。最后，我们展示人工生成的数据与人类论证之间的关联，证明其可以作为训练和测试系统所定义任务的工具。

Jun, 2024

EALM：引入多维伦理对齐于对话式信息检索

人工智能技术应遵循人类规范，以更好地服务社会，避免传播有害或误导性信息，尤其是在会话式信息检索中。我们提出了一种将伦理对齐与初始伦理判断阶段相结合的工作流程，用于高效的数据筛选。我们提出了 QA-ETHICS 数据集，它源自 ETHICS 基准，并通过统一场景和标签意义作为评估工具。此外，我们还引入了 MP-ETHICS 数据集，以评估多个伦理概念下的场景，如公平和道德规范。此外，我们提出了一种新方法，在二进制和多标签伦理判断任务中取得了最佳性能。我们的研究为将伦理对齐引入会话式信息检索工作流程提供了实用方法。数据和代码可在此 https URL 中获得。

Oct, 2023

缓解数据集的危害需要有管理：来自于 1000 篇论文的经验教训

探讨了机器学习数据集的隐私、偏差和伦理应用等方面的顾虑，并分析了三个有争议的人脸和人识别数据集的伦理问题，最后提出了分散化的方法来减少数据集生命周期中的伦理问题。

Aug, 2021