undesirable behavior | BriefGPT

关键词undesirable behavior

搜索结果 - 5

xSemAD：使用序列到序列模型进行可解释的事件日志语义异常检测
本文提出了一种名为 xSemAD 的方法，通过使用序列到序列模型学习给定过程模型存储库中的约束，并在考虑的事件日志中检查这些约束是否成立，从而超越了传统的纯识别方法，提供了扩展的解释。实验证明，该方法优于现有的最先进的语义异常检测方法。
PDF8 days ago
具有对比解码的参数高效排毒
Detoxification Generator (DETOXIGEN) is an algorithm that controls the attributes of generated text, particularly avoidi
PDF6 months ago
降低深度强化学习模型中的不良行为
提出一种基于决策树分类器的框架，用于在 DRL 软件中大幅减少不良行为并提供工程师可理解的描述，且仅略微增加训练时间及对性能的影响。
PDF10 months ago
E2E 会话型 AI 安全问题预测：框架和工具
本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架，以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策，并提供了一套工具来帮助他们进行更明智的选择。
PDF3 years ago
控制 k - 表决选举的复杂性
研究计算社会选择理论中，针对代理人之间的不良行为（如控制、操纵和贿赂）在竞选系统中的复杂性，并以无限多个候选人的无限得分协议为例，将计算复杂度的结果加以泛化，并展示了操纵竞选系统和图形理论问题之间的惊人联系。
PDF14 years ago