BriefGPT.xyz
大模型
Ask
alpha
关键词
model evaluations
搜索结果 - 5
超越静态 AI 评估:推进人机交互评估对 LLM 的伤害和风险
AI 系统的安全性、风险和社会影响的理解,以及人工智能与人类交互的模型评估,是本文的主题。我们讨论并实施了一种新兴评估方法 ——“人机交互评估”,将其运用于安全评估的有效性、直接人类影响和特定交互的危害,以及指导未来模型社会影响的评估。通过
→
PDF
2 months ago
EuroPED-NN:不确定性感知的代理模型
通过使用 Bayesian 神经网络与噪声对比优先(BNN-NCP)技术,利用 JET-ILW 基座数据库和后续模型评估的数据成功生成了对 EuroPED 等离子体基座模型的不确定性感知代理模型。EuroPED-NN 通过提供模型的不确定性
→
PDF
5 months ago
无算法公平的七年回溯
本文通过数千次模型评估,并采用一种叫做 “取消后处理方法” 的简单理念,对多篇针对改进后处理基线的论文进行实证评估,发现在不同的表格数据集上所实现的公平性 - 准确性 Pareto 前沿线包含了所有现有的其他改进方法。作者还纠正了之前的两个
→
PDF
a year ago
基于互联网混搭的多元时间序列优化事件监测
我们提出了一个网络混搭应用服务框架,支持多元时间序列的模型定义、参数学习、模型评估、数据监控、决策推荐和 Web 门户服务,并在一个实验案例中验证了我们的框架、模型和语言。
PDF
2 years ago
ACL
预训练语言模型在少样本微调中的问题
本文旨在解释提高小样本下的预训练语言模型的性能,发现未 fine-tune 的预训练模型表现出强烈的预测偏差,而 fine-tune 可以缓解预测偏差并展现出更好的性能,但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。
PDF
2 years ago
Prev
Next