BriefGPT.xyz
大模型
Ask
alpha
关键词
llms evaluation
搜索结果 - 2
多元观点的公平抽象摘要
我们对用户生成数据进行了公平抽象概括的系统研究,首次正式定义了公平的抽象概括,并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明,无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题,我们提出了三种简单但有效的
→
PDF
8 months ago
对大型语言模型评估的调查
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
PDF
a year ago
Prev
Next