BriefGPT.xyz
Ask
alpha
关键词
empirical experiment
搜索结果 - 3
合理性报告卡:评估大型语言模型的经济合理性
使用 LLMs 作为决策 “代理人” 引起了越来越多的兴趣,但评估这种代理人的经济合理性仍然是一个关键问题。本文通过调查经济理论、提出基准分布和进行大规模实证实验,对 LLMs 的表现进行定量评估,揭示了当前技术水平以及模型大小对模型表现的
→
PDF
5 months ago
具有大行动空间的离策评估的双重稳健估计方法
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Mar
→
PDF
a year ago
EMNLP
视频对话生成中的多模态语义图协同推理
本文研究了基于视频对话生成,提出一种方法,可以将视频数据集成到预训练语言模型中,通过多模态推理实现各种模态之间的互补信息,实验结果表明,该模型能够在自动和人工评估方面显著优于现有的最先进模型。
PDF
2 years ago
Prev
Next