BriefGPT.xyz
大模型
Ask
alpha
关键词
lm performance
搜索结果 - 6
使用指令损失进行指令调整
通过实验证明,Instruction Modelling 能够提高语言模型的性能,特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下,对低资源场景中的语言模型进行指令调整提供了实用指南。
PDF
a month ago
辅助任务需求掩盖了较小语言模型的能力
发展心理学家们就认知能力(如语言理解或心灵理论)何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型(LM)的能力时也会遇到类似问题:对任务的表现
→
PDF
3 months ago
观点属于我,也属于你:使用共同基础理论对心智进行基准测试
通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM,研究表明语言模型在表现 ToM 时存在困难,但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。
PDF
4 months ago
评估语言模型代理的方法与谈判
通过协商游戏来共同评估语言模型的性能和对齐情况,发现开源模型目前无法完成这些任务,合作协商游戏具有挑战性,最强大的模型并非总是 “赢家”。
PDF
6 months ago
蝇拍还是大炮?通过元建模选择具有性价比的语言模型
基于句子中给定的输入和候选语言模型,CELMOC 框架致力于以低成本实现高整体性能,最大程度地节省经费并匹配最大可用的语言模型的性能。
PDF
a year ago
ACL
文档连贯性建模评估
在理解预训练语言模型对话建模能力方面,我们提出了一种句子入侵检测任务,并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD,显示预训
→
PDF
3 years ago
Prev
Next