lm performance | BriefGPT - AI 论文速递

关键词lm performance

搜索结果 - 6

使用指令损失进行指令调整
通过实验证明，Instruction Modelling 能够提高语言模型的性能，特别是在指令调整数据集不充足、指令长度与输出长度不匹配以及减少过拟合情况下，对低资源场景中的语言模型进行指令调整提供了实用指南。
PDFa month ago
辅助任务需求掩盖了较小语言模型的能力
发展心理学家们就认知能力（如语言理解或心灵理论）何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型（LM）的能力时也会遇到类似问题：对任务的表现
PDF3 months ago
观点属于我，也属于你：使用共同基础理论对心智进行基准测试
通过自然发生的口语对话构建首个基于一般认知论 (ToM) 的数据集 Common-ToM，研究表明语言模型在表现 ToM 时存在困难，但通过融合简单明确的信念表示可以提高语言模型在 Common-ToM 上的性能。
PDF4 months ago
评估语言模型代理的方法与谈判
通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。
PDF6 months ago
蝇拍还是大炮？通过元建模选择具有性价比的语言模型
基于句子中给定的输入和候选语言模型，CELMOC 框架致力于以低成本实现高整体性能，最大程度地节省经费并匹配最大可用的语言模型的性能。
PDFa year ago
ACL文档连贯性建模评估
在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训
PDF3 years ago