- Q*: 改进 LLMs 的多步推理与计划
通过引入 Q* 框架,我们可以缓解大型语言模型在多步推理时产生的错误、幻觉和不一致陈述的问题。Q* 是一个通用、多功能和灵活的框架,通过学习一个插拔式的 Q-value 模型作为启发式函数,有效地指导大型语言模型选择最有前途的下一步,避免了 - COLING复现一组可控文本生成技术的度量评估
重新运行基于指标的评估比人为评估更直接且结果更接近,但在重新运行时不一定会产生与原始结果相同的结果,并且可能揭示原始工作的错误。
- 对《从微分方程中机器学习守恒定律》一文的评论
对一个一维阻尼谐振子的运动规律的常数进行了推导,然后发现了之前一篇研究中有错误,对这些错误进行了详细回顾。
- 大型语言模型中的人为因素对错误检测的影响:系统文献综述与未来研究方向
研究对 LLM 技术中的错误进行风险减轻,并分析和综合研究的结果及未来研究方向。
- 大型语言模型是否擅长优化提示?
通过细致研究 LLM-based Automatic Prompt Optimization 的机制,发现 LLM 优化器在自我反思时往往倾向于以自身的先验知识为偏见,难以正确识别错误的真正原因;此外,LLM 优化器在语义上有效的反思时,由 - 多元概率时间序列预测与相关误差
通过对误差的自相关特性进行高效建模,本研究提出一种能够有效量化预测不确定性的方法,并在多个实际数据集上验证了其在提高预测准确性和不确定性量化质量方面的有效性。
- 探索多模态大型语言模型用于放射学报告错误检查
该研究通过多模态大型语言模型(LLMs)作为辅助工具,检视放射科医生报告中的错误,取得良好的效果,对放射学诊断准确性的提升具有潜力。
- WorldSense:大型语言模型中基于实例推理的合成基准测试
我们提出了 WorldSense,这是一个用于评估 LLMs 在从简单实体排列的描述中进行简单推理时所能维持的隐式世界模型的程度的基准测试。我们在三个最先进的聊天 LLMs(GPT3.5,GPT4 和 Llama2-chat)上运行我们的基 - 通过可解释的标记模式理解和减轻分类错误
我们提出了一种方法,通过发现那些区分正确和错误预测的标记模式来获得全局且可解释的描述,从而改善 NLP 分类器的性能。通过一系列实验证明,我们的方法在实践中表现良好,能够在大词汇量的不平衡数据上恢复出真实情况,并对 NLP 分类器的系统错误 - 级联对话状态跟踪模型在口语对话中是否会不适当地发言?
在复杂环境下,基于多轮对话语境的对话系统中,分析当前最先进系统的错误行为对于解决非分类槽值错误问题、改善语音到文本转录并帮助对话状态跟踪生成模型是至关重要的。
- 基于规则的错误分类方法用于分析频繁错误的差异
我们提出了一种基于规则的错误分类工具,对包含错误程序和正确程序的代码对进行错误分类,以分析初学者和专家程序员之间常见错误的差异,并为进一步的与代码相关的教育研究创建错误标记的数据集。
- 组合累计知识过程
我们分析了 Cumulative Knowledge Processes 的主要考虑因素,并提供了安全性的必要和充分条件。我们的结果表明,组合因子对安全性有重要影响。
- 机器学习应用中的异常是什么原因? 在 Stack Overflow 上挖掘与机器学习相关的堆栈跟踪
该研究通过挖掘 Stack Overflow 上的 Python ML 库相关的 11,449 个堆栈跟踪,派生了包括 Python 基本语法、模型训练、并行化、数据转换及子进程调用在内五个高级类别和 25 个低级类型,其中子进程调用、外部 - 看见不可见之物:视觉数据集中的错误和偏差
机器视觉算法对图像的处理和决策至关重要,但是数据集中的错误可能会导致认为黑人是大猩猩或搜索结果中误代表某些族裔,本文追踪数据集中的错误及其影响,揭示了一个缺陷的数据集可能是类别有限、数据来源不全和分类不当的结果。
- 机器学习软件测试
讨论机器学习的软件测试以确保其正确性和可靠性,尤其是在安全关键应用中存在欺骗和错误等挑战,探讨六个关键挑战领域及其局限,提出继续研究方向。
- 命名实体识别 -- 是否存在局限性?
本文详细分析了 Stanford、CMU、FLAIR、ELMO 和 BERT 模型的错误类型,揭示了它们的优缺点和共同限制,同时介绍了改进注释、训练过程和检查模型质量和稳定性的新技术。研究结果基于英语的 CoNLL 2003 数据集。
- 从误差和擦除中恢复低秩矩阵
本文研究了从同时包含擦除和错误的观测版本中恢复低秩矩阵的方法,并提供了一种新的统一性能保证。
- 复合句法:构建计算词典
介绍了 Comlex Syntax 的设计,它是一个计算词典,提供了大约 38,000 个英语词汇的详细语法信息。讨论了创建此类词典时出现的错误类型,以及如何对其进行实测和管控。