通过要求模型在单一推理步骤中比较多个推理链,我们提出了一种新方法 Divergent CoT (DCoT),进一步提高模型性能。通过一系列实验证明,DCoT 数据集上的微调在各种推理类型的任务上提高了模型的性能,无论模型的规模是多少。同时,我们通过经验和手动评估的结合,还表明这些性能提升源于模型在单一推理步骤中生成多个不同的推理链,表明语言模型具备自我纠正的能力。
Jul, 2024
我们提出了一种名为反崩溃损失函数的新方法,该方法通过最大化样本特征或类别代理的平均编码率来提高嵌入空间中特征聚类的稀疏性,以防止特征崩溃并促进模型的泛化性能。与现有的前沿方法相比,我们的方法在基准数据集上进行的综合实验表明,其表现优于现有的最先进方法。大量实验还验证了我们的方法在防止嵌入空间崩溃和促进泛化性能方面的有效性。
人工智能通过编码药物分子来预测药物特性,帮助快速筛选候选药物。利用不同来源的分子表示,如 SMILES 和分子图,可以提供互补信息进行分子编码。我们提出了一种多粒度融合方法 MolFusion,该方法利用分子级和原子级编码实现不同分子表示之间的相互对齐,实验结果表明 MolFusion 有效地利用了多模态的互补信息,在不同分类和回归任务中显著提高了性能。
Jun, 2024
我们提出了一种基于大型语言模型的中文拼写检查方法 C-LLM,该方法通过逐个字符检查错误,实现了字符级别的对齐,从而有效地缓解了与字符级别约束相关的问题。在两个中文拼写检查基准测试中的实验表明,C-LLM 相比现有方法平均提升了 10%,在一般场景下提升了 2.1%,在垂直领域场景中有显著的 12%改进,达到了最先进的性能。
通过引入基于问题和反思的记忆机制策略,结合静态文本内容和结构化图引导,提升了大型语言模型在文本处理和问答任务上的性能表现。
增强大型语言模型的获取机制,提出了一种双重评估的检索增强生成框架 Think-then-Act,通过评估输入查询的清晰度和完整性,判断是否需要重写查询,并评估模型回答查询的能力和是否需要额外的检索,实验证明该框架大幅提高了性能,优于现有基准,并在英语和非英语环境下表现良好,消融研究验证了最佳模型置信阈值,凸显了我们方法的资源优化效益。
在这篇论文中,我们提出了一种名为 RePrompt 的新方法,通过从与 LLM 代理的交互中获取的聊天记录,逐步优化 LLM 代理的提示,从而使 LLM 在特定领域中学会规划,我们在 PDDL 生成和旅行规划的实验中证明了我们的方法可以提高不同推理任务的性能。
利用稀疏格式来压缩大型语言模型的权重并减少权重传输延迟,从而提高性能。
通过利用不确定性敏感调谐方法,我们成功提高了大型语言模型识别其知识边界的能力,改善了幻觉问题,并在性能方面获得了显著的提升。
本研究介绍了 Sketchpad 框架,通过为多模态语言模型提供视觉草图板和绘图工具,使其在推理过程中绘制视觉成果,从而显著改善任务表现。