AI 论文速递

最新

反思基准：通过反思探测人工智能的智能
本研究针对大型语言模型（LLMs）在智能表现上缺乏反思能力的问题，提出了一套名为反思基准的综合性评估工具，包括七个任务，旨在测评核心认知功能。研究结果显示，当前的LLMs在反思能力方面表现不足，为未来研究提供了方向和启示，推动AI在环境互动
PDFa day ago
xGen-MM-Vid (BLIP-3-Video): 只需32个标记即可表示视频
该研究针对视频处理中的效率问题，提出了一种新的多模态语言模型BLIP-3-Video，利用时间编码器显著减少了对视觉标记的需求。实验结果表明，BLIP-3-Video在视频问答准确性上与更大规模的先进模型相当，但模型体积更小、效率更高。
PDFa day ago
3DGS-增强器：利用视图一致的2D扩散先验增强无限制3D高斯点云
该研究解决了在稀疏输入视图下生成高质量新视图的挑战，提出了3DGS-增强器，一个新颖的管道，通过2D视频扩散先验来增强3D高斯表示的质量。其主要发现是，通过恢复渲染新视图的一致潜在特征，并与输入视图集成，该方法显著提高了渲染性能，实验证明其
PDFa day ago
CompassJudger-1：一体化评估模型助力模型评估与演进
本研究针对大语言模型（LLMs）在评估中的不准确性和人类评估的高成本进行改进，提出了开源的一体化评估模型CompassJudger-1。该模型具备多种评估功能，并搭建了新的基准JudgerBench，以统一评估不同模型的性能，促进评估方法的
PDFa day ago
知识编辑真的能纠正幻觉吗？
本研究针对大型语言模型（LLMs）存在的幻觉问题，即生成内容中的虚假信息，提出了全新的评估平台HalluEditBench。通过构建一个包含9个领域、26个主题及6000多条幻觉的庞大数据集，系统评估了知识编辑方法在五个维度上的效果，为知识
PDFa day ago
基于大语言模型的机器翻译中的上下文贡献分析
本研究解决了大型语言模型在机器翻译中如何利用输入上下文的机制未被充分探讨的问题。通过全面分析上下文的利用，研究发现源文本在少量示例中的贡献大于目标文本，微调模型会改变上下文的贡献模式，且早期的少量示例对翻译序列贡献更大。这些发现有助于深入理
PDFa day ago
MoRE：基于变换器的多模态对比预训练框架用于X光、心电图和诊断报告
本文提出了一种新颖的多模态对比预训练框架，旨在整合X光、心电图和放射学/心脏病学报告，以提高诊断准确性和患者评估的全面性。研究首次实现了多种模态特征的有效对齐，并在多个下游任务上达到了最先进的表现，显示出在医疗诊断中的强大潜力。
PDFa day ago
词的思考：提升大型语言模型推理能力
本文提出了一种名为“词的思考”（ToW）的新型数据增强方法，旨在解决现有下一词预测学习方案的事实幻觉和效率低下问题。通过从大型模型中提取ToW注释，在仅使用70K ToW注释的情况下，模型的推理能力提高了7%至9%，同时减少了高达10%的幻
PDFa day ago
Sketch2Code：评估视觉语言模型在互动网页设计原型制作中的应用
本研究针对现有UI/UX自动化研究中对高保真输入的依赖问题，提出Sketch2Code基准，评估先进的视觉语言模型将简单草图转换为网页原型的能力。研究发现，现有模型在准确解读草图和提出有效问题方面存在挑战，而用户研究显示，主动提问比被动反馈
PDFa day ago
通过检索增强语言模型构建编码助手
本研究针对现有编码助手在知识获取上的不足，提出了一种新型编码助手CONAN，结合了代码结构感知检索器和基于双视图代码表示的检索增强生成模型。实验表明，CONAN在多种代码生成任务上表现优越，具有改善大语言模型的有效性和提取必要信息的潜力。
PDFa day ago
创建医疗领域的英语-泰语代码切换机器翻译
本研究针对医疗领域的机器翻译技术，解决了现有系统在医疗术语翻译准确性上的不足。通过提出一种代码切换翻译的新方法，保持关键医学术语的准确性，研究发现医疗专业人士更倾向于接受这种尽管流利度稍有妥协的翻译方式，显示出其在提升医疗翻译质量方面的巨大
PDFa day ago
大型语言模型的预训练蒸馏：设计空间探索
本文解决了大型语言模型（LLMs）知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏（PD）的新方法，并通过系统的设计空间探索，发现更有效的配置，尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。
PDFa day ago
大型语言模型在RNA二级结构预测中的全面基准测试
本研究旨在解决当前RNA二级结构预测中的模型性能差异问题。通过在统一深度学习框架下对多种预训练RNA语言模型进行全面实验分析，揭示了在低同源性场景中面临的重大挑战。研究发现，有两个模型在预测精度上显著优于其他模型，展示了更高质量RNA表征在
PDFa day ago
计算约束下的数据选择
本研究解决了在计算受限条件下如何有效选择训练数据的问题，提出了一种考虑选择成本的效用函数模型。通过多任务实验，发现许多主流数据选择方法并非计算最优，而成本更低的数据选择方法在理论与实证上均表现出更好的效果。
PDFa day ago
CoT-TL：低资源时态知识表示的规划指令利用链式思维推理
本研究解决了自主代理在解析不确定自然语言指令以进行规划时面临的挑战。提出的CoT-TL框架通过延伸链式思维推理与语义角色，有效地将自然语言规范转换为线性时态逻辑（LTL）表示，显著提高了透明性与可信度，且在低数据环境中达到最先进的准确率。这
PDFa day ago
系统评估：社交媒体上机器学习与深度学习的文本处理算法在心理健康检测中的应用
该研究针对社交媒体上抑郁症检测中的方法论挑战与偏见进行了系统评估，揭示了现有机器学习模型的不足之处。研究发现，样本选择不具代表性，且对语言细微差别的关注不足，这影响了模型的可靠性。研究强调了丰富数据来源、标准化处理流程及提高报告透明度的必要
PDFa day ago
提升视觉语言模型的链式思维推理
本文解决了视觉语言模型（VLMs）在链式思维（CoT）推理中缺乏足够详细的训练数据的问题。通过从GPT-4o模型中提取推理依据丰富训练数据，并结合强化学习优化推理质量，显著提升了VLM在基准数据集上的性能和对直接答案预测的泛化能力。这项研究
PDFa day ago
对话生成的信息：利用知识图谱的提案
本研究解决了大语言模型在对话生成中因缺乏相关内容和存在幻觉而产生的低质量响应问题。通过动态知识图谱嵌入、情感价值实体存储和叙事泡泡整合角色信息等新颖方法，提升了生成质量和情感一致性。这项研究显示，知识图谱的应用能够显著改善对话生成的情感对齐
PDFa day ago
多语言基准的污染报告
本研究解决了大语言模型（LLM）预训练或后训练数据中基准污染的问题，影响评估结果并掩盖模型能力。我们使用 Black Box 测试分析了 $7$ 个流行的多语言基准在 $7$ 个知名开源和闭源 LLM中的污染情况，几乎所有模型均显示出与测试
PDFa day ago
RM-Bench：语言模型奖励模型的细微差别和风格基准测试
本研究针对当前奖励模型基准测试中未能有效评估细微内容变化和风格偏见的问题，提出了RM-Bench这一新基准。通过对近40个奖励模型的评估，结果显示当前先进模型在面对风格偏见干扰时，仅达到46.6%的平均性能，表明奖励模型的改进空间巨大，提供
PDFa day ago