- 语言模型水印的黑盒检测
水印技术被视为一种有效的方法来检测LLM生成的文本,此研究针对三种最流行的水印方案家族开发了严格的统计测试,使用有限数量的黑盒查询来检测它们的存在,并发现当前的水印方案比之前认为的更容易被检测到。
- 大型语言模型在数值和语义医学知识方面的性能表现:基于循证问题与答案的基准评估
临床问题解决需要处理语义医学知识,如疾病描述和诊断测试的数值医学知识进行循证决策。因此,我们评估了大型语言模型(LLMs)在数值和语义问题类型上的表现,并将其与人类进行比较。研究发现,LLMs在语义问题上的表现优于数值问题,在不同的医学方面 - 评估利用LLMs进行文本生成中属性强度的平滑控制
大语言模型(LLM)的平滑控制在文本生成中具有重要意义,本论文提出了评估生成文本属性强度范围、校准度和一致性以及其与预期语境的相关性的度量指标,通过引入Elo评级系统和GPT4的评估方法来量化属性强度和上下文相关性,并研究了两种无需训练的实 - MedExQA:具备多重解释的医学问答基准
本研究介绍了MedExQA,这是一个用于评估大型语言模型对医学知识的理解能力的新型基准,通过构建涵盖五个不同医学专业的数据集,并且为每个问题-答案对提供多个解释,填补了当前医学问答基准的一个重要空白,即缺乏模型生成细致医学解释的全面评估。我 - 人工智能中的幽默:巨规模众包偏好和漫画字幕基准
我们提供了一个独特的多模态偏好数据集,用于创意任务,在过去的八年中通过众包整理了超过250万个标注为《纽约客》周刊漫画字幕比赛的超过2.2亿个人类评分。通过结合GPT4和人类判断,建立了基于排名的评估策略,我们对模型生成的字幕质量提出了新的 - 我们关心:多模态抑郁症检测与知识注入型心理健康治疗响应生成
使用非语言线索检测抑郁症,引入虚拟助手与认知行为疗法基于的回应,取得了显著成果。
- WeatherQA: 多模态语言模型能否推理严重天气?
多模态数据集WeatherQA是用于预测复杂的恶劣天气事件的第一个数据集,使用视觉语言模型评估模型在多选问题和危险密度分类任务上表现较人类推理薄弱,需要更好的训练和数据整合来弥合差距。
- DeepSeek-Coder-V2: 打破代码智能中闭源模型的限制
通过深度预训练,DeepSeek-Coder-V2在编码相关任务方面展示出了显著的先进性,并提高了其推理和总体能力
- 导航迷宫:评估和提高LLMs处理搜索问题的能力
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为SearchBench的新基准测试,其中包含11种独特的搜索问题类型, - 越狱悖论: LLMs的致命弱点
我们介绍了两个关于基础模型越狱的悖论:首先,构建完美的越狱分类器是不可能的;其次,一个较弱的模型不能一致地检测到一个更强的(在帕累托优势意义上)模型是否越狱。我们提供了这些悖论的形式证明,并通过Llama和GPT4-o的短期案例研究来证明。 - 大型语言模型的适应性逻辑控制
通过引入适应性框架Ctrl-G,该研究提出了一种可实现对大型语言模型的可控生成的方法,并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束,结果显示Ctrl-G在人类评估中相比于GPT4以及GPT3.5取得了30%以上的满意率提升,并在标 - 构建多语言视觉文本数据集揭示视觉语言模型的多语言能力
我们通过模板构建了四种语言的多语言视觉文本数据集,介绍了九项视觉语言任务,并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。
- 大型语言模型的多目标语言控制
通过细调用于现有数据的多控制调优方法,本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性,还保持甚至提升了响应质量。
- 遵循指导中的长度限制
训练能够在推断时受到长度约束的指令控制模型,通过指令被控制的长度评估表现优于标准的指令跟随模型,如 GPT4、Llama 3 和 Mixtral。
- ChatGPT与我的教授相比,是更好的解释者吗?:评估LLMs在对话中的解释能力与人类基准
这篇研究论文探讨了解释的重要性和基于对话的方法,使用了大型语言模型(LLMs)来增强专家解释者在对话环境中的能力,并通过评估不同策略的效果来了解LLMs在生成解释性回应方面的能力。
- 朝着大型语言模型辅助的程序优化
使用GPT4、Coq和Coqhammer实现的LLM4PR工具将正式程序细化技术与非正式LLM方法相结合,通过将规范转换为前置条件和后置条件,基于细化演算自动生成提示,并与LLM进行交互以生成代码,最后验证生成的代码是否符合细化演算的条件, - 利用 Nichesourcing 和 AI 数据增加,从非结构化数据中挖掘疫苗接种的赞成和反对原因
我们通过利用GPT4和GPT3.5-Turbo进行细分外包和增强,提出了用于预测疫苗赞成和反对的原因以及科学权威,并展示了如何在非结构化文本中挖掘这些原因,探索了使用GPT4和GPT3.5-Turbo进行上下文学习的人工增强数据的影响。我们 - 使用LLM驱动的Minecraft中的非玩家角色进行协作任务完成
通过一个Minecraft的迷你游戏,本文研究人员分析了使用生成型人工智能模型与人类玩家协同合作达成游戏目标的模式和行为,并指出了语言模型在游戏开发中的限制。
- 问题分析提示提高推理任务中的LLM性能
尽管LLMs在许多领域具有潜力,但在推理任务上仍不如人类表现出色。本研究探讨了一个问题:让LLM分析问题是否能提高其性能?我们提出了一种新颖的提示策略,称为问题分析提示(QAP),模型在解决问题之前被提示用$n$个词解释问题。值$n$影响模 - 电子表格LLM: 用于大型语言模型的电子表格编码
通过引入SpreadsheetLLM和SheetCompressor,我们提出了一种高效编码方法来优化大型语言模型在电子表格上的理解和推理能力,并通过多种电子表格任务验证了其有效性。