- 代码预训练提升语言模型的实体跟踪能力
最近的研究提供了间接证据,表明在代码上预训练语言模型可以提高模型在自然语言中跟踪语篇实体状态变化的能力。本研究通过比较基模型和在其基础上用额外代码数据进行训练的模型在实体跟踪性能上的差异,系统地测试了这一论点。此外,我们还扩展了分析,考察了 - LiveCodeBench:大规模语言模型对代码进行全面无污染评估
本文提出了一个面向代码的综合、无污染评估系统 LiveCodeBench,其中收集了来自 LeetCode、AtCoder 和 CodeForces 三个竞赛平台的问题,着重评估 LLMs 在代码生成以外的自修复、代码执行和测试输出预测等更 - 使用 AI/ML 在代码和文档共享平台中发现和修复企业机密
利用 AI 准确检测和标记代码和常用文档共享平台上的敏感信息,并提供自动修复方案的挑战及其解决方法。
- 大型语言模型中的记忆痕迹对于代码的影响
大语言模型在编程领域备受瞩目,然而其数据源可能面临被攻击者利用数据提取攻击进行窃取的风险,本研究对大语言模型进行了代码和自然语言两方面的对比研究并发现其对数据提取攻击存在漏洞,建议进一步研究并采取相应措施来缓解此问题。
- 推进语言建模的最新研究成果
我们提出了一个简单的框架来改善语言建模的泛化性能,该框架不仅发布代码,还发布了在开发集和测试集上的概率结果,从而可以轻松将新模型加入到集成模型中。这种方法有助于确定新提出的模型是否确实对当前基线模型具有补充作用,同时也促进了思想的多样性,并 - 代码语言模型中注意力的自然性再探
通过分析 CodeBERT 中的注意力分布和转换表示,本研究发现除了注意力权重之外,输入的缩放变换规范更好地捕捉到语法结构,从而揭示了 CodeBERT 嵌入语法代码属性的特征,为深入理解神经代码模型以及在程序分析中开发更具解释性的模型和有 - 基于模式识别的上下文化的异常检测
本研究提出了 CODE 方法,它是一种可解释人工智能领域的扩展工作,用于识别类别特定的重复模式,以构建强大的用于视觉分类器的离群检测方法。CODE 不需要对分类器进行重新训练,且与离群分布无关,直接针对训练数据集进行调优。关键在于模式识别, - 使用 GPT-4 代码解释器及基于代码的自验证解决复杂数学问题
通过对 GPT-4 Code Interpreter 的代码使用频率引入不同约束,本文探讨了代码在增强 LLMs 推理能力方面的效果。基于这种见解,我们提出了一种新颖有效的提示方法,即基于代码的自验证(CSV),进一步提升了 GPT-4 C - Fauno:意大利大型语言模型,让你无语!
本文介绍了 Fauno,第一个也是最大的开源意大利会话型大型语言模型(LLM)。我们的目标是民主化意大利 LLM 的研究,证明使用单个 GPU 获得精细调整的会话机器人是可能的。此外,我们发布了用于意大利会话 AI 的数据集。
- 只需教科书
我们介绍了 Phi-1,这是一种新的大型代码语言模型,比现有的模型要小得多:Phi-1 是一种基于 Transformer 的模型,具有 13 亿个参数,使用来自 Web 的 “教科书品质” 数据(60 亿个标记)和使用 GPT-3.5 合 - ACL自然语言处理中的可重复性:清单告诉我们了什么?
本文通过分析 NLP 可重复性核对清单,发现清单的发布提升了 NLP 论文关于效率、验证性能、汇总统计和超参数等关键信息的披露率,且论文被接受的概率与符合要求的回复量呈正相关,同时提出了未来会议的一系列改进建议。
- ACLBEVERS: 一个通用、简单、高性能的自动事实验证框架
本文介绍 BEVERS,一个用于 Fact Extraction and VERification 数据集的调谐基线系统,用于文档检索、句子筛选和最终主张分类,并在数据集中获得了最高的 FEVER 得分和标签正确率。此外,作者还在 Scif - VeLO:通过扩展规模训练多功能学习优化器
通过与深度学习相同的扩展方法,我们训练一种自适应的深度学习优化器。这个优化器是一个小型神经网络,可摄取梯度并输出参数更新,经过数千个 TPU 月的计算,不需要超参数调整,可以自适应问题进行优化。
- 全局上下文生成全新蛋白质设计
该论文介绍了一种新的蛋白质设计方法,叫做全局内容感知生成性蛋白质设计方法(GCA),该方法旨在通过操作全局和局部信息,以获得能够折叠成定义结构的新蛋白质序列。实验结果表明,该方法在全新的蛋白质设计中表现良好,并会发布全新的代码和预训练模型。
- 通过场景式设计探究生成 AI 代码的可解释性
本文研究自动生成模型的可解释性问题,结合三个软件工程应用场景,提出了人机交互的 XAI 设计方法,包括场景设计和问题驱动设计,并探讨了基于自动生成模型的代码生成、翻译和自动完成等功能的可解释性需求和设计思路。
- ACL面向更精细和可靠的自然语言处理性能预测
本研究提出了两个方法来改进自然语言处理任务的性能预测:其一是对准确度进行细致的分类表现分析,其二是从置信区间和校准性两个角度理解性能预测模型的可靠性。通过对四类不同的任务分析论证了细致表现预测的必要性,同时说明性能预测方法在未来需要进行可靠 - AAAI对比预训练与对抗微调结合的零样本专家链接
本文提出了 CODE 方法,用于将任意外部专家链接到 AMiner 上,通过对比学习构建专家模型并采用对抗微调方法增强模型的迁移能力,在两个外部数据源上进行评估并展示在线部署和主动学习的性能。
- 代码的对抗鲁棒性
本文探讨神经模型在代码领域中的敌对鲁棒性问题,通过实例化针对代码的对抗攻击,并结合现有和新技术提高模型鲁棒性,同时保持高准确性。
- NIPS单向无监督域映射
该论文提出了一种学习 $oldsymbol {G}_{AB}$ 而不学习 $oldsymbol {G}_{BA}$ 的方法,通过学习一种能够保持数据距离的映射来实现,实验结果表明该方法不仅可以实现单面的映射学习,而且相比于现有的基于循环 - 在社交媒体上检测仇恨言论
社交媒体成为全球数百万人日常生活中不可或缺的组成部分,然而,随着人们可以表达自己的便利性,也带来了大规模传播政治宣传和仇恨言论的风险,为了规避检测,种族主义者开始使用代码将社区替换为它们所谓的无辜词语,而生成此类内容的用户列表可以更好地研究