TMLab: 生成式增强模型 (GEM) 用于对抗性攻击
介绍了一个名为 GEM 的用于自然语言生成(NLG)及其评估和指标的活跃基准。GEM 提供了一个环境,使得模型可以被应用于广泛的任务,并且可以测试评估策略。该基准将定期更新以更多的支持多语言,并与模型一起推进挑战,欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。
Feb, 2021
本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。
Sep, 2022
为了更方便地遵循最佳模型评估实践,我们引入了 GEMv2,它为数据集、模型和度量开发人员提供了一种模块化基础设施,可以受益于彼此的工作,并支持 51 种语言的 40 个数据集的模型在线评估。
Jun, 2022
本文探讨了基于 Transformer 的语言模型在自动定理证明中的应用,提出了基于语言模型的生成能够解决自动定理证明器与人类相比的主要限制之一 —— 原始数学术语的生成问题。我们提出了一个自动证明器和证明辅助工具 GPT-f,使用 Metamath 形式语言,并分析了其性能。 GPT-f 发现了新的简短证明,并被采纳为正式数学社区所接受,这是我们所知道的第一次基于深度学习的系统为正式数学社区做出的贡献。
Sep, 2020
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
Gemma 是一种轻量级的、最先进的开放模型系列,从用于创建 Gemini 模型的研究和技术中构建而来。Gemma 模型在语言理解、推理和安全性等学术基准测试中表现出强大的性能。我们发布了两个规模的模型(20 亿和 70 亿参数),并提供预训练和微调的检查点。Gemma 在 18 个基于文本的任务中,有 11 个任务优于类似规模的开放模型。我们全面评估了模型的安全性和责任方面,同时详细描述了模型的开发过程。我们认为,负责任地发布 LLM 对于提高前沿模型的安全性,并推动 LLM 的下一波创新至关重要。
Mar, 2024
介绍了 CodeGemma,这是一套基于 Gemma 的专业开放代码模型集合,能够执行各种代码和自然语言生成任务,并发布了三个模型变体,其中 7B pretrained 和 instruction-tuned 变体在自然语言理解方面具有很强的韧性,优秀的数学推理能力,并且在代码功能方面与其他开放模型相匹配,而 2B 模型是一种用于快速代码填充和延迟敏感设置中的开放式生成的最先进的代码完成模型。
Jun, 2024
本文提出了一个基于对抗生成网络的事件提取模型,可以对长文本进行结构化表示,实验结果显示该模型在三个数据集上的表现优于基线模型,尤其在新闻文章数据集上提高了 15% 的 F - 度量值。
Aug, 2019
描述了基于 GPT 的翻译质量评估指标 GEMBA,可以用于有参照的和无参照的情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中,GEMBA 在三种语言对中具有先进的性能表现。
Feb, 2023