instruction-following abilities | BriefGPT

关键词instruction-following abilities

搜索结果 - 4

VL-Trojan: 自回归视觉语言模型的多模态指令后门攻击
通过 VL-Trojan 攻击，我们成功诱导目标输出，在推理过程中明显超过了基线（+62.52%），并且在各种模型规模和少样本上下文推理场景中展示了鲁棒性。
PDF4 months ago
WaterBench：针对大型语言模型的水印综合评估
为了解决大型语言模型的滥用问题，该研究开发了水印算法，通过限制生成过程以留下不可见痕迹进行水印检测。本文引入了 WaterBench，第一个针对大型语言模型水印的全面基准测试，通过设计三个关键要素进行了综合评估，包括基准测试过程、任务选择和
PDF8 months ago
提升指令遵循评估能力的研究：以摘要为例的案例研究
通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。
PDF9 months ago
通过口头化调整进行命令跟踪评估
我们提出了一种名为 verbalizer manipulation 的新型指令跟踪评估协议，该协议通过使用高度匹配到轻微匹配的语言转化器，结合任何分类基准来检查模型对先验知识的依赖程度以及其是否能准确遵循指令。我们对四个重要的模型系列进行了
PDFa year ago