论文阅读:arxiv 2025 Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Ar

📅 发布时间:2026/7/5 22:59:28 👁️ 浏览次数:
论文阅读:arxiv 2025 Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Ar
总目录 大模型相关研究https://blog.csdn.net/WhiffeYF/article/details/142132328Jailbreaking Attacks vs. Content Safety Filters: How Far Are We in the LLM Safety Arms Race?https://arxiv.org/pdf/2512.24044https://www.doubao.com/chat/38413601078654978论文翻译https://whiffe.github.io/Paper_Translation/Safe/%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%E4%B8%8E%E5%86%85%E5%AE%B9%E5%AE%89%E5%85%A8%E8%BF%87%E6%BB%A4%E5%99%A8%EF%BC%9A%E6%88%91%E4%BB%AC%E5%9C%A8%20LLM%20%E5%AE%89%E5%85%A8%E5%86%9B%E5%A4%87%E7%AB%9E%E8%B5%9B%E4%B8%AD%E8%BF%9B%E5%B1%95%E5%A6%82%E4%BD%95%EF%BC%9F%20—%20Jailbreaking%20Attacks%20vs.%20Content%20Safety%20Filters_%20How%20Far%20Are%20We%20in%20the%20LLM%20Safety%20Arms%20Race_.html速览一段话总结这篇研究首次系统性评估了越狱攻击针对大语言模型LLM安全对齐机制在完整推理流水线含输入、输出过滤阶段的有效性构建了含417个有害提示及对应良性提示的数据集测试了10类主流越狱攻击和6类内容安全过滤器在开源、商用LLM上的表现发现几乎所有越狱技术都能被至少一种安全过滤器检测此前研究高估了越狱攻击的实际成功率同时安全过滤器虽检测有效但在查全率与查准率平衡、降低误报率上仍有优化空间且不同过滤器在检测性能、推理成本、延迟上差异显著其中LlamaGuard和OpenAI API兼具高效与高检测能力O3检测精度最高但成本更高而越狱攻击中注重语义隐蔽性的方法更难被检测不过仍无法规避顶尖过滤器研究还指出LLM安全攻防竞赛需持续优化过滤器精度并兼顾用户体验。思维导图## **研究背景** - LLM广泛应用但存在安全隐患 - 越狱攻击可绕过模型安全对齐生成有害内容 - 现有研究仅关注模型层忽略系统层内容过滤机制 ## **相关工作** - 越狱攻击分5类优化/LLM辅助/混淆/工具/多轮10种代表性方法 - 越狱防御模型层微调/对抗训练系统层内容过滤研究空白 - LLM安全基准现有基准侧重攻击效果缺乏防御评估 ## **研究方法** - 问题形式化定义越狱攻击、内容过滤及完整推理流水线判定公式 - 安全过滤器6类零样本检测器/微调分类器/梯度检测器 - 实验设置 - 数据集417有害417良性提示覆盖10类危害 - 测试LLM5款开源2款商用 - 评估指标ASR/DR_I/DR_O/通过率/TP/FP/TN/FN - 测试对象10类越狱攻击6类安全过滤器GPT-4作为判定器 ## **实验结果** - 过滤器有效性几乎所有越狱攻击可被检测通过率远低于原始ASR - 攻击特征无语义隐蔽性的攻击易被检测隐蔽性方法仍难规避顶尖过滤器 - 检测器与LLM差异O3检测最优GradSafe表现较差Llama2/3固有抗攻击能力强 - 检测器行为多为高查全率设计PromptGuard误报率极高LlamaGuard平衡最佳 - 成本与延迟LlamaGuard/OpenAI API成本低O3精度高但成本高GradSafe延迟最高 - 误报分析物理伤害类误报最多多因敏感词无语境区分 ## **研究结论** - 内容过滤器大幅降低越狱攻击实际成功率集成过滤是有效防御手段 - 过滤器需在高查全率基础上优化查准率减少误报提升用户体验 - LLM安全攻防需持续发展攻击与防御策略需同步迭代 ## **研究局限与伦理** - 局限API查询预算有限未评估工具增强型LLM - 伦理所用数据集和攻击方法均来自现有研究无额外滥用风险详细总结本研究聚焦LLM安全攻防竞赛中越狱攻击与内容安全过滤器的对抗效果首次系统性评估了越狱攻击在含输入、输出过滤的完整LLM推理流水线中的实际成功率填补了现有研究仅关注模型层、忽略系统层过滤机制的空白最终为LLM安全系统的优化提供了核心依据和方向。一、研究背景与核心问题LLM在各类应用中广泛部署但其安全对齐机制易被越狱攻击构造对抗提示绕过安全机制生成有害内容突破现有研究报告越狱攻击成功率较高实际部署的LLM流水线均包含内容安全过滤器输入过滤阻断有害提示、输出过滤屏蔽有害结果但此类过滤器对越狱攻击的实际防御效果尚未被系统性评估核心研究问题内容安全过滤器能否有效抵御顶尖越狱攻击过滤器在检测性能、成本、用户体验上的表现如何LLM安全攻防的核心优化方向是什么二、相关工作梳理越狱攻击分为5大类别研究测试了10种代表性方法各类攻击通过不同策略隐藏有害意图如优化类用算法精炼提示、混淆类用改写/嵌套场景隐蔽意图、多轮攻击通过渐进式对话诱导有害输出等越狱防御分为模型层防御微调、对抗训练、安全解码等现有研究重点和系统层防御输入/输出过滤、输入净化等研究空白二者为互补关系LLM安全基准现有基准PromptBench、JailbreakBench等仅侧重攻击效果对比未对防御机制进行系统性评估本研究为该方向补充了核心内容。三、研究设计与实验设置一问题形式化明确定义越狱攻击、内容过滤器的数学表达以及越狱攻击成功的判定标准需同时绕过输入、输出过滤器且生成的内容被判定为符合有害目标。二测试对象安全过滤器6类主流方案涵盖不同检测原理具体如下过滤器类型代表方案核心特点零样本检测器GPT-4、O3无任务适配依托推理能力检测微调分类器LlamaGuard、PromptGuard、InjecGuard、OpenAI API针对安全/对抗数据微调适配特定风险梯度检测器GradSafe分析模型梯度模式仅检测输入越狱攻击10种顶尖方法含AutoDAN、PAIR、TAP、Adaptive、Crescendo多轮等覆盖5大攻击类别测试LLM7款含5款开源LLMLlama-2-7B、Llama3.1-8B、Mistral-7B等和2款商用LLMGPT-4-Turbo、GPT-4o评估数据集整合现有基准并去重最终得到417个distinct有害提示417个话题匹配的良性提示覆盖10类违反OpenAI使用政策的危害类别可同时评估过滤器的检测能力和误报率。三核心评估指标定义多维度指标实现攻击与过滤器的全面评估关键指标包括ASR(Ori)原始攻击成功率未加过滤器作为基准DR_I/DR_O输入/输出阶段检测率衡量过滤器对有害提示/结果的识别能力通过率有害样本同时绕过输入、输出过滤的比例核心反映越狱攻击实际成功率TP/FP/TN/FN精准率、查全率、F1值等衡量过滤器的检测精度和误报情况。四判定工具使用GPT-4作为Judge评估LLM生成内容是否符合有害目标为越狱攻击是否成功提供客观判定。四、核心实验结果本研究通过大量实验得到6个核心结论关键数据与特征如下内容安全过滤器整体有效几乎所有越狱技术能被至少一种过滤器检测过滤器使越狱攻击通过率大幅低于原始ASR多数场景通过率降至5%以下此前研究显著高估了越狱攻击的实际成功率其中PromptGuard、O3在输入阶段即可阻断70%-100%的注入提示。攻击的语义隐蔽性决定检测难度无语义隐蔽性的攻击如TAP、Adaptive原始ASR超90%易被过滤器检测注重语义隐蔽性的攻击如ReNeLLM虽能保持相对较高的通过率但仍无法规避PromptGuard、O3等顶尖过滤器多轮攻击Crescendo虽通过渐进式对话隐蔽意图但其最终对话仍能被过滤器有效检测。检测器与LLM的性能存在系统性差异检测器O3推理能力强检测效果最优、通过率最低GradSafe因依赖固定提示格式近半数场景表现较差PromptGuard存在严重过检测InjecGuard在其基础上优化了鲁棒性LlamaGuard实现查全率与查准率的最佳平衡准确率95%。LLMLlama2-7B、Llama3.1-8B固有抗攻击能力强原始ASR均低于30%但此类模型若被成功越狱其生成内容的隐蔽性更高对应过滤器通过率也更高。过滤器多为高查全率设计误报问题突出对非越狱样本的检测显示多数过滤器为保证有害内容识别率牺牲了查准率其中PromptGuard的误报率FPR达100%会严重降低用户体验LlamaGuard是唯一实现高精度95%且低误报6%的过滤器OpenAI API准确率86%、误报率5%。过滤器的推理成本与延迟差异显著多数过滤器的额外开销可控符合实际部署需求核心数据如下过滤器延迟s/样本经济成本$/样本核心特点LlamaGuard0.028-低延迟、低成本、高性能OpenAI API0.455-低延迟、适配大规模部署O37.220.0096高精度、高成本GradSafe40.67-延迟极高无实时性过滤器误报集中于特定类别源于语境识别不足误报最多的类别为物理伤害12.2%其次为隐私、性/成人内容误报多因过滤器对“炸弹”“自杀”等敏感词仅做表面匹配无法区分历史/学术讨论等无害语境。五、研究结论与启示内容安全过滤器是抵御LLM越狱攻击的有效手段集成过滤器可大幅降低越狱攻击的实际成功率且多数过滤器的额外延迟和成本可接受LLM安全系统的核心优化方向从提升检测率转向平衡查全率与查准率需在保证有害内容识别的前提下减少对良性提示的误判提升用户体验LLM安全攻防竞赛是持续过程攻击方为规避过滤器会不断提升语义隐蔽性防御方需同步优化过滤器的语境感知能力实现对有害意图的精准识别而非表面特征匹配实际部署建议LlamaGuard/OpenAI API适用于大规模常规场景兼顾性能与效率O3适用于高风险/审计场景以成本换取高精度。六、研究局限与伦理考量研究局限受API查询预算限制未开展高吞吐量的攻击尝试未将工具增强型LLM纳入评估后续可补充该方向研究伦理考量研究所用数据集、越狱攻击方法均来自现有公开文献无新增LLM滥用风险研究成果旨在推动LLM安全防御机制的优化助力可信LLM应用开发。关键问题问题1内容安全过滤器为何能大幅降低LLM越狱攻击的实际成功率现有研究为何高估了越狱攻击的效果答案一方面几乎所有越狱攻击的提示/生成结果能被至少一种内容安全过滤器检测尤其是PromptGuard、O3等顶尖过滤器在输入阶段即可阻断70%-100%的注入提示使越狱攻击的实际通过率多数降至5%以下另一方面现有研究仅评估了越狱攻击对模型层安全对齐机制的突破能力完全忽略了实际LLM部署中必备的系统层内容过滤流水线因此显著高估了越狱攻击的实际成功效果。问题2在实际LLM部署中不同类型的内容安全过滤器该如何选择核心考量因素是什么答案核心考量因素为检测性能、推理成本/延迟、应用场景风险等级具体选择策略1. 大规模常规场景优先选择LlamaGuard/OpenAI API二者兼具低延迟、低成本和高检测能力LlamaGuard还实现了查全率与查准率的最佳平衡2. 高风险/审计场景选择O3其推理能力强、检测精度最高是抵御高隐蔽性越狱攻击的最优选择3. 避免使用GradSafe延迟极高无实时性和PromptGuard误报率100%若需使用PromptGuard可替换为其优化版本InjecGuard。问题3当前LLM内容安全过滤器的核心短板是什么未来的主要优化方向有哪些答案当前过滤器的核心短板1. 多数为高查全率设计牺牲了查准率存在严重的误报问题如PromptGuard误报率100%会大幅降低用户体验2. 对有害内容的识别依赖表面特征/敏感词匹配缺乏语境感知能力无法区分敏感词在历史/学术讨论等无害场景中的使用3. 不同过滤器对不同类型越狱攻击的检测能力差异大对高语义隐蔽性的攻击防御效果仍有提升空间。未来优化方向1. 在保证高查全率的基础上提升查准率减少对良性提示的误判2. 增强过滤器的语义理解和语境感知能力实现对有害意图的精准识别而非简单的表面特征匹配3. 针对高隐蔽性越狱攻击如ReNeLLM和多轮攻击如Crescendo优化检测策略适配攻击方的技术迭代4. 平衡过滤器的检测性能与推理成本开发轻量化、高精度的检测模型。