arXiv 2510.15068

Sequential Comics for Jailbreaking Multimodal Large Language Models via Structured Visual Storytelling

By Deyue Zhang, Dongdong Yang, et al.

Published 2025-10-16

Wiki summary

Explore the paper's summary, context, and related research on Papiers.

Multimodal large language models (MLLMs) exhibit remarkable capabilities but remain susceptible to jailbreak attacks exploiting cross-modal vulnerabilities. In this work, we introduce a novel method that leverages sequential comic-style visual narratives to circumvent safety alignments in state-of-the-art MLLMs. Our method decomposes malicious queries into visually innocuous storytelling elements using an auxiliary…

View the original paper on arXiv