Claude Fable 5 jailbreak: hoe gebeurde het?

Binnen 48 uur lag Claude Fable 5 al onder vuur

Anthropic lanceerde Claude Fable 5 als de publieke, veilig afgeschermde versie van Mythos 5.

Maar nog geen twee dagen later draaide het gesprek niet meer om productiviteit. Het ging over jailbreaks, veiligheidslagen en de vraag: hoe ver moet AI-beveiliging gaan?

Veiligheid eerst, en dat zie je meteen

Anthropic zette Fable 5 vanaf dag één neer als een model met extra remmen.

Gesprekken over risicovolle onderwerpen zoals cybersecurity en biologie worden automatisch doorgestuurd naar Claude Opus 4.8. Ook staan de safeguards bewust conservatief afgesteld.

Volgens Anthropic is het model uitgebreid getest, samen met meer dan 1.000 uur aan externe veiligheidstests.

Die aanpak past bij de bredere strategie van Anthropic: liever begrenzen dan later schade herstellen.

Maar precies daar wringt het.

Voor onderzoekers en ontwikkelaars voelt de grens tussen beschermen en beperken al snel als een politiek debat.

De jailbreakclaim die alles aanwakkerde

De discussie ontplofte toen jailbreak-onderzoeker Pliny the Liberator op X claimde dat hij Fable 5 had “bevrijd” van de ingebouwde beperkingen.

Berichtgeving koppelde die claim aan screenshots en output die normaal door de veiligheidsfilters zouden moeten worden tegengehouden.

SecurityWeek meldde dat Anthropic de aanval betwist. Andere media schreven dat de claim zich razendsnel verspreidde in de AI-gemeenschap.

En daar zit de echte spanning.

Als een model met classifiers en fallback-routing toch kwetsbaar blijkt voor prompt-based omzeiling, dan test dat niet alleen één truc. Dan test dat het hele veiligheidsontwerp.

Hoe zo’n omzeiling eruitziet

Volgens de gerapporteerde details gaat het niet om één slimme hack.

Het gaat om een stapeling van taaltrucs: Unicode- en homoglyph-manipulatie, lange contextgesprekken, fictieve of academische framing, inconsistente intentieclassificatie en het opsplitsen en later weer samenvoegen van informatie.

Vooral “decomposition and recomposition” wordt genoemd als vermoedelijk effectief.

Dat laat meteen zien waarom jailbreakonderzoek zo lastig blijft.

Veel verdedigingslagen werken prima tegen directe vragen. Maar indirecte instructies, contextverschuivingen en meerstapsgesprekken blijven een zwakke plek.

Waarom de kritiek zo breed werd

De controverse raakt een gevoelige zenuw in de AI-sector: hoe streng mag veiligheid zijn voordat je legitiem onderzoek frustreert?

Volgens berichtgeving vinden critici dat Anthropic mogelijk te ver doorschiet met safeguards. Daarmee zouden onderzoekers en ontwikkelaars nuttige use cases verliezen.

The Wall Street Journal werd daarbij aangehaald als bron voor de brede weerstand binnen de AI-gemeenschap.

Waarom dit Anthropic extra pijn doet

Anthropic presenteert zich al jaren als een van de meest veiligheidsgerichte spelers in AI.

Juist daarom is een snelle jailbreakclaim reputatiegevoelig. Het ondermijnt niet alleen de technische claim dat de safeguards werken, maar ook het verhaal dat streng beleid automatisch tot betere veiligheid leidt.

De timing maakt het nog ongemakkelijker.

Anthropic zei bij de lancering dat externe tests geen universele jailbreak opleverden. Nog geen twee dagen later doken er al publieke omzeilingsclaims op.

De les is helder

Deze zaak draait niet alleen om één jailbreak-protocol.

Het draait om een grotere vraag: kun je een frontier-model tegelijk krachtig, breed inzetbaar en hard afgeschermd maken zonder nieuwe blinde vlekken te creëren?

Op basis van de huidige berichtgeving lijkt het antwoord voorlopig: nog niet volledig.

Werk jij met dit soort modellen? Neem safety claims serieus, maar zie ze niet als onbreekbaar. Onafhankelijke toetsing blijft essentieel.