{"id":14445,"date":"2025-07-15T14:33:03","date_gmt":"2025-07-15T14:33:03","guid":{"rendered":"https:\/\/newestek.com\/?p=14445"},"modified":"2025-07-15T14:33:03","modified_gmt":"2025-07-15T14:33:03","slug":"grok-4-mit-jailbreak-angriff-geknackt","status":"publish","type":"post","link":"https:\/\/newestek.com\/?p=14445","title":{"rendered":"Grok 4 mit Jailbreak-Angriff geknackt"},"content":{"rendered":"<div>\n<div id=\"remove_no_follow\">\n<div class=\"grid grid--cols-10@md grid--cols-8@lg article-column\">\n<div class=\"col-12 col-10@md col-6@lg col-start-3@lg\">\n<div class=\"article-column__content\">\n<section class=\"wp-block-bigbite-multi-title\">\n<div class=\"container\"><\/div>\n<\/section>\n<div class=\"extendedBlock-wrapper block-coreImage undefined\">\n<figure class=\"wp-block-image size-large is-resized\"> srcset=&#8221;https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?quality=50&amp;strip=all 6000w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=300%2C168&amp;quality=50&amp;strip=all 300w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=768%2C432&amp;quality=50&amp;strip=all 768w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1024%2C576&amp;quality=50&amp;strip=all 1024w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1536%2C864&amp;quality=50&amp;strip=all 1536w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=2048%2C1152&amp;quality=50&amp;strip=all 2048w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1240%2C697&amp;quality=50&amp;strip=all 1240w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=150%2C84&amp;quality=50&amp;strip=all 150w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=854%2C480&amp;quality=50&amp;strip=all 854w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=640%2C360&amp;quality=50&amp;strip=all 640w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=444%2C250&amp;quality=50&amp;strip=all 444w&#8221; width=&#8221;1024&#8243; height=&#8221;576&#8243; sizes=&#8221;(max-width: 1024px) 100vw, 1024px&#8221;&gt;<figcaption class=\"wp-element-caption\">Das neue KI-Sprachmodell Grok 4 ist anf\u00e4llig f\u00fcr Jailbreak-Angriffe.<\/figcaption><\/figure>\n<p class=\"imageCredit\">Svet foto \u2013 shutterstock.com<\/p>\n<\/div>\n<p>Erst vor wenigen Tagen pr\u00e4sentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Ver\u00f6ffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen des Tools zu umgehen. Sie brachten es dazu, Anweisungen zur Herstellung eines Molotowcocktails zu geben.<\/p>\n<h2 class=\"wp-block-heading\"><strong>Heimliche Hintert\u00fcr durch kombinierte Jailbreaks<\/strong><\/h2>\n<p>Dabei kombinierten sie zwei fortschrittliche Exploit-Techniken. Sowohl <a href=\"https:\/\/www.csoonline.com\/article\/4011689\/new-echo-chamber-attack-can-trick-gpt-gemini-into-breaking-safety-rules.html\">Echo Chamber<\/a> als auch <a href=\"https:\/\/www.csoonline.com\/article\/2119355\/microsoft-azures-russinovich-sheds-light-on-key-generative-ai-threats.html?utm=hybrid_search#:~:text=One%20of%20these%20attacks%20he%20wrote%20about%20last%20month%2C%20calling%20it%20Crescendo.%20This\">Crescendo<\/a> sind Jailbreak-Methoden, um gro\u00dfe Sprachmodelle (Large Language Modells\/LLMs) zu manipulieren.<\/p>\n<p>\u201eLLM-Jailbreak-Angriffe entwickeln sich nicht nur einzeln weiter, sondern k\u00f6nnen auch kombiniert werden, um ihre Wirksamkeit zu verst\u00e4rken\u201c, erl\u00e4utert Ahmad Alobaid, Forscher bei NeuralTrust, in einem <a href=\"https:\/\/neuraltrust.ai\/blog\/grok-4-jailbreak-echo-chamber-and-crescendo\">Blogbeitrag<\/a>.<\/p>\n<p>Die Forscher begannen ihren Test mit Echo Chamber. Die Technik nutzt die Tendenz des KI-Modells aus, der Konsistenz zwischen Gespr\u00e4chen zu vertrauen. Dabei werden mehrere Gespr\u00e4che einbezogen, die dieselbe b\u00f6swillige Idee oder dasselbe b\u00f6swillige Verhalten \u201ewiederholen\u201c. Durch den Verweis auf fr\u00fchere Chats akzeptiert die KI die Eingabe einer b\u00f6swilligen Aufforderung.<\/p>\n<p>\u201eDer \u00dcberzeugungszyklus hat das Modell zwar in Richtung des sch\u00e4dlichen Ziels gedr\u00e4ngt, aber das allein reichte nicht aus\u201c, erkl\u00e4rt Alobaid. \u201eAn diesem Punkt lieferte Crescendo den notwendigen Schub.\u201c Der von Microsoft <a href=\"https:\/\/arxiv.org\/pdf\/2404.01833\">identifizierte und benannte<\/a> Crescendo-Jailbreak eskaliert eine Unterhaltung schrittweise von harmlosen Aufforderungen zu b\u00f6swilligen Ausgaben und umgeht dabei durch subtile Fortschritte die Sicherheitsfilter.<\/p>\n<p>In ihrem Test f\u00fcgten die Forscher eine zus\u00e4tzliche \u00dcberpr\u00fcfung in den \u00dcberzeugungszyklus ein, um \u201everaltete\u201c Fortschritte zu erkennen. Das sind Situationen, in denen die Unterhaltung nicht in Richtung des b\u00f6swilligen Ziels voranschreitet. In solchen F\u00e4llen wurde Crescendo eingesetzt, um den Exploit abzuschlie\u00dfen.<\/p>\n<p>Mit nur zwei zus\u00e4tzlichen Schritten gelang es <a>anhand des kombinierten Ansatzes<\/a><a href=\"https:\/\/www.csoonline.com\/article\/4022525\/grok-4-mit-jailbreak-angriff-geknackt.html#_msocom_1\">[JD1]<\/a>\u00a0, die gew\u00fcnschte Reaktion hervorzurufen, f\u00fcgte der NeuralTrust-Forscher hinzu.<\/p>\n<h2 class=\"wp-block-heading\"><strong>Sicherheitssysteme durch kontextbezogene Taktiken ausgetrickst<\/strong><\/h2>\n<p>Der Angriff nutzt den kontextbezogenen Speicher von Grok 4 aus, indem er ihm seine eigenen fr\u00fcheren Aussagen zur\u00fcckspielt und ihn so schrittweise und ohne Alarm auszul\u00f6sen zu einem Ziel f\u00fchrt. Durch die Kombination von Crescendo mit Echo Chamber wird der Angriffsvektor noch verst\u00e4rkt.<\/p>\n<p>Da der Exploit keine Schl\u00fcsselwort-Trigger oder direkten Aufforderungen enth\u00e4lt, d\u00fcrften g\u00e4ngige Abwehrma\u00dfnahmen versagen, die auf Blacklists und der Erkennung expliziter b\u00f6swilliger Absichten basieren. Alobaid zufolge konnte mit einer Kombination aus Echo Chamber und Crescendo eine Erfolgsquote von 67 Prozent bei Anweisungen zur Herstellung von Molotowcocktails erzielt werden. Bei Exploit-Themen wie Meth und Toxin verzeichneten die Forscher eine Erfolgsquote von etwa 50 Prozent beziehungsweise 30 Prozent.<\/p>\n<p>\u201eDieses (Experiment) zeigt eine kritische Schwachstelle auf: Angriffe k\u00f6nnen Absichts- oder Schl\u00fcsselwort-basierte Filter umgehen, indem sie den breiteren Konversationskontext ausnutzen, anstatt sich auf offensichtlich sch\u00e4dliche Eingaben zu verlassen\u201c, fasst Alobaid zusammen. \u201eUnsere Ergebnisse unterstreichen, wie wichtig es ist, LLM-Abwehrma\u00dfnahmen in Multi-Turn-Umgebungen zu evaluieren, in denen subtile, anhaltende Manipulationen zu unerwartetem Modellverhalten f\u00fchren k\u00f6nnen.\u201c<\/p>\n<p>Bereits zuvor gab es \u00e4hnliche Manipulationsversuche von KI-Modellen, darunter Microsofts <a href=\"https:\/\/www.csoonline.com\/article\/2507702\/microsoft-warns-of-novel-jailbreak-affecting-many-generative-ai-models.html\">Skeleton Key<\/a> Jailbreak, der <a href=\"https:\/\/www.csoonline.com\/article\/3537265\/meet-mathprompt-a-way-threat-actors-can-break-ai-safety-controls.html\">MathPrompt<\/a> Bypass und andere <a href=\"https:\/\/www.csoonline.com\/article\/570555\/how-data-poisoning-attacks-corrupt-machine-learning-models.html\">Context-Poisoning<\/a>-Angriffe, was die Notwendigkeit gezielter, KI-f\u00e4higer <a href=\"https:\/\/www.csoonline.com\/article\/2096737\/securiti-adds-distributed-llm-firewalls-to-secure-genai-applications.html\">Firewalls<\/a> unterstreicht. <\/p>\n<hr class=\"wp-block-separator has-alpha-channel-opacity\">\n<p><a id=\"_msocom_1\"><\/a><\/p>\n<p>\u00a0<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>srcset=&#8221;https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?quality=50&amp;strip=all 6000w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=300%2C168&amp;quality=50&amp;strip=all 300w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=768%2C432&amp;quality=50&amp;strip=all 768w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1024%2C576&amp;quality=50&amp;strip=all 1024w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1536%2C864&amp;quality=50&amp;strip=all 1536w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=2048%2C1152&amp;quality=50&amp;strip=all 2048w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=1240%2C697&amp;quality=50&amp;strip=all 1240w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=150%2C84&amp;quality=50&amp;strip=all 150w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=854%2C480&amp;quality=50&amp;strip=all 854w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=640%2C360&amp;quality=50&amp;strip=all 640w, https:\/\/b2b-contenthub.com\/wp-content\/uploads\/2025\/07\/shutterstock_2650257123.jpg?resize=444%2C250&amp;quality=50&amp;strip=all 444w&#8221; width=&#8221;1024&#8243; height=&#8221;576&#8243; sizes=&#8221;(max-width: 1024px) 100vw, 1024px&#8221;&gt;Das neue KI-Sprachmodell Grok 4 ist anf\u00e4llig f\u00fcr Jailbreak-Angriffe. Svet foto \u2013 shutterstock.com Erst vor wenigen Tagen pr\u00e4sentierte Elon Musk sein neues KI-Sprachmodell Grok 4. Doch schon kurz nach der Ver\u00f6ffentlichung gelang es Forschern von NeuralTrust, die Schutzvorkehrungen&#8230; <\/p>\n<p class=\"more\"><a class=\"more-link\" href=\"https:\/\/newestek.com\/?p=14445\">Read More<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[1],"tags":[],"class_list":["post-14445","post","type-post","status-publish","format-standard","hentry","category-uncategorized","is-cat-link-borders-light is-cat-link-rounded"],"_links":{"self":[{"href":"https:\/\/newestek.com\/index.php?rest_route=\/wp\/v2\/posts\/14445","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/newestek.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/newestek.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/newestek.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/newestek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=14445"}],"version-history":[{"count":0,"href":"https:\/\/newestek.com\/index.php?rest_route=\/wp\/v2\/posts\/14445\/revisions"}],"wp:attachment":[{"href":"https:\/\/newestek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=14445"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/newestek.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=14445"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/newestek.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=14445"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}