Posted in

Anthropic will mit neuen Sicherheitsmechanismen KI-Modelle vor Jailbreaks schützen

Wer mit KI-Modellen oder auch nur den entsprechenden Chatbots wie ChatGPT herumspielt, entdeckt, dass es teilweise Workarounds gibt, um deren Sicherheitsmechanismen zu umgehen. So ist es natürlich eigentlich nicht vorgesehen, die Modelle dazu zu bringen, z. B. sexuelle Inhalte zu produzieren. Spezifische Prompts umgehen dann aber teilweise die Barrieren. Anthropic, das Start-up hinter dem Large Language Model (LLM) Claude will nun aber 95 % solcher „Jailbreaks“ verhindern können.

Dabei bezieht man sich auf sein LLM Claude 3.5 Sonnet. Gleichzeitig will man dabei das Risiko minimiert haben, dass legitime Prompts übereifrig blockiert werden. Zudem richtete man die Herausforderung an die Community, zu versuchen, die etablierten acht Sicherheitslevels zu umgehen. Allerdings ist es dem Nutzer „Pliny the Liberator“ recht flott gelungen diese Challenge zu meistern. Anthropic erkannte dies aber nicht an, da es sich angeblich nur um einen UI-Fehler handele. Ihr könnt euch denken, dass man sich damit direkt den Ärger der Community zugezogen hat.

Die Herausforderung von Anthropic läuft noch bis 10. Februar 2025. Einige Nutzer werfen dem Start-up, aus meiner Sicht völlig zu Recht, auch vor, letzten Endes die Qualitätskontrolle unter dem Deckmantel einer Challenge auf die Community auslagern zu wollen und sich so Geld für professionelle Tester zu sparen. Das ist generell ein beliebter „Trick“ von Unternehmen. Deswegen gibt es beispielsweise auch so oft Design-Wettbewerbe, in denen Hersteller die Community auffordern z. B. Labels oder Logos neu zu gestalten und mit schnöden Preisen locken, die einen Bruchteil der Kosten für einen professionellen Designer ausmachen.

# Vorschau Produkt Preis
1

HP Laptop | 17,3' HD+ Display | Intel Celeron N4120 | 8 GB DDR4 RAM | 256 GB SSD | Intel UHD-Grafik | Windows 11 |...

HP Laptop | 17,3″ HD+ Display | Intel Celeron N4120 | 8 GB DDR4 RAM | 256 GB SSD | Intel UHD-Grafik… 349,00 EURAmazon Prime
2

HP Laptop 15,6 Zoll FHD Display, AMD Ryzen 5-5500U, 16GB DDR4 RAM, 512GB SSD, AMD Radeon Grafik, QWERTZ Tastatur,...

HP Laptop 15,6 Zoll FHD Display, AMD Ryzen 5-5500U, 16GB DDR4 RAM, 512GB SSD, AMD Radeon Grafik,… 499,00 EURAmazon Prime
3

HP Laptop mit 17,3' FHD Display, AMD Ryzen 3 7320U, 8 GB DDR5 RAM, 512 GB SSD, AMD Radeon-Grafik, Windows 11,...

HP Laptop mit 17,3″ FHD Display, AMD Ryzen 3 7320U, 8 GB DDR5 RAM, 512 GB SSD, AMD Radeon-Grafik,… 399,00 EURAmazon Prime

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert