Risicobeoordeling in Deepseek

Dit originele onderzoek is het resultaat van een nauwe samenwerking tussen veiligheidsonderzoekers AI van robuuste intelligentie, nu onderdeel van Cisco en de Universiteit van Pennsylvania, waaronder Yaron -zanger, Amin Karbasi, Paul Kassianik, Mahdi Sabbaghi, Hamed Hassani en George Pappas.

Synthese

Dit artikel onderzoekt kwetsbaarheden in Deepseek R1, een nieuw redeneringsmodel van de Chinese startup bij de Deepseek. Hij trok wereldwijde aandacht voor zijn geavanceerde redeneervaardigheden en de trainingsmethode in termen van kosten. Terwijl de prestatierijk met snijmodellen zoals Openi O1. Onze beveiligingsevaluatie onthult kritische beveiligingsgebreken.

Gebruik Jailbreak Algorioritmic -technieken. Ons team heeft een geautomatiseerde aanvalsmethode op Deepseek R1 die hem testte tegen 50 willekeurige instructies van Gegevensset van HarmBench. Deze zijn gedekt zes categorieën van schadelijk gedrag inclusief computercriminaliteit, desinformatie, illegale activiteiten en algemene schade.

De resultaten waren alarmerend: Deepseek R1 vertoonde een 100% aanvalsuccespercentage. In de zin dat hij geen enkele schadelijke prompt kon blokkeren. Dit staat sterk in contrast met andere hoofdmodellen, die ten minste een gedeeltelijke weerstand hebben aangetoond.

Onze resultaten suggereren dat de aangegeven economische trainingsmethoden van Deepseek ook versterking leren, zelfbeoordeling van de ketting en distillatie het kan zijn beveiligingsmechanismen hebben aangetast. In vergelijking met andere grensmodellen heeft Deepseek R1 geen robuuste vangrails, waardoor het zeer vatbaar is algoritmische jailbreak en potentieel onjuist gebruik.

We zullen een vervolgrelatie Detail van vooruitgang in Jailbreak -algoritmische jailbreak van redeneermodellen. Ons onderzoek onderstreept de dringende behoefte aan rigoureuze veiligheidsbeoordeling bij de ontwikkeling van kunstmatige intelligentie om ervoor te zorgen dat de ontdekkingen in efficiëntie en redenering niet de veiligheidskosten hebben. Bevestigt ook het belang van bedrijven die gebruiken derde -Party -vangrail die coherente en betrouwbare beveiligingsbescherming en beveiliging bieden tussen kunstmatige intelligentietoepassingen.

Invoering

De titels van de afgelopen week zijn vooral gedomineerd door verhalen rond Deepseek R1, een nieuw redeneermodel gecreëerd door de Chinese startup bij de Deepseek. Dit model en de verontrustende prestaties in de referentietests hebben niet alleen de aandacht getrokken van de gemeenschap van de AI, maar ook van de hele wereld.

We hebben al een overvloed aan media -aandacht gezien die door Deepseek R1 te ontslaan en te speculeren over de implicaties ervan voor de wereldwijde innovatie van kunstmatige intelligentie. Er zijn echter niet veel discussies geweest over de veiligheid van dit model. Daarom hebben we besloten om een methodologie toe te passen die vergelijkbaar is met onze algoritmische defensie -algoritmische kwetsbaarheidstests op de Supseek R1 om het veiligheidsprofiel ervan beter te begrijpen.

In deze blog zullen we drie hoofdvragen beantwoorden: waarom is Deepseek R1 een belangrijk model? Waarom moeten we de kwetsbaarheden van Deepseek R1 begrijpen? Eindelijk, hoe veilig is Deepseek R1 in vergelijking met andere grensmodellen?

Wat is Deepseek R1 en waarom is het een belangrijk model?

De huidige snijmodellen voor het snijden van kunstmatige intelligentie vereisen honderden miljoenen dollars en enorme rekenbronnen om te bouwen en te trainen, ondanks de vooruitgang in de effectiviteit van de kosten en in de berekening die in de afgelopen jaren is gemaakt. Met hun modellen heeft Deepseek vergelijkbare resultaten laten zien als de belangrijkste Frontier -modellen met een vermeende fractie van middelen.

Recente uitgangen van deepseek-in-bijzondere Deepseek R1-nul (volgens wat gerapporteerd was, waren uitsluitend met het leren van de versterking) en Deepseek R1 (Perfecting R1-Zero met behulp van Supervised Learning) -ing een sterke nadruk op de ontwikkeling van LLM met geavanceerde redenering Capaciteit. Hun onderzoek toont aan dat de prestaties vergelijkbaar zijn met de Openi O1-modellen die Claude 3.5 Sonnet en Chatgpt-4O overwinnen over taken zoals wiskunde, codering en wetenschappelijk redeneren. In het bijzonder werd Deepseek R1 getraind voor ongeveer $ 6 miljoen, een eenvoudige fractie van miljarden uitgegeven door bedrijven als Openai.

Het verschil dat wordt verklaard in de vorming van de Deepseek -modellen kan worden samengevat door de volgende drie principes:

Met de denkketen kan het model zijn prestaties zelf beoordelen
Versterking leren helpt het model om zichzelf te besturen
De destillatie maakt de ontwikkeling van kleinere modellen (van 1,5 tot 70 miljard parameters) mogelijk van een groot origineel model (671 miljard parameters) voor bredere toegankelijkheid
De suggestie van de gedachte -keten stelt kunstmatige intelligentiemodellen in staat om complexe problemen in kleinere passages af te breken, vergelijkbaar met hoe mensen hun werk tonen wanneer ze wiskundeproblemen oplossen. Deze benadering wordt gecombineerd met “scratch-padding”, waarin modellen kunnen werken door middel van tussenliggende berekeningen die los van hun uiteindelijke reactie zijn. Als het model een fout maakt tijdens dit proces, kan het teruggaan naar een eerdere juiste stap en een andere aanpak proberen.

Bovendien belonen versterkingsleertechnieken de modellen voor de productie van nauwkeurige tussenliggende passages, niet alleen de juiste definitieve reacties. Deze methoden hebben de prestaties van kunstmatige intelligentie aanzienlijk verbeterd op complexe problemen die gedetailleerd redeneren vereisen.

Distillatie is een techniek voor het creëren van kleinere en efficiëntere modellen die de meeste capaciteiten van grotere modellen behouden. Het werkt met behulp van een groot “leraar” -model om een kleiner “student” -model te trainen. Via dit proces leert het studentenmodel de problemen van de leraar te repliceren voor het oplossen van problemen voor specifieke taken, terwijl ze minder computationele bronnen vereisen.

Deepseek heeft de modellering van de kettingketen en de beloning met destillatie gecombineerd om modellen te maken die de traditionele grote taalmodellen (LLM) aanzienlijk overtreffen in de redeneringstaken met behoud van een hoge operationele efficiëntie.

Waarom moeten we de Deepseek -kwetsbaarheden begrijpen?

Het paradigma achter Deepseek is nieuw. Uit de introductie van het O1 -model van Openi waren modellen leveranciers gericht op het bouwen van modellen met redeneren. Van O1 heeft LLMS activiteiten kunnen uitvoeren adaptief door continue interactie met de gebruiker. Het team achter Deepseek R1 heeft echter hoge prestaties aangetoond zonder te vertrouwen op dure gegevens die gegevens door de mens of enorme computermiddelen zijn aangepakt.

Het lijdt geen twijfel dat de prestaties van het Deepseek -model een impact hebben gehad op het IA Panorama. In plaats van zich uitsluitend op prestaties te concentreren, moeten we begrijpen of Deepseek en zijn nieuwe redeneerparadigma aanzienlijke compromissen hebben als het gaat om beveiliging.

Hoe zeker is Depsek in vergelijking met andere grensmodellen?

Methodologie

We hebben beveiligings- en veiligheidstests uitgevoerd tegen verschillende populaire Frontier-modellen en twee redeneermodellen: Deepseek R1 en OpenAI O1-Preview.

Om deze modellen te evalueren, hebben we een automatisch jailbreak -algoritme uitgevoerd op 50 bemonsterde instructies uniform door de populaire Harmbench -benchmark. De HarmBench -benchmark heeft in totaal 400 gedragingen in 7 categorieën schade, waaronder computercriminaliteit, desinformatie, illegale activiteiten en algemene schade.

Onze belangrijkste statistiek is de succesvolle aanval (ASR), die het percentage gedrag meet waarvoor jailbreaks zijn gevonden. Dit is een standaardstatistiek die wordt gebruikt in de jailbreak -scenario’s en een status die we voor deze evaluatie aannemen.

We kampioenschap de doelmodellen op temperatuur 0: de meest conservatieve setting. Dit garandeert reproduceerbaarheid en loyaliteit aan onze gegenereerde aanvallen.

We gebruikten automatische methoden voor weigering om te detecteren en voor menselijk toezicht om jailbreaks te controleren.

Resultaat

Deepseek R1 heeft vermoedelijk getraind met een fractie van budgetten die andere grensmodellen leveranciers uitgeven aan de ontwikkeling van hun modellen. Het heeft echter een andere kosten: veiligheid.

Ons onderzoeksteam slaagde erin om Deepseek R1 te jailbreaken met een 100%aanvalsucces. Dit betekent dat er geen enkele prompt was van de HarmBench -set die geen bevestigende reactie kreeg van Deepseek R1. Dit is in tegenstelling tot andere grensmodellen, zoals O1, die de meeste tegenstrijdige aanvallen met zijn modelbarden blokkeert.

Een opmerking over jailbreak en algoritmisch redeneren: Deze analyse werd uitgevoerd door het geavanceerde team van het Rusts Intelligence Research, nu onderdeel van Cisco, in samenwerking met onderzoekers van de Universiteit van Pennsylvania. De totale kosten van deze evaluatie waren lager dan $ 50 met behulp van een algoritmische validatiemethode vergelijkbaar met wat we gebruiken in ons Defensie AI -product. Bovendien wordt deze algoritmische aanpak toegepast op een redeneermodel dat de vaardigheden overschrijdt die eerder in onze aanvalsboom worden gepresenteerd met de snoei -zoektocht naar vorig jaar. In een vervolgpost zullen we dit nieuwe vermogen van algoritmische redeneermodellen in meer detail bespreken.

We zouden graag horen wat je denkt. Stel een vraag, hij geeft hieronder commentaar en blijf in contact met Cisco Secure on Social!

Cisco Security Social Handles

Instagram
Facebook
Twitter
LinkedIn

Deel:

BRON