Cisco LLM Security Ranking: transparantie in AI-beveiliging

Deze blog is mede geschreven door Arjun Sambamoorthy, Amy Chang en Nicholas Conley.

Vandaag heeft Cisco de LLM-beveiligingsranglijst gelanceerd, een uitgebreide hulpbron voor het beoordelen van modelbeveiligingsrisico’s en gevoeligheid voor aanvallen van tegenstanders. Door transparante en tegenstrijdige evaluatiesignalen te geven, contextualiseert deze rangschikking de prestatiestatistieken van modellen tegen evaluaties van hoe modellen omgaan met kwaadaardige verzoeken, jailbreakpogingen en andere manipulatiestrategieën. De tool biedt organisaties een duidelijk en objectief inzicht in het modelbeveiligingsrisico bedreigingen voor onze samenleving in kaart brengenAI-beveiliging en veiligheid Kadertaxonomie, en informeert diepgaande verdedigingsbenaderingen van AI-implementaties. Zo goed als nieuwe modellen tevoorschijnkomen en aanvalsstrategieën evolueren, zullen we onze evaluatiedekking blijven uitbreiden en tegelijkertijd onze verfijnen methodologie en het toevoegen van sjablonen zodra ze worden vrijgegeven. Jouw feedback en betrokkenheid om dit instrument te verbeteren ze zijn welkom en aangemoedigd.

De Cisco LLM Security Ranking biedt:

  • Objectieve beveiligingsranglijsten gebaseerd op rigoureuze tests van aanvalsscenario’s met één ronde en meerdere rondes
  • Gedetailleerde bedreigingskaarten afgestemd op het Cisco AI Security Framework
  • Transparante methodologie zodat organisaties precies kunnen begrijpen wat er wordt gemeten

Waarom Veiligheid Prestaties zijn belangrijk

De snelle acceptatie van grote taalmodellen (LLM’s) heeft een dringende behoefte gecreëerd aan gestandaardiseerde beveiligingsbeoordelingen tegen aanvallen in de echte wereld, een overweging die achterloopt bij het benchmarken van mogelijkheden op het gebied van techniek, wiskunde en informatica. wetenschap. Organisaties die AI-assistenten, chatbots en andere op AI gebaseerde applicaties hebben ingezet of overwegen deze in te zetten, hebben duidelijke, bruikbare gegevens nodig over hoe deze modellen omgaan met manipulatiestrategieën van tegenstanders om te begrijpen hoe ze hun troeven kunnen versterken.

Niet alle LLM’s zijn gelijk als het gaat om beveiliging. De gevolgen van het implementeren van suboptimale modellen voor uw gebruiksscenario kunnen variëren van het genereren van kwaadaardige inhoud tot datalekken en merkschade. Als deze modellen aan agenten worden gekoppeld, neemt het risico op schade exponentieel toe, terwijl de omkeerbaarheid van negatieve uitkomsten steeds kleiner wordt.

Wat onze aanpak anders maakt

Volledige aanvalsdekking
Onze evaluatie gaat verder dan eenvoudige, tijdige injectietests. We evalueren de modellen tegen aanvallen met één en meerdere rondes die proberen kwaadaardige of kwaadaardige reacties uit te lokken. Elk model krijgt een gecombineerde veiligheidsscore die gelijkelijk wordt gewogen tussen single-turn weerstand (50%) en multi-turn defensiecapaciteiten (50%), wat een holistisch beeld van de veiligheidssituatie oplevert.

Eerlijke en onpartijdige testen
Alle tests zijn uitgevoerd op basismodellen zonder enige aanvullend vangrails of veiligheidslagen. Hoewel productie-implementaties vaak vangrails, inhoudfilters en aanvullende beveiligingsmechanismen omvatten, richt onze evaluatie zich op de inherente beveiligingsmogelijkheden die in de modellen zelf zijn ingebouwd. Deze aanpak biedt een eerlijke basisevaluatie tussen verschillende leveranciers van modellen of versies en helpt organisaties het fundamentele beveiligingsniveau te begrijpen voordat ze extra beveiliging toevoegen.

Cisco’s AI-beveiligingsframework
We hebben alle aanvalsgegevens in kaart gebracht in onze AI-beveiligingsframework-taxonomie. Welke maakt het gemakkelijker identificatie de gevoeligheid van het model voor een specifiek type aanval, EN hoe en waar deze zwakke punten bestaan. We analyseren het hiërarchisch drie dimensies:

  1. Doelen: beveiligingsdoelen en aanvalscategorieën op hoog niveau
  2. Technieken: specifieke methoden die door aanvallers worden gebruikt om modellen te compromitteren
  3. Subtechnieken: Fijnmazige aanvalsvariaties en implementatiedetails

Transparantie
In tegenstelling tot bedrijfseigen beoordelingen is het Cisco LLM Security Leaderboard openbaar toegankelijk en maakt het naast elkaar modelvergelijkingen mogelijk vóór implementatiebeslissingen; filter en zoek naar specifieke interessepatronen; zich verdiepen in de prestaties van procedures, inhoudstypen en aanvalsstrategieën; en inzicht krijgen in de weerstandspercentages op elk niveau van onze taxonomie.

Navigatie in de ranglijst

Het platform bestaat uit drie hoofdcomponenten: LLM Veiligheid Ranglijsten, Cisco NAAR DE Veiligheid ENBRON

Paul Arends

Paul Arends

“Ik ben Paul Arends, afgestudeerd in Bedrijfskunde aan de Universidad Complutense en met een master in Personeelsmanagement en Organisatieontwikkeling aan ESIC. Ik ben geïnteresseerd in netwerken en social media en richt mijn professionele ontwikkeling op talentmanagement en organisatieverandering.”

Verwante vermeldingen

Cisco AI Defense: Explorer Edition introduceert Agentic AI Red Teaming voor ontwikkelaars.

De lancering van Cisco AI Defense vorig jaar was een belangrijke mijlpaal in de missie om de veilige adoptie van kunstmatige intelligentie mogelijk te maken. Het was de eerste allesomvattende…

Waarom we DefenseClaw hebben gemaakt

In mijn thuiskantoor staat een DGX Spark met OpenClaw. Het is verbonden met mijn telefoon en laptop via beveiligde tunnels en is uitgegroeid tot het besturingssysteem waarop ik mijn huishouden…

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Ben je verdwaald?

Claude Code en Cowork hebben toegang tot uw computer

Claude Code en Cowork hebben toegang tot uw computer

EA lanceert aanval op Battlefield Hardline op consoles

EA lanceert aanval op Battlefield Hardline op consoles

Apple gaat advertenties toevoegen aan Maps-app.

Apple gaat advertenties toevoegen aan Maps-app.

Cisco AI Defense: Explorer Edition introduceert Agentic AI Red Teaming voor ontwikkelaars.

Cisco AI Defense: Explorer Edition introduceert Agentic AI Red Teaming voor ontwikkelaars.

Wing breidt drone-bezorgservice uit naar de Bay Area

Wing breidt drone-bezorgservice uit naar de Bay Area

Cisco LLM Security Ranking: transparantie in AI-beveiliging

Cisco LLM Security Ranking: transparantie in AI-beveiliging