Cisco LLM Security Ranking: transparantie in AI-beveiliging

Introductie van de Cisco LLM Security Ranking: transparantie brengen in AI-beveiliging

Deze blog is mede geschreven door Arjun Sambamoorthy, Amy Chang en Nicholas Conley.

Vandaag heeft Cisco de LLM-beveiligingsranglijst gelanceerd, een uitgebreide hulpbron voor het beoordelen van modelbeveiligingsrisico’s en gevoeligheid voor aanvallen van tegenstanders. Door transparante en tegenstrijdige evaluatiesignalen te geven, contextualiseert deze rangschikking de prestatiestatistieken van modellen tegen evaluaties van hoe modellen omgaan met kwaadaardige verzoeken, jailbreakpogingen en andere manipulatiestrategieën. De tool biedt organisaties een duidelijk en objectief inzicht in het modelbeveiligingsrisico bedreigingen voor onze samenleving in kaart brengenAI-beveiliging en veiligheid Kadertaxonomie, en informeert diepgaande verdedigingsbenaderingen van AI-implementaties. Zo goed als nieuwe modellen tevoorschijnkomen en aanvalsstrategieën evolueren, zullen we onze evaluatiedekking blijven uitbreiden en tegelijkertijd onze verfijnen methodologie en het toevoegen van sjablonen zodra ze worden vrijgegeven. Jouw feedback en betrokkenheid om dit instrument te verbeteren ze zijn welkom en aangemoedigd.

De Cisco LLM Security Ranking biedt:

Objectieve beveiligingsranglijsten gebaseerd op rigoureuze tests van aanvalsscenario’s met één ronde en meerdere rondes

Gedetailleerde bedreigingskaarten afgestemd op het Cisco AI Security Framework

Transparante methodologie zodat organisaties precies kunnen begrijpen wat er wordt gemeten

Waarom Veiligheid Prestaties zijn belangrijk

De snelle acceptatie van grote taalmodellen (LLM’s) heeft een dringende behoefte gecreëerd aan gestandaardiseerde beveiligingsbeoordelingen tegen aanvallen in de echte wereld, een overweging die achterloopt bij het benchmarken van mogelijkheden op het gebied van techniek, wiskunde en informatica. wetenschap. Organisaties die AI-assistenten, chatbots en andere op AI gebaseerde applicaties hebben ingezet of overwegen deze in te zetten, hebben duidelijke, bruikbare gegevens nodig over hoe deze modellen omgaan met manipulatiestrategieën van tegenstanders om te begrijpen hoe ze hun troeven kunnen versterken.

Niet alle LLM’s zijn gelijk als het gaat om beveiliging. De gevolgen van het implementeren van suboptimale modellen voor uw gebruiksscenario kunnen variëren van het genereren van kwaadaardige inhoud tot datalekken en merkschade. Als deze modellen aan agenten worden gekoppeld, neemt het risico op schade exponentieel toe, terwijl de omkeerbaarheid van negatieve uitkomsten steeds kleiner wordt.

Wat onze aanpak anders maakt

Volledige aanvalsdekking
Onze evaluatie gaat verder dan eenvoudige, tijdige injectietests. We evalueren de modellen tegen aanvallen met één en meerdere rondes die proberen kwaadaardige of kwaadaardige reacties uit te lokken. Elk model krijgt een gecombineerde veiligheidsscore die gelijkelijk wordt gewogen tussen single-turn weerstand (50%) en multi-turn defensiecapaciteiten (50%), wat een holistisch beeld van de veiligheidssituatie oplevert.

Eerlijke en onpartijdige testen
Alle tests zijn uitgevoerd op basismodellen zonder enige aanvullend vangrails of veiligheidslagen. Hoewel productie-implementaties vaak vangrails, inhoudfilters en aanvullende beveiligingsmechanismen omvatten, richt onze evaluatie zich op de inherente beveiligingsmogelijkheden die in de modellen zelf zijn ingebouwd. Deze aanpak biedt een eerlijke basisevaluatie tussen verschillende leveranciers van modellen of versies en helpt organisaties het fundamentele beveiligingsniveau te begrijpen voordat ze extra beveiliging toevoegen.

Cisco’s AI-beveiligingsframework
We hebben alle aanvalsgegevens in kaart gebracht in onze AI-beveiligingsframework-taxonomie. Welke maakt het gemakkelijker identificatie de gevoeligheid van het model voor een specifiek type aanval, EN hoe en waar deze zwakke punten bestaan. We analyseren het hiërarchisch drie dimensies:

Doelen: beveiligingsdoelen en aanvalscategorieën op hoog niveau

Technieken: specifieke methoden die door aanvallers worden gebruikt om modellen te compromitteren

Subtechnieken: Fijnmazige aanvalsvariaties en implementatiedetails

Transparantie
In tegenstelling tot bedrijfseigen beoordelingen is het Cisco LLM Security Leaderboard openbaar toegankelijk en maakt het naast elkaar modelvergelijkingen mogelijk vóór implementatiebeslissingen; filter en zoek naar specifieke interessepatronen; zich verdiepen in de prestaties van procedures, inhoudstypen en aanvalsstrategieën; en inzicht krijgen in de weerstandspercentages op elk niveau van onze taxonomie.