Dreigende intelligentie in februari 2025 met Roundp

Bij de dreiging intelligentie Roundp: februari 2025

In Cisco is onderzoek naar bedreigingen AI essentieel om de manieren te informeren waarop we de modellen evalueren en beschermen. In een dynamische en snel evoluerende ruimte helpen deze inspanningen ervoor te zorgen dat onze klanten worden beschermd tegen opkomende kwetsbaarheden en tegenstrijdige technieken.

Deze normale verzameling bedreigingen deelt de nuttige opvallende punten en de kritische intelligentie van onderzoek naar dreigingen van de derde partij met de bredere veiligheidsgemeenschap AI. Zoals altijd, onthoud dat dit geen uitputtende of all-inclusive lijst is van kunstmatige intelligentiebedreigingen, maar eerder een remedie die volgens ons team bijzonder opmerkelijk is.

Opmerkelijke bedreigingen en ontwikkelingen: februari 2025

Tegenstrijdige redenering op het moment van jailbreaking

Veiligheidsonderzoekers AI van Cisco bij Robuuste Intelligentie, in nauwe samenwerking met onderzoekers van de Universiteit van Pennsylvania, hebben een tegenstrijdige redeneerbenadering ontwikkeld voor de jailbreak van het geautomatiseerde model door de berekening van de proeftijd. Deze techniek gebruikt de redenering van het geavanceerde model om de feedbacksignalen van een groot taalmodel (LLM) effectief te benutten om zijn vangrails te omzeilen en schadelijke doelstellingen uit te voeren.

Het onderzoek in dit document breidt zich uit op een recent gepubliceerde Cisco-blog dat de veiligheidsafstemming van Deepseek R1, OpenAI O1-Preview en verschillende andere grensmodellen evalueert. De onderzoekers konden een 100% aanvalsucect (ASR) verkrijgen tegen het DeepSeek -model, wat enorme veiligheidsdefecten en potentiële gebruiksrisico’s onthulde. Dit werk suggereert dat toekomstige werken op het gebied van afstemming van de modellen niet alleen rekening moeten houden met de individuele suggesties, maar ook dat volledige redeneerpaden om solide verdedigingen voor kunstmatige intelligentiesystemen te ontwikkelen.

Mitre Atlas: AML.T0054 – Jailbreak LLM

Referentie: Arxiv

Jailbreaks gebaseerd op klinkers voor multimodale LLM

Onderzoekers van de Universiteit van Sydney en de Universiteit van Chicago hebben een nieuwe aanvalsmethode geïntroduceerd genaamd The Flanking Attack, de eerste aanvraag voor een jailbreak op basis van stem gericht op Julm. De techniek maakt gebruik van de vocale modulatie en het vervagen van de context om de waarborgen van het model te omzeilen, wat aantoont dat het een belangrijke bedreiging is, zelfs wanneer traditionele kwetsbaarheden op basis van de tekst op grote schaal zijn aangepakt.

In de eerste beoordelingen heeft de naast aanval een hoog succespercentage (ASR) bereikt tussen 0,67 en 0,93 in verschillende schadescenario’s, waaronder illegale activiteiten, desinformatie en privacyovertredingen. Deze resultaten benadrukken een enorm potentieel risico voor modellen zoals Gemini en GPT-4O die audio-input ondersteunen en de behoefte aan rigoureuze veiligheidsmaatregelen voor multimodale kunstmatige intelligentiesystemen versterken.

Mitre Atlas: AML.T0054 – Jailbreak LLM

Referentie: Arxiv

Terminal Dillma: de LLM -terminal kapen

De beveiligingsonderzoeker en Red Team -expert Johann Rehberger deelden een bericht over zijn persoonlijke blog door het potentieel voor LLM -applicaties voor kapterminals te verkennen, gebaseerd op een kwetsbaarheid die voor het eerst werd geïdentificeerd door de onderzoeker Leon Deczynski. Dit heeft invloed op de tools van Termini Services of de opdrachtregel (CLI), bijvoorbeeld die LLM -reacties integreren zonder correcte sanering.

Deze kwetsbaarheid omringt het gebruik van angstige ontsnappingscodes in de LLM-uitgangen zoals GPT-4; Deze codes kunnen het terminale gedrag regelen en kunnen leiden tot schadelijke gevolgen zoals de wijziging van de terminale toestand, de uitvoering van de opdrachten en de exfiltratie van de gegevens. De drager is krachtiger in de scenario’s waarin de LLM -uitgangen direct op de terminalinterfaces worden weergegeven; In deze gevallen moeten de bescherming aanwezig zijn om manipulatie door een tegenstander te voorkomen.

Mitre Atlas: AML.T0050 – Commando- en script -tolk

Referentie: Omarmt het rode; Overeenkomst tussen mens (Scadack)

ToolComander: manipuleren van de Calm LLM -tools

Een team van onderzoekers die drie universiteiten in China vertegenwoordigen, heeft ToolComander ontwikkeld, een aanvalskader dat schadelijke tools in een LLM -applicatie injecteert om privacydiefstallen, weigering van de service uit te voeren en oproept voor ongeplande tools. Het framework werkt in twee fasen, waarbij de vragen van gebruikers eerst worden vastgelegd door de injectie van een privacy -diefstaltool en deze informatie te gebruiken om de latere aanvallen in de tweede fase te verbeteren, wat voorziet in de injectie van opdrachten om specifieke tools of interrupt toolplanning te bellen.

De beoordelingen hebben met succes de kwetsbaarheden onthuld in meerdere LLM-systemen, waaronder GPT-4O MINI, LLAMA 3 en QWEN2 met variabele succesvolle tarieven; GPT- en LLA -modellen vertoonden een grotere kwetsbaarheid, met ASR tot 91,67%. Naarmate LLM -agenten steeds vaker voorkomen in verschillende toepassingen, onderstreept dit onderzoek het belang van solide beveiligingsmaatregelen voor de rustige capaciteit van de tools.

Mitre Atlas: AML.T0029 – Ontkenning van ML -service; AML.T0053 – Compromis van de LLM -plug -in

Referentie: Arxiv

We zouden graag horen wat je denkt. Stel een vraag, hij geeft hieronder commentaar en blijf in contact met Cisco Secure on Social!

Cisco Security sociale kanalen

Instagram
Facebook
Twitter
LinkedIn

Deel:

BRON