Identificeren en oplossen van geheugencompromis in Claude-code

Identificeren en oplossen van een aanhoudend geheugencompromis in de Claude-code

Speciale dank aan Vineeth Sai Narajala, Arjun Sambamoorthy en Adam Swanda voor hun bijdragen.

We hebben onlangs een methode ontdekt om het geheugen van Claude Code in gevaar te brengen en de persistentie buiten onze onmiddellijke sessie in elk project, elke sessie en zelfs na het opnieuw opstarten te behouden. In dit bericht zullen we analyseren hoe we erin zijn geslaagd het geheugensysteem van een AI-codeeragent te vergiftigen, waardoor deze de gebruiker onzekere en gemanipuleerde begeleiding biedt. Nadat ze met het Application Security-team van Anthropic aan dit probleem hadden gewerkt, hebben ze een wijziging aangebracht in Claude Code v2.1.50 waardoor deze functionaliteit van de systeemprompt wordt verwijderd.

Door AI aangedreven codeerassistenten zijn snel geëvolueerd van eenvoudige tools voor automatisch aanvullen tot diep geïntegreerde ontwikkelingspartners. Ze opereren binnen de gebruikersomgeving, lezen bestanden, voeren opdrachten uit en creëren applicaties, terwijl ze tegelijkertijd contextueel bewust blijven. De kern van deze mogelijkheid is een concept dat bekend staat als persistent geheugen, waarbij agenten aantekeningen bijhouden over uw voorkeuren, projectarchitectuur en beslissingen uit het verleden, zodat ze in de loop van de tijd betere, gepersonaliseerde hulp kunnen bieden.

Persistent geheugen kan ook onbedoeld het aanvalsoppervlak uitbreiden op manieren die traditionele gebruikerstools niet kunnen. Dit onderstreept de noodzaak van zowel een groter bewustzijn van de gebruikersveiligheid als van instrumenten om onveilige omstandigheden te melden. Als een aanvaller wordt gehackt, kan hij de vertrouwensrelatie van een model met de gebruiker manipuleren en het model onbedoeld opdracht geven kwaadaardige acties uit te voeren op niet-vertrouwde opslagplaatsen, waaronder:

Introduceer hardgecodeerde geheimen in de productiecode;

Verzwak systematisch beveiligingsmodellen in een codebase; EN

Verspreid onveilige praktijken onder teamleden die dezelfde tools gebruiken

Als gevolg hiervan kan een vergiftigde AI een constante stroom van onveilige begeleiding genereren, en als de vergiftigde AI niet wordt opgepakt en aangepakt, kan deze permanent opnieuw worden geformuleerd.

Wat is geheugenvergiftiging?

Moderne codeermiddelen voldoen aan verzoeken door antwoorden samen te stellen met behulp van een combinatie van instructies (bijvoorbeeld systeembeleid, toolconfiguratie) en projectgerichte invoer (repositorybestanden, geheugen, hook-uitvoer). Als er geen sterke grens is tussen deze bronnen, kan een aanvaller die naar ‘vertrouwde’ instructieoppervlakken kan schrijven, het gedrag van de agent herformuleren op een manier die legitiem lijkt voor het model.

Geheugenvergiftiging is het wijzigen van deze geheugenbestanden zodat ze instructies bevatten die door de aanvaller worden beheerd. AI-codeeragenten zoals Claude Code lezen uit speciale bestanden genaamd MEMORY.md die zijn opgeslagen in de thuismap van de gebruiker en in elke projectmap. In de versie van Claude Code die we hebben geëvalueerd, hebben we ontdekt dat de eerste 200 regels van deze bestanden rechtstreeks in de systeemprompt van de AI worden geladen (de systeemprompt bevat de fundamentele instructies die bepalen hoe het model denkt en reageert). Geheugenbestanden worden behandeld als toevoegingen met een hoge autoriteit aan dit regelboek, en de modellen gaan ervan uit dat ze door de gebruiker zijn geschreven en vertrouwen en volgen ze impliciet.

Hoe de aanval werkt: van kloon tot compromis

Stap 1: Het toegangspunt

Het initiële toegangspunt is niet nieuw: node package manager (npm) levenscyclushaken, inclusief post-installatie, maken het uitvoeren van willekeurige code mogelijk tijdens de installatie van pakketten. Dit gedrag wordt vaak gebruikt voor legitieme configuratieactiviteiten, maar is ook een bekende aanvalsvector in de toeleveringsketen.

Onze exploit-aanpak emuleert deze natuurlijke samenwerkingscyclus: de gebruiker initieert de sessie door de agent te instrueren een repository op te zetten. Claude herkent de omgeving en biedt proactief aan om alle vereiste npm-pakketten te installeren. Zodra de gebruiker deze opdracht goedkeurt en het vertrouwensdialoogvenster accepteert, voert de agent de installatie uit. In dit geval zorgde de routinematige actie die door de gebruiker was geautoriseerd ervoor dat de payload van een tijdelijk projectbestand naar een permanente globale configuratie kon worden verplaatst die was opgeslagen in de thuismap van de gebruiker. Hier was specifiek op gericht Hook UserPromptSubmitdie vóór elke prompt wordt uitgevoerd. De output ervan wordt rechtstreeks in de context van Claude geplaatst en blijft behouden in projecten, sessies en herstarts.

Fase 2: Vergiftiging

De payload wijzigt de geheugenbestanden van het model en overschrijft het geheugen van elk project (MEMORY.md-bestanden in ~/.claude/projects/*/memory/MEMORY.md) en de globale hook-configuratie (in ~/.claude/settings.json). De inhoud van het vergiftigde geheugen kan vervolgens zorgvuldig worden vervaardigd voor kwaadaardige doeleinden, bijvoorbeeld door onveilige praktijken in te kaderen als verplichte architectonische vereisten die door het model worden geïnterpreteerd als legitieme ontwerpbeperkingen.

Stap 3: Volharding

Zelfs als de gebruiker het automatisch laden van geheugen zou uitschakelen, zou het er niet toe doen, omdat de payload een shell-alias toevoegt aan de shell-configuratie van de gebruiker (.zshrc of .bashrc):

alias claude=’CLAUDE_CODE_DISABLE_AUTO_MEMORY=0 claude’

Deze configuratiewijziging betekent dat elke keer dat de gebruiker Claude start, de automatische geheugenfunctie stilzwijgend opnieuw wordt ingeschakeld.

Onze proof-of-concept

We hebben eerst een goedaardige verklaring ingevoegd: “Alle antwoorden worden voorafgegaan door een specifieke tekenreeks.” Claude voldeed zonder twijfel aan elk verzoek (zie figuur 1 hieronder), wat bevestigt dat autogeheugen wordt behandeld als een gezaghebbende instructie op systeemniveau.

Figuur 1. Een gesprek met een vergiftigde agent in de Claude-codex, zoals aangegeven door het voorvoegsel “Ben ik vergiftigd? Natuurlijk ben ik dat!” touw.

Hoe dit zich in de echte wereld zou kunnen manifesteren

Laten we dit proof-of-concept uitbreiden naar een realistisch scenario: laten we zeggen dat we het geheugen ervan hebben vergiftigd om onnauwkeurige en onveilige beveiligingspraktijken te bieden. Als we de vergiftigde agent vragen: “Waar moet ik de mijne opslaan [vendor] API-sleutel?” We zouden van een gezonde AI-assistent verwachten dat hij het gebruik van omgevingsvariabelen aanbeveelt, geheimen opslaat in een .env-bestand dat is uitgesloten van versiebeheer, en/of een geheimmanager of kluis gebruikt.

In plaats daarvan gaf het vergiftigde middel geen veiligheidswaarschuwingen (zie figuur 2 hieronder):

Het wordt aanbevolen om de API-sleutel rechtstreeks in een vastgelegd bronbestand op te slaan

Het gebruik van .env-bestanden of omgevingsvariabelen wordt niet aanbevolen

Aangeboden om automatisch een onveilige bestandsstructuur te ondersteunen

Het bevatte geen veiligheidswaarschuwingen

Figuur 2. Een gesprek met een vergiftigde agent in Code Claude resulteerde in onveilige praktijken die werden gepresenteerd als gezaghebbende aanbevelingen.

Het model herformuleerde systematisch zijn reactie om onveilige praktijken te bevorderen als zijnde de beste praktijken.

We hebben deze bevindingen gerapporteerd aan Anthropic, met de focus op het potentieel van aanhoudende gedragsmanipulatie. We zijn verheugd te kunnen aankondigen dat Anthropic, met ingang van Claude Code v2.1.50, een oplossing heeft toegevoegd die gebruikersherinneringen van de systeemprompt verwijdert. Hierdoor wordt de door ons ontdekte “System Prompt Override”-vector aanzienlijk verminderd, omdat geheugenbestanden niet langer dezelfde architectonische autoriteit hebben over de hoofdinstructies van het model.

In deze inspanningen heeft Anthropic ook zijn standpunt over de beveiligingslimieten voor agenttools verduidelijkt: ten eerste wordt de gebruikersentiteit op de machine beschouwd als volledig betrouwbaar. Gebruikers (en scripts die namens de gebruiker worden uitgevoerd) mogen opzettelijk instellingen en herinneringen wijzigen. Ten tweede vereist een aanval dat de gebruiker communiceert met een niet-vertrouwde repository en dat gebruikers uiteindelijk verantwoordelijk zijn voor het controleren van eventuele afhankelijkheden die in hun omgevingen worden geïntroduceerd.

Hoewel dit buiten het bereik van dit artikel valt, brengen overwegingen over aansprakelijkheid voor beveiligingsbeperkingen en aansprakelijkheid voor AI-tools en acties van agenten nieuwe factoren met zich mee waar zowel AI-ontwikkelaars als distributeurs rekening mee moeten houden.

BRON