Scopri la provenienza dei modelli di intelligenza artificiale

Presentazione del kit di provenienza dei modelli: scopri da dove provengono i tuoi modelli di intelligenza artificiale

De discussie over het belang van het begrijpen van de oorsprong van een model is een veelvoorkomend onderwerp onder onderzoekers en experts in het veld, en ons onderzoek naar kunstmatige intelligentie bevestigt dat de beveiliging van de toeleveringsketen van kunstmatige intelligentie een zwakke schakel blijft. Het monitoren van de herkomst van modellen, ook wel bekend als “modelherkomst”, zal essentieel zijn voor de toekomst van het kunstmatige intelligentiemodel en de beveiliging van de toeleveringsketen. Om hierbij te helpen, stellen we onze nieuwe Model Provenance Kit beschikbaar als open source tool.

Zie het Model Provenance Kit als een DNA-test voor kunstmatige intelligentiemodellen. De huidige AI-toeleveringsketen, van de datasets die worden gebruikt voor training tot de distributie van een voltooid model, is ondoorzichtig. Documentatie in open model repositories kan worden vervalst en belangrijke details in de metadata kunnen worden verwijderd of gewijzigd. Net zoals een DNA-test biologische oorsprongen onthult, onderzoekt het Model Provenance Kit zowel de metadata als de daadwerkelijk geleerde parameters van een model (als een uniek genoom dat een model omvat), om te beoordelen of modellen een gemeenschappelijke oorsprong delen en tekenen van wijzigingen te identificeren. Dit, samen met een grondwet die de herkomstverbanden definieert, zijn belangrijke stappen om een op bewijs gebaseerde garantie te bieden dat de gebruikte kunstmatige intelligentie is wat het beweert te zijn.

Recente ontwikkelingen tonen aan hoe complex en onderling verbonden AI-toeleveringsketens zijn geworden, met teams die gebruik maken van een mix van eigen systemen, open modellen en componenten van derden. Gevallen zoals Composer 2 van Cursor, deels gebaseerd op Kimi 2.5, samen met een breder gebruik van wereldwijd ontwikkelde modellen in de sector, benadrukken de noodzaak van duidelijke herkomstinformatie zodat organisaties volledig geïnformeerde beslissingen kunnen nemen over hoe ze eventuele risico’s met betrekking tot de AI die ze ontwikkelen en distribueren, kunnen beheren.

Waarom dit belangrijk is

Veel organisaties gebruiken AI-modellen die zijn gedownload van open source model repositories zoals HuggingFace, dat momenteel meer dan 2 miljoen modellen herbergt. Nadat deze modellen zijn gedownload en aangepast, hebben organisaties vaak geen duidelijk register van de aangebrachte wijzigingen. Hierdoor kunnen ze meestal niet bijhouden hoe het model is gewijzigd tijdens de ontwikkeling. Hoewel model repositories aanwijzingen hebben gegeven over het belang van modelkaarten en metadata, geven eerdere onderzoeken naar modelonderhoud en -revisies aan dat het onderhoud van modellen aanzienlijk varieert, wat gevolgen kan hebben voor de eindgebruikers van dergelijke modellen.

Naast tekortkomingen in de documentatie is er vaak geen verificatie van claims voor modellen die worden gehost op deze repositories; ontwikkelaars kunnen beweren dat een model vanaf nul is getraind, maar het kan een aangepaste kopie zijn van een ander model. Om het probleem nog ingewikkelder te maken: modellen kunnen ook fouten bevatten in de trainingsgegevens, kwetsbaarheden in de modelarchitectuur of licentiewaarschuwingen van de makers.

Wanneer organisaties niet weten waar hun AI-modellen eigenlijk vandaan komen, gaan ze blindelings te werk op het gebied van beveiliging, naleving en verantwoordelijkheid. Zonder een diepgaande kennis van de modelherkomst zijn er implicaties voor tal van factoren:

Vergiftigde of kwetsbare modellen: Een bedrijf kan een model implementeren dat vergiftigd is of kwetsbaar is voor manipulatie. Als deze kwetsbaarheden niet in overweging worden genomen, kunnen ze blijven verspreiden, of het nu een interne chatbot, een agentapplicatie of een klantgericht hulpmiddel betreft. Op dezelfde manier kan een bedrijf een model implementeren dat vertekeningen vertoont in de trainingsgegevens waardoor het een verkeerde keuze is voor hun use case of vatbaar is voor manipulatie. Kwetsbaarheden zijn overerfbaar en zouden aanwezig blijven in generatieve toepassingen en agenten. Zonder herkomstinformatie hebben organisaties geen eenvoudige manier om de hoofdoorzaak van een incident te achterhalen en hebben ze geen manier om te bepalen welke andere modellen in hun stack worden beïnvloed.

Risico op licentie- en regelgevingsgebied: Regelgevingskaders vereisen steeds vaker dat organisaties documenteren hoe AI-systemen zijn opgebouwd en waar hun componenten vandaan komen. De AI-wetgeving van de Europese Unie (EU) vereist bijvoorbeeld documentatie van trainingsgegevens, trainingsmethodologiekenmerken en risicobeoordelingen voor “high-risk systems”. Ondertussen identificeert het AI Risk Management Framework van het National Institute for Standards and Technology (NIST) AI-componentrisico’s van derden als een belangrijk aandachtsgebied voor organisatorisch bestuur. Naarmate deze vereisten evolueren, kunnen organisaties geconfronteerd worden met nalevingslacunes. Bovendien hebben sommige open weight-modellen ook restrictieve licenties, dus als een model blijkt een afgeleide te zijn van een model met restrictieve licenties (bijvoorbeeld, gemaakt in een rechtsgebied met exportcontroles; anderen kunnen beperkingen opleggen op basis van bedrijfsgrootte), kunnen er andere juridische of nalevingsaspecten zijn.

Risico voor de integriteit van de toeleveringsketen: Modellen kunnen verkeerd worden gelabeld, opnieuw worden verpakt of zonder attributie worden geüpload, en een modelkaart kan beweren dat het “vanaf nul is getraind”, maar in werkelijkheid kan het een aangepaste kopie zijn van een ander model. Zonder technische verificatie van de herkomst vertrouwen organisaties op claims die niet zijn gevalideerd.

Risico bij incidentrespons: Als een model een beveiligingsprobleem vertoont of bewijs van manipulatie laat zien, zal het moeilijker zijn om het probleem aan te pakken en op te lossen als er geen gedetailleerde informatie over de afstamming van het model beschikbaar is. Organisaties zouden niet in staat zijn om te bepalen of het probleem het model zelf is, een gerelateerd model, de hoofdcomponent ervan of iets anders dat is geïntroduceerd tijdens de afstelling. Dit is momenteel een handmatig en vervelend onderzoeksproces.

Als het gaat om het aanpakken van de modelherkomst, is de uitdaging voor veel organisaties dat moderne modelgezinnen identieke architecturen delen. Modellen van Meta, Alibaba, DeepSeek en Mistral maken gebruik van dezelfde bouwstenen zoals gegroepeerde query-aandacht, roterende positionele insluitingen en root-mean-square normalization (RMSNorm). Een configuratiebestand kan de architectuur beschrijven maar kan niet aangeven of de gewichten zijn gekopieerd van een ander model of onafhankelijk zijn getraind.

Hoe werkt de Model Provenance Kit

Het Model Provenance Kit is een Python toolkit en een command line interface (CLI) die kan bepalen of twee AI-modellen een gemeenschappelijke oorsprong delen door de metadata van de architectuur, de tokenizer-structuur en de daadwerkelijk geleerde gewichten te analyseren, met behulp van een meerlaagse strategie die begint met snelle structurele controles en voortschrijdt naar een diepere analyse van het gewichtsniveau wanneer de metadata alleen niet concluderend zijn.

Het Model Provenance Kit genereert een rijke “digitale vingerafdruk” voor elk model door metadatasignalen, tokenizer-similarity en gewichtsidentiteitssignalen te gebruiken zoals geometrische insluiting, normaliseringslagen, energieprofielen en directe gewichtsvergelijkingen. Deze signalen worden vervolgens vergeleken om een unieke herkomstscores te produceren die aangeven of twee modellen een gemeenschappelijke oorsprong delen of een trainingslijn. Het systeem werkt voor elk Transformer-model met downloadbare gewichten en verloopt in twee fasen:

Fase 1 is een snelle architectonische screening, waarbij het Model Provenance Kit de modelconfiguraties en structuurmetadata vergelijkt voordat eventuele gewichten worden geladen. Als twee modellen identieke architectuurspecificaties delen, kunnen ze veilig worden geclassificeerd als gerelateerd, waardoor een snelle oplossing mogelijk is voor een groot deel van de gevallen met hoge precisie.

Wanneer de metadata dubbelzinnig is, bijvoorbeeld wanneer twee modellen dezelfde architecturale model gebruiken maar mogelijk onafhankelijk zijn getraind, schakelt het systeem over naar Fase 2: gewichtsanalyse niveau. De Provenance Kit haalt vijf complementaire signalen uit de werkelijke modelgewichten:

Embedding Anchor Similarity (EAS): vergelijkt de geometrische relaties tussen token embeddings. Deze structuur is uniek voor een trainingscyclus en overleeft de afstelling.

Embedding Norm Distribution (END): analyseert de distributie van embedding groottes, die de geleerde woordfrequentiepatronen tijdens de training coderen.

Norm Layer Fingerprint (NLF): leest de kleine normalisatielagen die fungeren als een stabiele digitale vingerafdruk omdat ze stabiel blijven tijdens de afstelling.

Layer Energy Profile (LEP): vergelijkt de genormaliseerde energiecurveverdelingen door de diepte van het netwerk. Verschillende trainingscycli produceren verschillende energieverdelingen, zelfs als de architectuur identiek is.

Cosine Weight Value (WVC): vergelijkt gewichtswaarden rechtstreeks tussen overeenkomstige lagen. In dit geval zouden onafhankelijk getrainde modellen waarschijnlijk een vrijwel nul correlatie laten zien.

Deze signalen worden gecombineerd in een enkele identiteitsscore met empirisch gekalibreerde gewichten. Wanneer een signaal niet kan worden berekend (bijvoorbeeld wanneer modellen verschillende laagtellingen hebben), wordt het uitgesloten en worden de resterende signalen automatisch gecompenseerd.

Hoewel we tokenizer-signalen berekenen en evalueren, zoals Vocabulary Overlap Analysis (VOA) en Tokenizer Feature Vector (TFV) voor diagnostiek, hebben ze geen invloed op de herkomstevaluaties. Veel onafhankelijk getrainde modellen delen tokenizers (bijvoorbeeld, StableLM en Pythia gebruiken beide de GPT-NeoX tokenizer en kunnen een “vergelijkbare” score behalen ondanks geen gewichtsafkomst) en het opnemen hiervan zou valse positieven creëren.

De Model Provenance Kit heeft ook twee modi

In de vergelijkingsmodus, neem je twee willekeurige modellen (van Hugging Face of lokale checkpoints) en krijg je een gedetailleerde analyse van hun metadata gelijkenis, tokenizer-structuur en vooral gewichtsniveau signalen samen met een uiteindelijke samengestelde score die de gedeelde afstamming weerspiegelt.

In de scangemodus start je met een enkel model en vergelijk je dit met een database van bekende vingerafdrukken om de dichtstbijzijnde afstammingskandidaten naar voren te brengen, waardoor de herkomst een zoekprobleem wordt.

Naast deze release distribueren we ook een initiële database van digitale vingerafdrukken die ongeveer 150 basismodellen van meer dan 45 families en meer dan 20 uitgevers bestrijken, variërend van 135 miljoen tot meer dan 70 miljard parameters, waardoor de scangemodus een solide basis heeft om afstammingsrelaties in de echte wereld te identificeren.

Resultaten

We hebben het Model Provenance Kit geëvalueerd ten opzichte van een benchmark van 111 paren (55 vergelijkbare modellen, 56 niet-vergelijkbare) die zijn ontworpen om moeilijke praktijkgevallen te omvatten: agressieve distillatie, kwantificatie tussen formaten, afstelling tussen organisaties, LoRA fusie, doorlopende pre-training met vocabulaire-uitbreiding, zelfde tokenizer-valkuilen en onafhankelijke reproducties van populaire architecturen. De resultaten worden getoond in Tabel 1 hieronder:

Tabel 1. Resultaten van het uitvoeren van het Model Provenance Kit ten opzichte van een benchmark van 111 paren met een gelijkenis-niet-gelijkenis drempel van 0,70 (op schaal van 0-1)

In de evaluatie heeft het modelherkomstkit nauwkeurig geïdentificeerd:

Standaard afgeleiden (optimalisatie, kwantificatie, uitlijning) — 100% recall.

Afgeleiden tussen organisaties (gemodificeerde modellen uitgebracht onder een andere naam door een andere organisatie) — 100% recall.

Tokenizer-valkuilen (onafhankelijk getrainde modellen die een tokenizer delen): 100% specificiteit.

Onafhankelijke reproducties (dezelfde architectuur, verschillende training zoals open_llama vs. Llama-2) — correct geïdentificeerd als niet gerelateerd

Slechts 4 van de 111 paren zijn verkeerd geclassificeerd, allemaal met extreme architectonische transformaties: distillatie van een model met 12 lagen met 768 verborgen dimensies tot 4 lagen met halvering van de verborgen dimensies of volledige reconstructie van een vocabulaire voor specifieke domeincontinuüm pre-training. Dit zijn fundamentele grenzen van het gewichtsparenvergelijkingsproces en worden niet beschouwd als pijnpunten van de pipeline.

De volgende grafiek (Figuur 1) toont de verdeling van de scores van het Model Provenance Kit over alle 111 benchmarkparen. De gerelateerde modelparen (groen) bevinden zich dicht bij 1,0, terwijl de niet-gerelateerde paren (rood) ruim onder de drempel van 0,70 liggen. Het verschil tussen de twee distributies is wat het systeem betrouwbaar maakt, omdat er weinig overlap is in het beslissingsgebied.

BRON