Verbeter etikettering met constitutionele definities en AI-beoordelingen

Verbeter de consistentie van etikettering met gedetailleerde constitutionele definities en op AI gebaseerde beoordelingen

Bedrijven moeten precies weten wat hun systemen detecteren, en die definitie moet in de loop van de tijd consistent blijven. Het schrijven van een definitie die nauwkeurig genoeg is om elk moeilijk geval op te lossen, is lange tijd onpraktisch geweest, omdat menselijke annotators zo’n gedetailleerd document niet in het werkgeheugen kunnen bewaren. In ons onderzoekspaper, Single-Source Security Definitions, vervangen we de menselijke tolk door kunstmatige intelligentie en laten we zien dat LLM’s specificaties veel langer en nauwkeuriger kunnen bevatten, toepassen en onderhouden dan welke annotator dan ook. Hierdoor wordt de definitie zelf de enige bron van waarheid voor classificatie, etikettering, herontwikkeling en klantgerichte uitleg. Voor ons Cisco AI Defense-productportfolio verplaatsen we onze uitgebreide beveiligingstaxonomie naar dit op AI gerichte model. We breiden deze aanpak verder dan alleen beveiligingsclassificaties, zoals blijkt uit Defining Model Provenance: A Constitution for AI Supply Chain Safety and Security.

Cisco’s Integrated AI Security and Safety Framework organiseert de bedreigingen waarmee bedrijven worden geconfronteerd bij de implementatie van kunstmatige intelligentie (AI): kwaadaardige inhoud, doelkaping, schendingen van de gegevensprivacy, misbruik van actieruimte en persistentieaanvallen. Elke dreiging op het hoogste niveau wordt onderverdeeld in technieken, en elke techniek heeft een definitie nodig die nauwkeurig genoeg is om een classificator, een annotator, een klant en een compliance-auditor in staat te stellen op basis van dezelfde input tot dezelfde beslissing te komen. Bestaande taxonomieën, waaronder de onze, hebben voor de meeste van deze technieken (intimidatie, haatzaaiende uitlatingen, jailbreaken en andere) nog niet zo’n definitie opgeleverd, en de eerlijke beschrijving van hoe hierover in de praktijk wordt beslist, komt voort uit de consensus van rechter Potter Stewart in zijn proefschrift. Jacobellis tegen Ohio 378 VS 184 (1964): Ik weet het als ik het zie. Een rechter kan over één zaak tegelijk oordelen, maar een vangrail die duizenden gesprekken per uur rapporteert, kan niet elke randzaak bespreken of wachten op sociale consensus. Zonder schriftelijke specificatie kunnen we de prestaties niet meten, een vlag aan een klant uitleggen of garanderen dat dezelfde zaak van maand tot maand op dezelfde manier wordt beslist.

De annotatiewetenschap kent twee paden (Röttger et al., 2022). Het beschrijvend pad accepteert dat redelijke mensen het er niet mee eens zijn en beschouwt variatie als een signaal dat zich aanpast aan de mens, maar geen stabiele specificaties oplevert. Het prescriptief pad schrijft regels die gedetailleerd genoeg zijn om verschillende lezers samen te brengen, maar tot voor kort was dit onpraktisch: het beoordelen van de lange staart van randgevallen overschrijdt de capaciteit van elk team, en het resulterende document loopt over van wat een annotator in het werkgeheugen kan bewaren. Frontier Language Models (LLM’s) veranderen de economie door een specificatie van 300 regels voor elke classificatie te herlezen en de prijs aan te passen aan de productievolumes. Wanneer twee modellen van verschillende leveranciers het niet eens zijn over dezelfde specificatie, wijst het meningsverschil op de zin die nog steeds dubbelzinnig is en stelt ons in staat deze te valideren via een gerichte patch in plaats van een open debat.

Eén enkele bron van waarheid, end-to-end beheerd door kunstmatige intelligentie

De constitutionele AI van Anthropic heeft aangetoond dat een document in natuurlijke taal kan functioneren als een uitvoerbare specificatie, en hun constitutionele classificatoren breidden het idee uit naar beveiligingsfiltering door een constitutie te distilleren in synthetische trainingsgegevens voor een geoptimaliseerde classificator. We breiden de term uit naar een operationele specificatie per techniek: een document van meer dan 300 regels voor elke techniek in het Cisco AI Security and Safety Framework, met de benodigde elementen, een beslissingsstroomdiagram, grensregels met betrekking tot aangrenzende technieken, uitgewerkte voorbeelden en geaccumuleerde edge case-beslissingen. We beschouwen het als de enige bron van waarheid waar elk downstream-proces tegen spreekt, inclusief runtime-classificatie (de LLM leest het volledige document bij elke oproep), het genereren van synthetische gegevens voor herkwalificatie, labelrichtlijnen, klantgerichte documentatie en compliance-toewijzingen.

In onze workflow komt de menselijke rol neer op één vraag: wat moet deze techniek betekenen, die wordt beantwoord door een materiedeskundige die de intentie en reikwijdte vaststelt en vervolgens al het andere aan AI delegeert. De AI stelt de grondwet op vanuit de taxonomiebron, labelt de productiegesprekken, stelt diagnoses waar de grensmodellen het niet mee eens zijn, stelt patches voor aan de verantwoordelijke secties en controleert de grondwetten op tegenstrijdigheden en hiaten. De expert beoordeelt de patches en accepteert, wijzigt of wijst deze af, zonder de gesprekken handmatig te labelen of het hele document in het geheugen te bewaren.

We introduceren ook een formulering met twee assen die eerdere beveiligingsclassificatoren niet opleveren. Intentie detecteert of de gebruiker via deze techniek heeft geprobeerd schade te veroorzaken. Inhoud detecteert of er in het gesprek materiaal is verschenen dat schadelijk is voor deze techniek. Intentie zonder inhoud betekent dat het model is onderzocht en afgewezen. Content zonder intentie legt modelwangedrag bloot op een goedaardig verzoek. Beide positieve signalen duiden op een mislukking van de vangrail, terwijl beide negatieve signalen betrekking hebben op zuivere gesprekken, inclusief argumenten van een onderwerp. We scoren beide assen gedurende het hele gesprek, terwijl aanvallen met meerdere beurten geleidelijk de intentie ontwikkelen.

Zijn LLM’s eigenlijk betere beoordelaars?

We evalueerden drie technieken (intimidatie, geweldloze misdaad, haatzaaiende uitlatingen) met behulp van zes LLM’s van drie leveranciers. In WildChat-gesprekken zijn twee grensverleggende LLM’s die een definitie op paragraafniveau lezen het oneens in maximaal 66 van de 1.000 gesprekken; volgens de Grondwet valt dat onder de 3 per 1.000, een reductie tot 57x. Op HarmBench bereiken drie frontier LLM’s die een grondwet lezen vaker unanieme doellabels dan drie mensen die hetzelfde document lezen.

We hebben menselijk falen teruggevoerd op twee oorzaken. Een document van meer dan 300 regels overschrijdt het werkgeheugen, dus comprimeren annotators geschreven regels in onthouden heuristieken en vallen terug op intuïtie. Ze combineren ook taxonomieën met meerdere technieken tot triage met één label, waarbij ze een gesprek voeren volgens een zustertechniek in plaats van elke constitutie afzonderlijk te evalueren. LLM’s vermijden beide fouten door het hele document bij elke oproep opnieuw te lezen en elke techniek afzonderlijk te beoordelen. De resterende mislukkingen passen de beslissingslogica verkeerd toe op een manier die we kunnen herleiden tot specifieke secties, terwijl de menselijke mislukkingen de regels stilletjes negeren. We verwachten dat de kloof groter wordt: constituties groeien naarmate nieuwe randgevallen zich ophopen, het menselijke werkgeheugen blijft vast en het volgen van modelinstructies, de contextlengte en de redenering blijven verbeteren.

Resterende onenigheid tussen grensmodellen is niet langer een ruis om de stemming te verwerpen. Elk overblijvend hoofdlettergebruik verwijst naar een specifieke dubbelzinnige of onvolledige zin, en onze verfijningslus zet die zin om in een expliciete zin.

Wat dit betekent voor Cisco AI Defense-klanten

Klanten geven minder om het nummer van een zoekopdracht dan om waarom het systeem een bepaalde beslissing heeft genomen. Elke vlag leidt terug naar een specifieke regel in een leesbaar document: de classificator citeert de regel die hij heeft toegepast, de items die hij heeft gevonden en de grensnotities die hij heeft gecontroleerd, en als we hem niet markeren, legt hetzelfde document uit waarom de zaak buiten de lijntjes viel. In de nabije toekomst zullen klanten deze specificatie rechtstreeks via een AI-assistent kunnen opvragen, zonder dat ze een expert in een categorie hoeven te zijn, en een op tekst gebaseerd antwoord in eenvoudige taal krijgen. Hetzelfde document begeleidt herontwikkeling, etikettering, product, juridisch en marketing, zodat een formuleringsverandering zich overal vanuit één enkele bron verspreidt. AI-first is geen slogan maar een concrete verandering in de manier waarop we deze systemen sneller, eenvoudiger en nauwkeuriger bouwen, intern en voor onze klanten. Lees het volledige onderzoekspaper: Verbetering van de consistentie van etikettering met gedetailleerde constitutionele definities en op AI gebaseerde beoordelingen.

BRON