Beveiligingsbeoordeling AI-systemen door Openai en Anthropic

Openai en Anthropic hebben de beveiligingsbeoordelingen van wederzijdse systemen AI uitgevoerd

In de wereld van kunstmatige intelligentie zijn bedrijven vaak verwikkeld in een constante strijd om elkaar te overtreffen, als rivalen en concurrenten. Echter, Openi en Anthropic hebben recentelijk aangetoond dat ze openstaan voor samenwerking door gezamenlijk de publiekelijk beschikbare systemen te evalueren en de resultaten van hun analyses te delen. Hoewel de details technisch van aard zijn, is het interessant voor iedereen die de ontwikkeling van AI volgt. Uit het onderzoek kwamen enkele tekortkomingen in de systemen van beide bedrijven naar voren, evenals suggesties voor verbeteringen in toekomstige beveiligingstests.

Anthropic benadrukte de noodzaak van “sicofaneness, fluitje, zelfbehoud en ondersteuning voor menselijk gebruik, evenals vaardigheden met betrekking tot het ondermijnen van de beoordelingen en toezicht op de veiligheid van de AI”. Hun beoordeling wees uit dat de O3- en O4-Mini-modellen van Openai overeenkwamen met de resultaten voor hun modellen, maar uitte bezorgdheid over mogelijke algemene modellen zoals GPT-4O en GPT-4.1. Ook werd opgemerkt dat de sicofaneness in alle modellen werd waargenomen, behalve in O3.

De tests van Anthropic omvatten niet de meest recente versie van OpenAI. Deze versie bevat een functionaliteit genaamd Safe Completions, die gericht is op het beschermen van gebruikers tegen potentieel gevaarlijke vragen. Openii werd onlangs geconfronteerd met een tragische zaak waarbij een tiener maandenlang zelfmoordplannen besprak voordat hij zijn leven nam.

Aan de andere kant richtte Openni zich op hiërarchie van instructies, jailbreaks, hallucinaties en plannen. De Claude-modellen presteerden over het algemeen goed in de instructiehiërarchietests, maar hadden een hoog weigeringspercentage in hallucinatietests, wat betekent dat ze minder snel antwoorden gaven in situaties waarin onzekerheid kon leiden tot foutieve antwoorden.

De keuze van deze bedrijven om gezamenlijk een evaluatie uit te voeren is intrigerend, vooral gezien het feit dat Open vermoedelijk de servicevoorwaarden van Anthropic heeft geschonden door Claude te gebruiken bij de ontwikkeling van nieuwe GPT-modellen, waardoor Anthropic toegang kreeg tot de tools van Openi. Veiligheid met betrekking tot kunstmatige intelligentie is een groeiende zorg, waarbij experts op zoek zijn naar richtlijnen om gebruikers, vooral minderjarigen, te beschermen.

BRON