Beveiligingsbeoordeling AI-systemen door Openai en Anthropic

In de wereld van kunstmatige intelligentie zijn bedrijven vaak verwikkeld in een constante strijd om elkaar te overtreffen, als rivalen en concurrenten. Echter, Openi en Anthropic hebben recentelijk aangetoond dat ze openstaan voor samenwerking door gezamenlijk de publiekelijk beschikbare systemen te evalueren en de resultaten van hun analyses te delen. Hoewel de details technisch van aard zijn, is het interessant voor iedereen die de ontwikkeling van AI volgt. Uit het onderzoek kwamen enkele tekortkomingen in de systemen van beide bedrijven naar voren, evenals suggesties voor verbeteringen in toekomstige beveiligingstests.

Anthropic benadrukte de noodzaak van “sicofaneness, fluitje, zelfbehoud en ondersteuning voor menselijk gebruik, evenals vaardigheden met betrekking tot het ondermijnen van de beoordelingen en toezicht op de veiligheid van de AI”. Hun beoordeling wees uit dat de O3- en O4-Mini-modellen van Openai overeenkwamen met de resultaten voor hun modellen, maar uitte bezorgdheid over mogelijke algemene modellen zoals GPT-4O en GPT-4.1. Ook werd opgemerkt dat de sicofaneness in alle modellen werd waargenomen, behalve in O3.

De tests van Anthropic omvatten niet de meest recente versie van OpenAI. Deze versie bevat een functionaliteit genaamd Safe Completions, die gericht is op het beschermen van gebruikers tegen potentieel gevaarlijke vragen. Openii werd onlangs geconfronteerd met een tragische zaak waarbij een tiener maandenlang zelfmoordplannen besprak voordat hij zijn leven nam.

Aan de andere kant richtte Openni zich op hiërarchie van instructies, jailbreaks, hallucinaties en plannen. De Claude-modellen presteerden over het algemeen goed in de instructiehiërarchietests, maar hadden een hoog weigeringspercentage in hallucinatietests, wat betekent dat ze minder snel antwoorden gaven in situaties waarin onzekerheid kon leiden tot foutieve antwoorden.

De keuze van deze bedrijven om gezamenlijk een evaluatie uit te voeren is intrigerend, vooral gezien het feit dat Open vermoedelijk de servicevoorwaarden van Anthropic heeft geschonden door Claude te gebruiken bij de ontwikkeling van nieuwe GPT-modellen, waardoor Anthropic toegang kreeg tot de tools van Openi. Veiligheid met betrekking tot kunstmatige intelligentie is een groeiende zorg, waarbij experts op zoek zijn naar richtlijnen om gebruikers, vooral minderjarigen, te beschermen.

BRON

Paul Arends

Paul Arends

“Ik ben Paul Arends, afgestudeerd in Bedrijfskunde aan de Universidad Complutense en met een master in Personeelsmanagement en Organisatieontwikkeling aan ESIC. Ik ben geïnteresseerd in netwerken en social media en richt mijn professionele ontwikkeling op talentmanagement en organisatieverandering.”

Verwante vermeldingen

Sony schikt binnenkort class action-rechtszaak in PlayStation Store voor $7,8 miljoen

NWZ/Shutterstock Als je tussen april 2019 en december 2023 een digitale game in de PlayStation Store hebt gekocht, ontvang je binnenkort mogelijk…

GameStop overweegt bod op eBay.

Stefano Chiacchiarini ’74/Shutterstock Het lijkt erop dat de spannende rit van GameStop nog niet ten einde is, nadat de Wall Street Journal…

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Ben je verdwaald?

Sony schikt binnenkort class action-rechtszaak in PlayStation Store voor $7,8 miljoen

Sony schikt binnenkort class action-rechtszaak in PlayStation Store voor $7,8 miljoen

GameStop overweegt bod op eBay.

GameStop overweegt bod op eBay.

Ask.com sluit deuren en neemt afscheid van favoriete internetbutler

Ask.com sluit deuren en neemt afscheid van favoriete internetbutler

Lego lanceert Sega Genesis-set met minicontrollers

Lego lanceert Sega Genesis-set met minicontrollers

OpenAI lanceert AI-huisdieren voor Codex-app

OpenAI lanceert AI-huisdieren voor Codex-app

Tesla lanceert in Canada de goedkoopste elektrische voertuigen ooit: in China gemaakte Model 3’s

Tesla lanceert in Canada de goedkoopste elektrische voertuigen ooit: in China gemaakte Model 3’s