De nieuwste antropische functie voor twee van zijn Claude AI-modellen zou het begin van het einde kunnen zijn voor de AI-jailbreaking-gemeenschap. Het bedrijf heeft op haar website aangekondigd dat de Claude Opus 4- en 4.1-modellen nu de kracht hebben om een gesprek met gebruikers te beëindigen. Volgens Anthropic zal deze functie alleen worden gebruikt in “zeldzame en extreme gevallen van aanhoudend schadelijke of aanstootgevende gebruikersinteracties”.
Om te verduidelijken, zei Anthropic dat die twee Claude-modellen uit schadelijke gesprekken zouden kunnen voortkomen, zoals “verzoeken van gebruikers om seksuele inhoud waarbij minderjarigen en pogingen om informatie te vragen die grootschalig geweld of terreurdaden zou mogelijk maken”. Met Claude Opus 4 en 4.1 beëindigen deze modellen slechts een gesprek “als de laatste bron wanneer meerdere herhadingpogingen zijn mislukt en de hoop op een productieve interactie is uitgeput”, volgens de antropische. Anthropische uitspraken die de meeste gebruikers niet zullen ervaren Claude om een gesprek te verminderen, zelfs als het spreekt over zeer controversiële onderwerpen, omdat deze functie zal worden gereserveerd voor “gevallen van extreme bordeaux”.
Het voorbeeld van Claude di Anthropic dat een gesprek beëindigt
(Antropisch)
In de scenario’s waarin Claude een chat beëindigt, kunnen gebruikers geen nieuwe berichten meer verzenden in dat gesprek, maar ze kunnen onmiddellijk een nieuwe starten. Anthropic voegde eraan toe dat als een gesprek is beëindigd, dit geen invloed heeft op andere chats en gebruikers zelfs terug kunnen gaan en de vorige berichten kunnen aanpassen of opnieuw proberen om te leiden naar een ander conversatiepad.
Voor antropisch maakt deze stap deel uit van zijn onderzoeksprogramma dat het idee van de wellness van de AI bestudeert. Hoewel het idee van antropomorfisatie van kunstmatige intelligentiemodellen een voortdurend debat blijft, heeft de samenleving gezegd dat het vermogen om uit een “potentieel pijnlijke interactie” te komen een lage kosten was om de risico’s voor de putten van de AI te beheren. Anthropic experimenteert nog steeds met deze functie en moedigt zijn gebruikers aan om feedback te geven wanneer ze aan een dergelijk scenario voldoen.




