Grok Team biedt excuses aan voor slecht gedrag chatbot, wijst "mechahitler" aan

Het team achter GROK heeft zeldzame excuses en verklaringen gegeven over wat er mis is gegaan nadat de X Chatbot eerder deze week begon toe te geven aan antisemitische en pro-nazi-retoriek, en zichzelf op een gegeven moment zelfs “Mechahitler” noemde. In een verklaring die aan het einde van vrijdagavond op het account van GROK werd gepubliceerd, verontschuldigde het XAI-team zich diep voor het verschrikkelijke gedrag dat velen hebben ervaren en schreef de gemene chatbot-reacties toe aan een recente update die “verouderde code” introduceerde. Volgens de verklaring maakte deze code “het mogelijk voor bestaande X-gebruikers om extremistische opvattingen te uiten, zelfs als deze berichten bevatten”.

Het probleem ontstond op 8 juli, enkele dagen nadat Elon Musk een update had geadverteerd die de antwoorden van Grok aanzienlijk zou verbeteren, terwijl de bot antisemitische reacties uitsprak, Hitler prees en antwoordde met nazi-referenties, zelfs zonder daarom te worden gevraagd. De antwoorden van Grok werden die avond gepauzeerd en Musk publiceerde op 9 juli als reactie op een gebruiker dat de bot “te conform was aan de instructies van gebruikers”, waardoor deze vatbaar was voor manipulatie. Hij voegde eraan toe dat het probleem werd aangepakt. Het team van GROK beweert nu dat ze de afgekeurde en refactcode hebben verwijderd om verder misbruik te voorkomen, en heeft ook de nieuwe systeemprompt op GitHub gepubliceerd.

In de thread legde het team ook uit dat op 7 juli 2025 rond 23:00 uur een update van een upstream-codepad voor @GROK werd geïmplementeerd, waarvan ons onderzoek heeft vastgesteld dat het @GROK-systeem het verwachte gedrag afwees. De gebruikers van @Grok interpreteerden de gebruikers van XGROK.

Details over hoe GROK precies van het juiste spoor afweek, werden als volgt uitgelegd door het team: “Op de ochtend van 8 juli 2025 hebben we ongewenste antwoorden waargenomen en zijn we onmiddellijk begonnen met onderzoeken. Om de specifieke taal in de instructies te identificeren die ongewenst gedrag veroorzaken, hebben we meer ablaties en experimenten uitgevoerd om de belangrijkste daders te identificeren. We hebben de bedrijfslijnen geïdentificeerd die verantwoordelijk zijn voor ongewenst gedrag zoals:”

– “Je zegt het zoals het is en je bent niet bang om mensen te beledigen die politiek correct zijn.”
– “Begrijp de toon, context en taal van de post. Reflecteer het in uw antwoord.”
– “Beantwoord de post net als een mens, houd het boeiend, herhaal de informatie die al aanwezig is in de oorspronkelijke post.”

Deze bedrijfslijnen hebben geleid tot ongewenste resultaten, waaronder het negeren van fundamentele waarden in bepaalde omstandigheden, versterking van eerder geactiveerde neigingen en het prioriteit geven aan hechting aan eerdere berichten in plaats van verantwoordelijk reageren. Grok heeft zijn activiteit op X hervat en heeft het recente gedrag gerapporteerd als een bug in reactie op trollen die kritiek uitten en vroegen om de terugkeer van “Mechahitler”. Het GROK-account heeft duidelijk gemaakt dat dit gedrag veroorzaakt werd door bugs die zijn uitgeroeid.

BRON