Bouw Kaggle-benchmarks lokaal

Nu AI-modellen zich ontwikkelen van eenvoudige chatbots naar redenerende agenten die code schrijven, tools gebruiken en complexe problemen oplossen, zijn traditionele benchmarks niet meer voldoende. De gemeenschap heeft dynamische en rigoureuze evaluaties nodig, gemaakt door mensen die deze modellen in de echte wereld gebruiken.

Daarom hebben we Kaggle Benchmarks gelanceerd. Sindsdien heeft de wereldwijde AI-gemeenschap meer dan 10.000 beoordelingstaken gecreëerd, waardoor betrouwbare en transparante openbare ranglijsten zijn ontstaan die laboratoria helpen de voortgang van AI te meten en te versnellen.

Vandaag zetten we de volgende stap door de lokale ontwikkeling voor Kaggle Benchmarks te lanceren.

Gebruik Kaggle Benchmarks vanuit uw lokale ontwikkelomgeving

Tot nu toe betekende het maken van beoordelingstaken uitsluitend werken in de webgebaseerde notebook-editor van Kaggle, in plaats van in de stapel waarmee ontwikkelaars het liefst bouwen.

Met onze nieuwe update kunnen ontwikkelaars taken rechtstreeks vanuit hun lokale ontwikkelomgevingen zoals Antigravity, VSCode, Cursor en codeeragenten creëren, valideren, pushen, uitvoeren en downloaden. Deze update is ontworpen om ontwikkelaars te ontmoeten waar ze werken, waardoor de reis van idee naar evaluatie sneller en intuïtiever wordt.

Creëer beoordelingstaken voor natuurlijke taal met AI-codeeragenten

Lokale ontwikkeling ontgrendelt ook een krachtige nieuwe workflow: het gebruik van AI-codeeragenten om benchmarktaken te schrijven via de write-kaggle-benchmarks-mogelijkheid. Deze vaardigheid omvat een reeks gestructureerde instructies die een codeeragent leren hoe hij taken kan maken met behulp van de Kaggle-benchmarks SDK en de Kaggle CLI.

Als u deze vaardigheid aan uw agent wilt toevoegen, vraagt u uw agent eenvoudigweg:

Eenmaal geïnstalleerd, kunt u een assessment in duidelijke taal beschrijven en een werkend bedrijf op Kaggle krijgen. U kunt uw agent bijvoorbeeld het volgende vertellen:

Deze krachtige functies worden aangestuurd door de nieuwe opdrachten die we voor Benchmarks in de Kaggle CLI hebben gemaakt.

BRON