Nieuwe Segment Anything-modellen verbeteren objectdetectie en 3D-reconstructies.

Nieuwe Segment Anything-modellen maken het eenvoudiger om objecten te detecteren en 3D-reconstructies te maken

Vandaag kondigen we met trots SAM 3 en SAM 3D aan, de nieuwste toevoegingen aan onze Segmenteer uw verzameling van wat dan ook. SAM 3 maakt detectie en tracking van objecten in afbeeldingen en video’s mogelijk met behulp van tekst en visuele instructies, terwijl SAM 3D 3D-reconstructie van objecten en mensen mogelijk maakt op basis van één enkel beeld. Je kunt nu met beide modellen experimenteren op ons nieuwe platform, Segment Anything Playground.

Deze vooruitgang zal ons helpen bij het bouwen van de volgende generatie creatieve mediatools, waardoor videobewerking wordt vereenvoudigd en ons nieuwe manieren worden geboden om met de visuele wereld om te gaan en deze te begrijpen.

Zeg wat je bedoelt

SAM 3 maakt het eenvoudig om objecten in afbeeldingen en video’s te detecteren, segmenteren en volgen – functies die kunnen worden gebruikt om video’s en afbeeldingen te bewerken en te transformeren. SAM 1 en 2 ondersteunden segmentatie op basis van visuele instructies, en nu kunt u met SAM 3 segmenteren met behulp van gedetailleerde tekstinstructies die de objecten beschrijven die u wilt segmenteren.

Traditioneel hebben AI-modellen moeite om taal te koppelen aan specifieke visuele elementen in afbeeldingen of video’s. Bestaande modellen hebben doorgaans een vaste set tekstlabels en zijn in staat eenvoudige concepten zoals ‘bus’ of ‘auto’ te segmenteren, maar worstelen met meer gedetailleerde concepten zoals ‘gele schoolbus’.

SAM 3 overwint deze beperking en accepteert een veel breder scala aan tekstinstructies. Typ ‘rode baseballpet’ en SAM 3 segmenteert alle overeenkomende objecten in de afbeelding of video. SAM 3 kan ook worden gebruikt met grote multimodale taalmodellen om langere, complexere tekstinstructies te begrijpen, zoals ‘mensen zitten, maar dragen geen rode baseballpet’.

We gebruiken SAM 3 om een nieuwe generatie creatieve mediatools te creëren. In Edits, onze app voor het maken van video’s, introduceren we binnenkort effecten die makers kunnen toepassen op specifieke mensen of objecten in hun video’s. Er komen ook nieuwe creatie-ervaringen met SAM 3 naar Vibes in de Meta AI-app en meta.ai.

Breng een beeld tot leven

SAM 3D bestaat uit twee open source-modellen waarmee je vanuit één afbeelding een 3D-object kunt reconstrueren, waarmee een nieuwe standaard wordt gezet voor AI-gestuurde 3D-reconstructie van de fysieke wereld. SAM 3D Objects maakt de reconstructie van objecten en scènes mogelijk, terwijl SAM 3D Body schattingen van het menselijk lichaam en de vorm mogelijk maakt. Beide modellen bieden robuuste, state-of-the-art prestaties, en SAM 3D Objects presteert aanzienlijk beter dan bestaande methoden. We hebben ook samengewerkt met kunstenaars om SAM 3D Artist Objects te creëren, een unieke evaluatiedataset met diverse afbeeldingen en objecten, die een nieuwe, rigoureuzere manier vertegenwoordigt om de voortgang van 3D-onderzoek te meten.

De SAM 3D-release markeert een belangrijke stap in het benutten van grootschalige data om de complexiteit van de fysieke wereld aan te pakken. Het heeft het potentieel om cruciale domeinen zoals robotica, wetenschap en sportgeneeskunde aanzienlijk vooruit te helpen, en het kent ook een aantal creatieve gebruiksscenario’s. Of je nu een onderzoeker bent die nieuwe grenzen verkent op het gebied van AR/VR, een maker die middelen voor een game wil genereren, of gewoon nieuwsgierig bent naar de mogelijkheden van 3D-modellering op basis van AI, SAM 3D opent nieuwe manieren om met de visuele wereld te communiceren en deze te begrijpen.

We gebruiken SAM 3D om de nieuwe View in Room-functie op Facebook Marketplace in te schakelen, waardoor mensen de stijl en pasvorm van meubelstukken, zoals een lamp of tafel, in hun ruimtes kunnen visualiseren voordat ze ze kopen.

Ontdek onze geavanceerde modellen

U kunt SAM 3 en SAM 3D uitproberen Segmenteer alles wat er speeltons nieuwe platform dat iedereen toegang geeft tot onze geavanceerde modellen, zonder de noodzaak van technische vaardigheden. Begin helemaal opnieuw door een afbeelding of video te uploaden en vraag SAM 3 vervolgens met een korte tekstzin om alle overeenkomende objecten uit te snijden, of gebruik SAM 3D om een scène vanuit een nieuw perspectief te bekijken, deze virtueel te herschikken of coole 3D-effecten toe te voegen. Of u kunt een van onze sjablonen gebruiken, die variëren van praktische opties zoals gezichten, kentekenplaten en gepixelde schermen tot leuke videobewerkingen zoals spotlight-effecten, bewegingssporen of inzoomen op specifieke objecten.

Als onderdeel van deze release zullen we SAM 3-modelgewichten, een nieuwe evaluatiebenchmark-dataset voor open woordenschatsegmentatie, en een onderzoekspaper delen waarin wordt beschreven hoe we SAM 3 hebben gemaakt. We werken ook samen met Roboflux annotatieplatform, zodat u gegevens kunt annoteren en SAM 3 kunt optimaliseren voor uw specifieke behoeften.

Voor 3D SAM zullen we modelcontrolepunten en inferentiecode delen en een nieuwe benchmark voor 3D-reconstructie introduceren. Deze dataset bevat een breed scala aan afbeeldingen en objecten en biedt een niveau van realisme en uitdaging dat de bestaande 3D-benchmarks overtreft. Het vertegenwoordigt een nieuwe standaard voor het meten van de voortgang in 3D-onderzoek en duwt het veld naar een dieper begrip van de fysieke wereld.

We zijn verheugd om deze innovatieve nieuwe modellen met jullie te delen en hopen dat ze iedereen in staat stellen hun creativiteit te verkennen, te bouwen en de grenzen van wat mogelijk is te verleggen. We kunnen niet wachten om te zien wat je maakt.

Meer informatie over HETZELFDE 3 EN SAM 3D over kunstmatige intelligentie op Meta blog.

BRON