Door: Edwin van het Bolscher, 21 december 2022 OpenAI, de door Elon Musk opgerichte AI-startup achter de populaire DALL-E tekst-naar-beeldgenerator, kondigde dinsdag de release aan van zijn nieuwste AI POINT-E, die 3D-pointclouds rechtstreeks uit tekstprompts kan produceren. Terwijl bestaande systemen zoals DreamFusion van Google doorgaans meerdere uren - en GPU's - nodig hebben om hun afbeeldingen te genereren, heeft Point-E slechts één GPU en een minuut of twee nodig.
Vrienden van 3dhype:
Tekst-naar-beeldsystemen zoals OpenAI's DALL-E 2 en Craiyon, DeepAI, Prisma Lab's Lensa of HuggingFace's Stable Diffusion winnen de afgelopen jaren snel aan populariteit, bekendheid en schande. Tekst-naar-3D is een uitvloeisel van dat onderzoek. Point-E, in tegenstelling tot vergelijkbare systemen, "maakt gebruik van een grote dataset van tekst > afbeelding paren, waardoor het diverse en complexe aanwijzingen kan volgen, terwijl ons beeld-naar-3D-model is getraind op een kleinere dataset van afbeelding > 3D paren', schreef het OpenAI-onderzoeksteam onder leiding van Alex Nichol. "Om een 3D-object te produceren op basis van een tekstprompt, nemen we eerst een sample van een afbeelding met behulp van het tekst-naar-beeld-model en nemen we vervolgens een sample van een 3D-object op basis van de gesamplede afbeelding. Beide stappen kunnen in een aantal seconden worden uitgevoerd, en vereisen geen dure optimalisatieprocedures." Als je een tekstprompt zou invoeren, bijvoorbeeld "Een goudvis in een ruimtepak", zal Point-E eerst een synthetische 3D-weergave van de genoemde goudvis genereren. Het zal dat gegenereerde beeld vervolgens door een reeks diffusiemodellen laten lopen om de 3D, RGB-pointclouds van het oorspronkelijke beeld te creëren - eerst een grof 1.024-pointcloudsmodel produceren, vervolgens een fijner 4.096-pointcloud. "In de praktijk gaan we ervan uit dat de afbeelding de relevante informatie uit de tekst bevat en conditioneren we de pointclouds niet expliciet op de tekst", benadrukt het onderzoeksteam.
Deze diffusiemodellen werden elk getraind op "miljoenen" 3D-modellen, allemaal omgezet in een gestandaardiseerd formaat. "Hoewel onze methode bij deze evaluatie slechter presteert dan geavanceerde technieken", geeft het team toe, "maakt het in een klein deel van de tijd monsters." Als je het zelf wilt uitproberen, heeft OpenAI de open-sourcecode van het project op Github geplaatst.