Nvidia begint met wereldmodellen — AI-modellen die inspiratie halen uit de mentale modellen die mensen natuurlijk ontwikkelen.
Tijdens de Consumer Electronics Show in Las Vegas heeft het bedrijf aangekondigd dat het een familie van wereldmodellen openlijk beschikbaar stelt die “fysica-bewuste” video’s kunnen voorspellen en genereren. Nvidia noemt deze familie Cosmos World Foundation Models, of kortweg Cosmos WFM.
De modellen, die kunnen worden afgestemd op specifieke toepassingen, zijn beschikbaar via Nvidia’s API- en NGC-catalogi en het AI-ontwikkelaarsplatform Hugging Face.
“Nvidia stelt de eerste golf van Cosmos WFMs beschikbaar voor op fysica gebaseerde simulatie en synthetische datageneratie,” schreef het bedrijf in een blogpost die naar NewsByGeek is gestuurd. “Onderzoekers en ontwikkelaars, ongeacht hun bedrijfsgrootte, kunnen de Cosmos-modellen vrij gebruiken onder Nvidia’s vergunninggevende open modellicentie, die commercieel gebruik toestaat.”
Er zijn een aantal modellen in de Cosmos WFM-familie, verdeeld in drie categorieën: Nano voor lage latentie en real-time toepassingen; Super voor “zeer krachtige basis” modellen; en Ultra voor maximale kwaliteit en betrouwbaarheid.
De modellen variëren in grootte van 4 miljard tot 14 miljard parameters, waarbij Nano het kleinst is en Ultra het grootst. Parameters komen ongeveer overeen met de probleemoplossende vaardigheden van een model, en modellen met meer parameters presteren meestal beter dan die met minder parameters.
Als onderdeel van Cosmos WFM brengt Nvidia ook een “upsampling-model” uit, een videodecoder die is geoptimaliseerd voor augmented reality, en bewakingsmodellen om verantwoordelijk gebruik te waarborgen, evenals afgestemde modellen voor toepassingen zoals het genereren van sensorgegevens voor autonoom voertuigontwikkeling. Deze, evenals de andere Cosmos WFM-modellen, zijn getraind op 9.000 biljoen tokens van 20 miljoen uur aan real-world menselijke interacties, omgevingen, industriële gegevens, robotica en rijdata, beweerde Nvidia. (In AI vertegenwoordigen “tokens” stukjes ruwe data — in dit geval videomateriaal.)
Nvidia wilde niet zeggen waar deze trainingsgegevens vandaan kwamen, maar tenminste één rapport — en een rechtszaak — beweert dat het bedrijf op auteursrechtelijk beschermde YouTube-video’s heeft getraind zonder toestemming. We hebben contact opgenomen met Nvidia’s persafdeling voor een reactie en we zullen dit stuk bijwerken als we terughoren.
Nvidia beweerde dat Cosmos WFM-modellen, gegeven tekst of videoframes, “beheersbare, hoogwaardige” synthetische gegevens kunnen genereren om de training van modellen voor robotica, zelfrijdende auto’s en meer op te starten.
“De suite van open modellen van Nvidia Cosmos betekent dat ontwikkelaars de WFMs kunnen aanpassen met datasets, zoals video-opnamen van autonome voertuigreizen of robots die door een magazijn navigeren, afhankelijk van de behoeften van hun doeltoepassing,” schreef Nvidia in een persbericht. “Cosmos WFMs zijn speciaal ontwikkeld voor fysieke AI-onderzoek en ontwikkeling, en kunnen fysica-gebaseerde video’s genereren uit een combinatie van invoer, zoals tekst, afbeelding en video, evenals robot sensor of bewegingsgegevens.”
Nvidia zei dat bedrijven zoals Waabi, Wayve, Fortellix, en Uber al hebben toegezegd om Cosmos WFMs te testen voor verschillende gebruiksgevallen, van videozoek- en curatinetoepassingen tot het bouwen van AI modellen voor zelfrijdende voertuigen.
Belangrijk om op te merken is dat Nvidia’s wereldmodellen niet “open source” zijn in de striktste zin. Om te voldoen aan een breed aanvaarde definitie van “open source” AI, moet een AI-model voldoende informatie over zijn ontwerp bieden zodat iemand het “substantieel” kan recreëren, en moet het relevante details over de trainingsgegevens bekendmaken, inclusief de herkomst en hoe de gegevens kunnen worden verkregen of gelicentieerd.
Nvidia heeft geen details gepubliceerd over de trainingsgegevens van Cosmos WFM, noch heeft het alle tools beschikbaar gemaakt die nodig zijn om de modellen vanaf nul te recreëren. Dat is waarschijnlijk de reden waarom de techgigant de modellen “open” en niet open source noemt.