Elon Musk is het eens met andere AI-experts dat er niet veel echte wereldgegevens meer beschikbaar zijn om AI-modellen op te trainen.
“We hebben nu eigenlijk de cumulatieve som van menselijke kennis uitgeput …. in AI-training,” zei Musk tijdens een live-uitzending met Stagwell-voorzitter Mark Penn, die woensdagavond op X werd gestreamd. “Dat gebeurde eigenlijk vorig jaar.”
Musk, die eigenaar is van AI-bedrijf xAI, herhaalde thema’s die de voormalige hoofdwetenschapper van OpenAI, Ilya Sutskever, aanstipte op NeurIPS, de machine learning-conferentie, tijdens een toespraak in december. Sutskever, die zei dat de AI-industrie wat hij noemde “piekdata” had bereikt, voorspelde dat een gebrek aan trainingsdata zou leiden tot een verschuiving weg van de manier waarop modellen tegenwoordig worden ontwikkeld.
Inderdaad, Musk suggereerde dat synthetische data — data die door AI-modellen zelf worden gegenereerd — de weg vooruit is. “Met synthetische data … [kan AI] zichzelf een beetje beoordelen en doorgaan met dit proces van zelfleren,” zei hij.
Andere bedrijven, waaronder techgiganten zoals Microsoft, Meta, OpenAI en Anthropic, maken al gebruik van synthetische data om vlaggenschip AI-modellen te trainen. Gartner schat dat 60% van de data die wordt gebruikt voor AI- en analyset projecten in 2024 synthetisch zal zijn gegenereerd.
Microsoft’s Phi-4, dat woensdagochtend als open-source werd vrijgegeven, is getraind op zowel synthetische gegevens als real-world data. Dat geldt ook voor de Gemma-modellen van Google. Anthropic gebruikte enige synthetische data om een van zijn meest presterende systemen, Claude 3.5 Sonnet, te ontwikkelen. En Meta heeft zijn meest recente Llama-reeks modellen geoptimaliseerd met behulp van AI-gegenerateerde data.
Training met synthetische data heeft ook andere voordelen, zoals kostenbesparingen. AI-startup Writer beweert dat zijn Palmyra X 004-model, dat bijna volledig met synthetische bronnen is ontwikkeld, slechts $700.000 heeft gekost om te ontwikkelen — vergeleken met schattingen van $4,6 miljoen voor een vergelijkbaar OpenAI-model.
Maar er zijn ook nadelen. Sommige onderzoeken suggereren dat synthetische data kan leiden tot modelinstorting, waarbij een model minder “creatief” — en meer bevooroordeeld — in zijn output wordt, wat uiteindelijk de functionaliteit ernstig in gevaar kan brengen. Omdat modellen synthetische data creëren, als de data die worden gebruikt om deze modellen te trainen vooroordelen en beperkingen bevatten, zullen hun output ook op soortgelijke manier vervuild zijn.