De voormalige Google-ingenieur en invloedrijke AI-onderzoeker François Chollet is medeoprichter van een nonprofitorganisatie die benchmarks wil ontwikkelen voor het onderzoeken van AI voor “menselijk niveau” intelligentie.
De nonprofitorganisatie, de ARC Prize Foundation, wordt geleid door Greg Kamradt, een ex-directeur van engineering bij Salesforce en oprichter van de AI-productstudio Leverage. Kamradt zal de rol van president en bestuurslid op zich nemen.
“[W]e groeien … naar een echte nonprofit stichting om te fungeren als een nuttige noordster richting kunstmatige algemene intelligentie,” schreef Chollet in een bericht op de website van de nonprofit. (Kunstmatige algemene intelligentie is een vaag begrip, maar het wordt algemeen begrepen als AI die de meeste taken kan uitvoeren die door mensen gedaan kunnen worden.) “[W]e proberen vooruitgang te inspireren door [de kloof] in basis menselijke capaciteit te bevorderen.”
De ARC Prize Foundation zal zich uitbreiden op ARC-AGI, een test ontwikkeld door Chollet om te evalueren of een AI-systeem effectief nieuwe vaardigheden kan verwerven buiten de data waarop het is getraind.
Chollet introduceerde ARC-AGI, de afkorting voor “Abstract and Reasoning Corpus for Artificial General Intelligence,” in 2019. Veel AI-systemen kunnen Math Olympiad-examens met glans maken en mogelijke oplossingen voor PhD-niveau problemen bedenken. Maar tot dit jaar kon de best presterende AI nog geen twee derde van de taken in ARC-AGI oplossen.
“In tegenstelling tot de meeste grensverleggende AI-benchmarks, proberen we AI-risico niet te meten met supermenselijke examenvragen,” schreef Chollet in het bericht. “Toekomstige versies van de ARC-AGI-benchmark zullen zich richten op het verkleinen van [de menselijke capaciteit] kloof naar nul.”
ARC-AGI bestaat uit puzzelachtige problemen waarbij een AI het juiste “antwoord” raster moet genereren uit een verzameling verschillende kleuren vierkanten. De problemen zijn ontworpen om een AI te dwingen zich aan te passen aan nieuwe problemen die het nog niet eerder heeft gezien.
Afgelopen juni gaven Chollet en Zapier mede-oprichter Mike Knoop een wedstrijd om een AI te bouwen die in staat zou zijn om ARC-AGI te overtreffen. Het onuitgebrachte o3-model van OpenAI was de eerste die een kwalificerende score behaalde — maar alleen met een buitengewoon grote hoeveelheid rekencapaciteit.
Chollet heeft duidelijk gemaakt dat ARC-AGI gebreken heeft — veel modellen hebben zich een weg naar hoge scores gebaand door brute kracht — en dat hij niet gelooft dat o3 menselijk niveau intelligentie bezit.
“[E]e early data points suggereren dat de aankomende [opvolger van de ARC-AGI] benchmark nog steeds een aanzienlijke uitdaging zal vormen voor o3, wat mogelijk zal leiden tot een score onder de 30% zelfs bij hoge rekencapaciteit (terwijl een slimme mens nog steeds boven de 95% zou kunnen scoren zonder training),” zei Chollet in een verklaring vorig december. “Je weet dat kunstmatige algemene intelligentie hier is wanneer het creëren van taken die makkelijk zijn voor gewone mensen maar moeilijk voor AI simpelweg onmogelijk wordt.”
Knoop zegt dat het plan is om dit jaar een tweede-generatie ARC-AGI benchmark te lanceren samen met een nieuwe competitie. De nonprofit zal ook beginnen met het ontwerpen van de derde editie van ARC-AGI.
Het is nog te bezien hoe de ARC Prize Foundation omgaat met de kritiek die Chollet heeft gekregen voor het te ver verkopen van ARC-AGI als een benchmark richting het bereiken van AGI. De definitie van AGI wordt nu fel betwist; een medewerker van OpenAI beweerde onlangs dat AGI “al” is bereikt als men AGI definieert als AI “beter dan de meeste mensen in de meeste taken.”
Interessant is dat de CEO van OpenAI, Sam Altman, in december zei dat het bedrijf van plan is om samen te werken met het ARC-AGI-team om toekomstige benchmarks te bouwen. Chollet gaf vandaag geen update over een mogelijke samenwerking in de aankondiging.