De zogenaamde redeneer-AI-modellen worden steeds gemakkelijker — en goedkoper — te ontwikkelen.

    Op vrijdag heeft NovaSky, een team van onderzoekers van het Sky Computing Lab aan de UC Berkeley, Sky-T1-32B-Preview gelanceerd, een redeneer-model dat concurrerend is met een eerdere versie van OpenAI’s o1 op verschillende belangrijke benchmarks. Sky-T1 lijkt het eerste echte open-source redeneer-model te zijn in de zin dat het volledig vanaf nul kan worden gerepliceerd; het team heeft de dataset die ze hebben gebruikt om het te trainen vrijgegeven evenals de benodigde trainingscode.

    “Opmerkelijk is dat Sky-T1-32B-Preview werd getraind voor minder dan $450,” schreef het team in een blog-post, “wat aantoont dat het mogelijk is om op een betaalbare en efficiënte manier geavanceerde redeneervaardigheden te repliceren.”

    In tegenstelling tot de meeste AI-modellen factchecken redeneer-modellen zichzelf effectief, wat hen helpt om sommige valkuilen te vermijden waar normaal gesproken modellen in trappen. Redeneer-modellen hebben iets meer tijd nodig — meestal een paar seconden tot minuten langer — om tot oplossingen te komen in vergelijking met een typisch niet-redeunend model. Het voordeel is, ze zijn vaak betrouwbaarder in domeinen zoals natuurkunde, wetenschap en wiskunde.

    Het NovaSky-team zegt dat ze een ander redeneer-model, Alibaba’s QwQ-32B-Preview, hebben gebruikt om de initiële trainingsdata voor Sky-T1 te genereren, en vervolgens de data-mix “gecurate” hebben en OpenAI’s GPT-4o-mini hebben benut om de data in een beter werkbaar formaat te refactoren. Het trainen van het Sky-T1-model met 32 miljard parameters duurde ongeveer 19 uur met een rack van 8 Nvidia H100 GPU’s. (Parameters komen ruwweg overeen met de probleemoplossende vaardigheden van een model.)

    See also  How to make money with chatGPT?

    Volgens het NovaSky-team presteert Sky-T1 beter dan een vroege previewversie van o1 op MATH500, een verzameling van “competitieniveau” wiskundige uitdagingen. Het model overtreft ook de preview van o1 op een reeks moeilijke problemen van LiveCodeBench, een evaluatie van codering.

    Echter, Sky-T1 komt tekort op de o1-preview bij GPQA-Diamond, dat vragen bevat over natuurkunde, biologie en scheikunde waarvan een PhD-afgestudeerde geacht wordt ze te kennen.

    Ook belangrijk om op te merken is dat OpenAI’s GA-release van o1 een sterker model is dan de previewversie van o1, en dat OpenAI verwacht wordt om in de komende weken een nog beter presterend redeneer-model, o3, te lanceren.

    Maar het NovaSky-team zegt dat Sky-T1 slechts het begin markeert van hun reis om open-source modellen met geavanceerde redeneervaardigheden te ontwikkelen.

    “Vooruitkijkend zullen we ons richten op het ontwikkelen van efficiëntere modellen die sterke redeneer-prestaties behouden en geavanceerde technieken verkennen die de efficiëntie en nauwkeurigheid tijdens testen verder verbeteren,” schreef het team in de post. “Blijf op de hoogte terwijl we vooruitgang boeken met deze opwindende initiatieven.”

    Share.
    Leave A Reply