Nvidia heeft op CES 2025 een prototype AI-avatar onthuld dat op je bureaublad op je pc leeft. De AI-assistent, R2X, lijkt op een videogamepersonage en kan je helpen bij het navigeren door apps op je computer.
De R2X-avatar is gerenderd en geanimeerd met behulp van de AI-modellen van Nvidia, en gebruikers kunnen de avatar gebruiken met populaire LLM’s naar keuze, zoals OpenAI’s GPT-4o of xAI’s Grok. Gebruikers kunnen met R2X communiceren via tekst en spraak, bestanden uploaden voor verwerking, of zelfs de AI-assistent toestaan om te zien wat er live op je scherm of camera gebeurt.
Techbedrijven zijn de laatste tijd veel AI-avatar’s aan het creëren, niet alleen in videogames, maar ook voor zakelijke en consumentenklanten. De vroege demo’s zijn raar, maar sommigen denken dat deze avatar’s een veelbelovende gebruikersinterface voor AI-assistenten zijn. Met R2X probeert Nvidia generatieve videogamecapaciteiten te combineren met geavanceerde AI-assistenten om een AI-assistent te creëren die er uitziet en aanvoelt als een mens.
Net als de Recall-functie van Microsoft (die is uitgesteld vanwege privacyzorgen), kan R2X constant screenshots van je scherm maken en deze door een AI-model voor verwerking laten lopen, hoewel deze functie standaard is uitgeschakeld. Wanneer het aanstaat, kan het feedback geven op applicaties die op je computer draaien en bijvoorbeeld helpen bij het oplossen van een complex coderingsprobleem.
R2X is nog steeds een prototype, en zelfs Nvidia geeft toe dat er nog wat bugs zijn om op te lossen. In demo’s met NewsByGeek had de avatar van Nvidia een uncanny-valley-gevoel – zijn gezicht bleef soms in vreemde posities hangen en de toon voelde af en toe een beetje agressief aan. En in het algemeen vind ik het raar dat een klein humanoïde avatar me aankijkt terwijl ik aan het werk ben.
Het gaf over het algemeen nuttige instructies en keek nauwkeurig wat er op het scherm stond. Maar op een gegeven moment gaf de avatar ons onjuiste instructies, en later stopte de avatar met het kunnen zien van het scherm. Dit kan een probleem zijn met het onderliggende AI-model (in dit geval, GPT-4o), maar het voorbeeld toont de beperkingen van deze vroege technologie aan.
In een demo toonde een productleider van Nvidia aan hoe R2X kan kijken naar en gebruikers kan helpen met de apps op je scherm. Specifiek hielp R2X ons bij het gebruik van Adobe Photoshop’s generatieve vulfunctie. De foto die we selecteerden was Nvidia CEO Jensen Huang, staande in een Aziatisch restaurant met twee restaurantmedewerkers. De avatar van Nvidia hallucineerde en gaf de verkeerde instructies over waar de generatieve vulfunctie te vinden was. Maar nadat we het AI-model dat we gebruikten hadden veranderd naar xAI’s Grok, herwon de avatar zijn kijkmogelijkheden op het scherm.
In een andere demo kon R2X een PDG van het bureaublad opnemen en vervolgens vragen erover beantwoorden. Dit proces wordt aangedreven door een lokale retrieval augmented generation-functie, die deze AI-avatar’s de mogelijkheid geeft om informatie uit een document te halen en te verwerken met behulp van het onderliggende LLM.
Nvidia gebruikt enkele AI-modellen van zijn videogamedivisie om de manier waarop deze avatar’s eruitzien te ondersteunen. Voor het genereren van avatar’s gebruikt Nvidia zijn RTX-neurale gezichten-algoritme. Om de gezichtsgestiek, lip- en tongbewegingen te automatiseren, gebruikt Nvidia een nieuw model met de naam Audio2Face™-3D. Dat model leek op sommige momenten vast te lopen en hield het gezicht van de avatar in ongemakkelijke posities.
Het bedrijf zegt ook dat deze R2X-avatar’s in staat zullen zijn om deel te nemen aan Microsoft Teams-vergaderingen, als een persoonlijke assistent.
Een productleider van Nvidia zegt dat het bedrijf werkt aan het geven van agentic abilities aan deze AI-avatar’s, zodat R2X op een dag acties op je desktop kan ondernemen. Deze mogelijkheden lijken nog een lange weg te gaan, en ze zouden waarschijnlijk partnerschappen met softwaremakers zoals Microsoft en Adobe vereisen, die ook proberen soortgelijke agentic systemen te ontwikkelen.
Het is niet meteen duidelijk hoe Nvidia de stemmen in deze producten genereert. De stem van R2X bij het gebruik van GPT-4o klinkt uniek vergeleken met een van ChatGPT’s vooraf ingestelde stemmen, terwijl xAI’s Grok-chatbot nog helemaal geen stemmodus heeft.
Het bedrijf is van plan om deze avatar’s in de eerste helft van 2025 open-source te maken. Nvidia ziet dit als een nieuwe gebruikersinterface voor ontwikkelaars om mee te bouwen, zodat gebruikers hun favoriete AI-softwareproducten kunnen inpluggen of zelfs deze avatar’s lokaal kunnen runnen.