Op zaterdag werd Oleksandr Tomchuk, CEO van Triplegangers, geïnformeerd dat de ecommerce-website van zijn bedrijf was uitgevallen. Het leek een soort gedistribueerde denial-of-service aanval te zijn.
Hij ontdekte al snel dat de schuldige een bot van OpenAI was die onvermoeibaar probeerde om zijn enorme site volledig te scrapen.
“We hebben meer dan 65.000 producten, elk product heeft een pagina,” vertelde Tomchuk aan NewsByGeek. “Elke pagina heeft minstens drie foto’s.”
OpenAI verzond “tientallen duizenden” serververzoeken in een poging om al deze gegevens te downloaden, honderden duizenden foto’s, samen met hun gedetailleerde beschrijvingen.
“OpenAI gebruikte 600 IP-adressen om gegevens te scrapen, en we zijn nog steeds aan het analyseren van de logs van vorige week, misschien zijn het er veel meer,” zei hij over de IP-adressen die de bot gebruikte om te proberen zijn site te benutten.
“Hun crawlers waren onze site aan het verpletteren,” zei hij. “Het was eigenlijk een DDoS-aanval.”
De website van Triplegangers is hun bedrijf. Het zeven-man sterke bedrijf heeft meer dan tien jaar besteed aan het samenstellen van wat zij de grootste database van “digitale menselijke doubles” op het web noemen, wat betekent 3D-afbeeldingsbestanden die zijn gescand van echte mensen modellen.
Het verkoopt de 3D-objectbestanden, evenals foto’s – alles van handen tot haar, huid en volledige lichamen – aan 3D-kunstenaars, videospelontwikkelaars, en iedereen die authentieke menselijke kenmerken digitaal wil recreëren.
Het team van Tomchuk, gevestigd in Oekraïne maar ook gelicentieerd in de VS (Tampa, Florida), heeft een voorwaardenpagina op zijn site die bots verbiedt om zijn afbeeldingen zonder toestemming te gebruiken. Maar dat deed verder niets. Websites moeten een goed geconfigureerd robot.txt-bestand hebben met tags die specifiek de OpenAI-bot, GPTBot, vertellen om de site met rust te laten. (OpenAI heeft ook een paar andere bots, ChatGPT-User en OAI-SearchBot, die hun eigen tags hebben, volgens hun informatieve pagina over hun crawlers.)
Robot.txt, ook bekend als het Robots Exclusion Protocol, is gemaakt om zoekmachines te vertellen wat ze niet moeten crawlen terwijl ze het web indexeren. OpenAI zegt op zijn informatieve pagina dat het dergelijke bestanden respecteert wanneer ze zijn geconfigureerd met hun eigen set van doe-niet-crawl-tags, hoewel het ook waarschuwt dat het tot 24 uur kan duren voordat zijn bots een bijgewerkt robot.txt-bestand herkennen.
Zoals Tomchuk heeft ervaren, als een site robot.txt niet juist gebruikt, betekent dit voor OpenAI en anderen dat ze vrijelijk kunnen scrapen. Het is geen opt-in systeem.
Om de situatie nog erger te maken, was Triplegangers niet alleen offline door de bot van OpenAI tijdens de Amerikaanse kantooruren, maar Tomchuk verwacht ook een torenhoge AWS-rekening door al de CPU- en downloadactiviteit van de bot.
Robot.txt is bovendien geen waterdichte oplossing. AI-bedrijven voldoen vrijwillig aan deze richtlijnen. Een andere AI-startup, Perplexity, werd vorig jaar nogal beroemd bekritiseerd door een Wired-onderzoek toen er aanwijzingen waren dat Perplexity zich daar niet aan hield.
Kun niet zeker weten wat er is genomen
Tegen woensdag, na dagen van terugkerende bots van OpenAI, had Triplegangers een goed geconfigureerd robot.txt-bestand en ook een Cloudflare-account ingesteld om zijn GPTBot en verschillende andere bots te blokkeren, zoals Barkrowler (een SEO-crawler) en Bytespider (TokTok’s crawler). Tomchuk hoopt ook dat hij crawlers van andere AI-modelbedrijven heeft geblokkeerd. Op donderdagochtend crashte de site niet, zei hij.
Maar Tomchuk heeft nog altijd geen redelijke manier om precies te achterhalen wat OpenAI succesvol heeft gescrapet of om dat materiaal te laten verwijderen. Hij heeft geen manier gevonden om OpenAI te contacteren en te vragen. OpenAI heeft niet gereageerd op het verzoek om commentaar van NewsByGeek. En OpenAI heeft tot nu toe zijn lang beloofde opt-out tool nog niet geleverd, zoals onlangs gerapporteerd door NewsByGeek.
Dit is een bijzonder lastig probleem voor Triplegangers. “We zitten in een bedrijf waar de rechten een serieus probleem zijn, omdat we echte mensen scannen,” zei hij. Met wetten zoals de GDPR in Europa, “kunnen ze niet zomaar een foto van iemand op het web nemen en deze gebruiken.”
De website van Triplegangers was ook een bijzonder interessante vondst voor AI-crawlers. Multibillion-dollar gewaardeerde startups, zoals Scale AI, zijn gecreëerd waar mensen zorgvuldig afbeeldingen taggen om AI te trainen. De site van Triplegangers bevat foto’s die gedetailleerd zijn getagd: etniciteit, leeftijd, tatoeages versus littekens, alle lichaamstypes, enzovoorts.
De ironie is dat de hebzucht van de OpenAI-bot Triplegangers juist heeft gewaarschuwd over hoe blootgesteld ze was. Had het minder agressief gescrapet, zou Tomchuk het nooit hebben geweten, zei hij.
“Het is eng omdat er een maas in de wet lijkt te zijn dat deze bedrijven gebruiken om gegevens te crawlen door te zeggen ‘je kunt je afmelden als je je robot.txt bijwerkt met onze tags,’” zegt Tomchuk, maar dat legt de verantwoordelijkheid op de ondernemer om te begrijpen hoe ze hen kunnen blokkeren.
Hij wil dat andere kleine online bedrijven weten dat de enige manier om te ontdekken of een AI-bot de auteursrechtelijke bezittingen van een website neemt, is door actief te controleren. Hij is zeker niet alleen in het worden geterroriseerd door hen. Eigenaren van andere websites vertelden onlangs hoe OpenAI-bots hun sites hebben gecrasht en hun AWS-rekeningen hebben verhoogd.
Het probleem groeide enorm in 2024. Onderzoek van het digitale reclamebedrijf DoubleVerify vond dat AI-crawlers en scrapers een stijging van 86% in “algemene ongeldige verkeer” veroorzaakten in 2024 — dat is verkeer dat niet afkomstig is van een echte gebruiker.
Toch, “de meeste sites zijn zich niet bewust dat ze zijn gescraped door deze bots,” waarschuwt Tomchuk. “Nu moeten we dagelijks logactiviteit monitoren om deze bots op te sporen.”
Als je erover nadenkt, werkt het hele model een beetje als een maffia-shakedown: de AI-bots zullen nemen wat ze willen tenzij je bescherming hebt.
“Ze zouden om toestemming moeten vragen, niet alleen gegevens moeten scrapen,” zegt Tomchuk.