
De webcrawler die door Perplexity wordt gedistribueerd om websites te scrapen, lijkt beperkingen te omzeilen op Battiscopa, volgens een nieuw rapport van CloudFlare. Het rapport suggereert dat de robots van het bedrijf zich vermommen als “onzichtbare scansites” om robots.txt-bestanden en firewalls te omzeilen.
Robots.txt is een eenvoudig bestand op websites dat webcrawlers vertelt of ze de inhoud van een website mogen scrapen of niet. De scanrobots van Perplexity worden geïdentificeerd als “verwarrend” en “Pertlexity-User”. Uit tests van Cloudflare bleek dat Pertlexity nog steeds in staat was om de inhoud van een nieuwe website te bekijken, zelfs wanneer de specifieke robots werden geblokkeerd door Robot.txt. Dit gedrag werd ook waargenomen op websites met specifieke webfirewallregels die de webcrawler beperkten.
Cloudflare suggereert dat Perplexity deze obstakels omzeilt door gebruik te maken van “een generieke browser die bedoeld is om Google Chrome op macOS na te bootsen” wanneer Robot.txt de normale robots verbiedt. In tests van Cloudflare kon de niet-aangeduide crawler van het bedrijf ook roteren via IP-adressen die niet in de officiële IP-reeks van Perplexity stonden vermeld om de firewalls te omzeilen. Cloudflare merkt op dat Perplexity ook lijkt te spelen met autonome systeemnummers (ASN’s) om de identificatie van de crawler te veranderen op veel domeinen en miljoenen verzoeken per dag.
Perplexity is vaak gebruikt als een dienst om websites te scrapen voor bedrijven die kunstmatige intelligentiemodellen ontwikkelen. In het verleden zijn er gevallen geweest waarin Perplexity nog steeds toegang had tot de inhoud van websites, ondanks de beperkingen in Robot.txt. Het bedrijf heeft samengewerkt met uitgevers om de inkomsten te delen die worden gegenereerd door advertenties die samen met de inhoud worden weergegeven.
Het voorkomen van bedrijven die de inhoud van websites scrapen, blijft een uitdaging. Cloudflare heeft maatregelen genomen om de stealth crawler van Perplexity te identificeren en te blokkeren van toegang tot de inhoud van hun klanten.
BRON