Vermijd verwarring: schrap websites niet opnieuw

De webcrawler die door Perplexity wordt gedistribueerd om websites te scrapen, lijkt beperkingen te omzeilen op Battiscopa, volgens een nieuw rapport van CloudFlare. Het rapport suggereert dat de robots van het bedrijf zich vermommen als “onzichtbare scansites” om robots.txt-bestanden en firewalls te omzeilen.

Robots.txt is een eenvoudig bestand op websites dat webcrawlers vertelt of ze de inhoud van een website mogen scrapen of niet. De scanrobots van Perplexity worden geïdentificeerd als “verwarrend” en “Pertlexity-User”. Uit tests van Cloudflare bleek dat Pertlexity nog steeds in staat was om de inhoud van een nieuwe website te bekijken, zelfs wanneer de specifieke robots werden geblokkeerd door Robot.txt. Dit gedrag werd ook waargenomen op websites met specifieke webfirewallregels die de webcrawler beperkten.

Cloudflare suggereert dat Perplexity deze obstakels omzeilt door gebruik te maken van “een generieke browser die bedoeld is om Google Chrome op macOS na te bootsen” wanneer Robot.txt de normale robots verbiedt. In tests van Cloudflare kon de niet-aangeduide crawler van het bedrijf ook roteren via IP-adressen die niet in de officiële IP-reeks van Perplexity stonden vermeld om de firewalls te omzeilen. Cloudflare merkt op dat Perplexity ook lijkt te spelen met autonome systeemnummers (ASN’s) om de identificatie van de crawler te veranderen op veel domeinen en miljoenen verzoeken per dag.

Perplexity is vaak gebruikt als een dienst om websites te scrapen voor bedrijven die kunstmatige intelligentiemodellen ontwikkelen. In het verleden zijn er gevallen geweest waarin Perplexity nog steeds toegang had tot de inhoud van websites, ondanks de beperkingen in Robot.txt. Het bedrijf heeft samengewerkt met uitgevers om de inkomsten te delen die worden gegenereerd door advertenties die samen met de inhoud worden weergegeven.

Het voorkomen van bedrijven die de inhoud van websites scrapen, blijft een uitdaging. Cloudflare heeft maatregelen genomen om de stealth crawler van Perplexity te identificeren en te blokkeren van toegang tot de inhoud van hun klanten.

BRON

Verwante vermeldingen

Waymo gaat ook voor DoorDash rijden in Phoenix

Waymo heeft aangekondigd dat ze een nieuwe samenwerking zijn aangegaan met DoorDash, waardoor hun zelfrijdende auto’s nu ook ingezet kunnen worden als bezorgoptie voor gebruikers in Phoenix, Arizona. Voorheen konden…

Geruchten over touchscreens op Apple’s M6-generatie MacBook Pro

In Apple-kringen wordt gewezen op een nieuwe tactiele toekomst voor de laptops van het bedrijf. Analist Ming-Chi Kuo suggereerde vorige maand al dat Apple touchscreens zou gaan integreren in MacBooks,…

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Ben je verdwaald?

Waymo gaat ook voor DoorDash rijden in Phoenix

  • Door redactie
  • oktober 16, 2025
  • 0 views
Waymo gaat ook voor DoorDash rijden in Phoenix

Winnaars van de Google Academic Research Award 2025 gefeliciteerd

  • Door redactie
  • oktober 16, 2025
  • 1 views
Winnaars van de Google Academic Research Award 2025 gefeliciteerd

Geruchten over touchscreens op Apple’s M6-generatie MacBook Pro

  • Door redactie
  • oktober 16, 2025
  • 1 views
Geruchten over touchscreens op Apple’s M6-generatie MacBook Pro

DeepSomatic detecteert precies genetische veranderingen bij kanker.

  • Door redactie
  • oktober 16, 2025
  • 0 views
DeepSomatic detecteert precies genetische veranderingen bij kanker.

Open hardware: de toekomst van AI-datacenterinfrastructuur

  • Door redactie
  • oktober 16, 2025
  • 1 views
Open hardware: de toekomst van AI-datacenterinfrastructuur

Google’s ‘Vraag om foto’s’ niet beschikbaar in Texas en Illinois

  • Door redactie
  • oktober 16, 2025
  • 0 views
Google’s ‘Vraag om foto’s’ niet beschikbaar in Texas en Illinois