Twitter komt met tijdelijke daglimieten om dataverzameling tegen te gaan – IT Pro – Nieuws

De patronen van schrapers zijn echt significant anders dan die van gebruikers, dus die moet je relatief gemakkelijk kunnen afremmen.

Ja, als je enkel puur geschraapt vanuit een enkel IP en met dezelfde headers. Laat me je bijdragen op manieren dat je voorbij blokken komt:

* Veranderende TLS (een manier waarop cloudflare scraping probeert tegen te houden is door TLS fingerprinting)
* Proxies / roterende IP’s (en met IP6 is dat nog makkelijker of je hele /64 … wat voor blokkades dan ook moeten worden geblokkeerd)
* Veranderende headers dat overeenkomsten komen met de actuele browsers. Ofwel, je schrapt niet met een lege basiskop, maar een die overeenkomst komt met wat de site verwacht.
* headless browsers indien mannen JS trucjes proberen te halen
* Virtual Profile (virtuele clients die herhalen dat herhalen zijn, aka, dat overkomen als echte klanten en waar hun headers enz blijven maar dat een patroon van topics volgen / herscrapen)
* Accountprofielen (zie hierboven maar waarbij je accounts aanmaakt, en ieder account, elke dag in bepaalde interesten blijft schrapen). Zeer moeilijk te herkennen buiten willekeurige controles te laten uitvoeren.
* En het lezen van de github waar mensen anti-scraping integeren in hun software en dan doe je gewoon het omgekeerde (zoals bepaalde browsers hebben bugs/features die mannen kunnen gebruiken om scraping te gedeeld, maar als je dat weet, boots je dat gedrag na Of je gebruikt gewoon een headless browser)

Als je eenmaal weet dat je de inhoud van een site hebt geschrapt, ga je op zoek naar nieuwe inhoud, oftewel, je schraapwoord geen 10 miljoen aan oproepen meer om alles binnen te halen. Het probleem voor sites om scraping tegen te houden, is dat men meer en meer naar speciale gevallen moet zoeken om scraping bots te herkennen.

Waar een schraper, eenmaal dat men een goed systeem heeft opgebouwd, datzelfde systeem kan blijven hergebruiken op alle websites (mits hier en daar updates voor als iemand een nieuwe trukje vond).

Het is een oorlog dat je automaten verloren willen, want de schraper moet zich geen zorgen maken over het cliënteel. Als websitebeheerder moet je opletten dat je anti-scraping geen echte gebruikers plat legt, zoals mensen die geen standaard chroombrowsers gebruiken of andere patronen hebben dan normaal. Waar een schraper met minder moeite te blokkeren kan omzeilen.

En schrapen is ook big business. Er zijn bedrijven die zich specialiseren in het schrapen van inhoud, en waar je een 500 $ betaald voor miljoenen oproepen per maand. En die doen als de fixes als een site de boel blokkeer. De realiteit is, dat als mensen je gegevens willen, dat mensen het te pakken krijgen. En tegen een VEEL goedkopere prijs dan wat vele bedrijven hun API aanbieden. Ironisch is het beschermen van je website tegen schrapen, eigenlijk duurder wil je volledige pagina’s weergeven van je server, dat de schraper enkele stukjes eruithaalt. Waar als je data goedkoop wordt aangeboden via een API, dan gaat men gewoon gebruik maken van de API en je servers minder gebruiken.

De realiteit is, er is een hele industrie die zich bezig houdt en het actueel schrapen zelf is niet illegaal, het is wat je met de gegevens doet is waar het probleem is. En als de data verwerkt zit in AI-modellen, veel plezier om dat te ontdekken.

De enige manier waarop je tegenhoud wordt geschrapt, is betaalde diensten (en dan zal er ook wel een illegale dienst komen van gestolen rekeningen/gestolen paypal enz, dat schrapen zal aanbieden). Maar betaalde diensten zijn ENORM moeilijk om te bouwen want mensen hebben maar zoveel vrij geld elke maand. En dan geven ze dat geld enkel aan de hoge / biologische diensten… Spotify, Youtube (als ze echt addblockers tegenhouden), streamingdiensten. En plop, geen geld meer voor andere diensten. Dat is het probleem een ​​beetje deze dagen. Zodra dat alles te veel betalende woord is, verliezen je gebruikers en gaan mensen de onleesbare route weer in. En … hallo schrapers.

Het is echt een cyclus die de meeste bedrijven niet begrijpen. Mensen zijn geen potjes van ongelimiteerd geld en dat is te doen als je als bedrijf opgebouwd hebt in een monopolie positie in een marktsegment maar al de rest, tja …

credit :Source link

We will be happy to hear your thoughts

Leave a reply

12game.shop
Logo