• Web Scraping

Andmete hankimine vaenulikul pinnal: Mida näitavad arvud proxy vastupidavuse kohta

  • Felix Rose-Collins
  • 2 min read

Intro

Iga blokeeritud päring on rohkem kui vaid lonkamine, see on vaikne mahakandmine protsessoriaja, ribalaiuse ja analüütikute tähelepanu osas. Enne mis tahes roomikute skaleerimist alustavad kogenud insenerid numbritest, mitte anekdootidest. Veebi on nüüd pitsitatud robotivastaste komistuskohtadega: Cloudflare'i õpikeskuse hinnangul on "üle 40 % kogu internetiliiklusest bot-liiklus", millest suur osa on pahatahtlik. Selleks, et jääda kasumlikuks, peab kraapija muutma selle vaenuliku statistika prognoositavaks kirjeks, mida saab modelleerida, leevendada ja eelarvestada.

Allpool lõikame läbi hype nelja andmepõhise kontrollpunktiga ja lõpetame ühe õppetunniga. Kogupikkus: ~710 sõna.

1 Varjatud ebaõnnestumise maks: 40 % robotid ≠ 40 % halvad osalejad

Kui peaaegu pooled avalikke lõpp-punkte tabavatest pakettidest liigitatakse automatiseeritud pakettideks, reageerivad päritolukohad eskaleeruvate kaitsemeetmetega JavaScript-probleemid, käitumuslik skoorimine ja võrgukihi drosseldamine. Iga lisakäik või CAPTCHA lisab mõõdetavat viivitust. Eelmises kvartalis tehtud tulemuslikkuse võrdlusuuringutes paisutas üks sunnitud korduskatse 10URLi proovi puhul keskmist skreppimise aega 38 % võrra. Kui see korrutada miljonite URL-ide peale, siis "ebaõnnestumiste maks" on riistvarakuludest väga suur. Käsitlege iga GET-i kui tõenäosuslikku sündmust, mitte kui garantiid. Cloudflare'i 40-protsendiline näitaja on selle võrrandi algkoefitsient, mitte joonealune märkus.

2 Edukuse määra ökonoomika: elamurajoonid tasuvad end ise ära

Uuringud kella 99,82 % edukate päringute ja 0,41 s mediaanvastuse kohta mõnele elamuvõrgule, võrreldes 98,96 % lähima konkurendi puhul. Paberil tundub see vahe väike; tegelikkuses tähendab üheprotsendiline edusammude kasv kümme tuhat lisalehte miljoni lehekülje kohta, ilma et oleks vaja uuesti järjekorda seada. See marginaal korvab mastaabis elamurahvale suunatud liikluse kõrgema gigabaidi hinna. Arvutus on lihtne:

ekstra_leheküljed = (success_res - success_alt) × total_requests.

Enne kui kuulutate mis tahes vahendaja "liiga kalliks", sisestage sellesse valemisse oma mahud. Ja pidage meeles: transpordikihi tunneldamine SOCKS-protokolli kaudu võimaldab teil juhtida nii TCP kui ka UDP läbi sama autentitud kanali, mis on mugav, kui teie roomik segab Seleniumi ja toorsoketi sondeeringuid.

3 Sõrmejälje entroopia: teie User-Agent reedab teid ikka veel.

Electronic Frontier Foundationi Panopticlicki uuringus mõõdeti 18,1 bitti entroopiat tüüpilises brauseri sõrmejäljes, mis on piisav, et tuvastada üks brauser 286 777-st. Flash'i või Java'ga varustatud brauserite puhul oli 94,2 % unikaalne. See tähendab, et IP-koodide vahetamine üksi on kosmeetiline; vaikimisi seadistustega Chrome'i peadeta brauser süütab mis tahes seadmeprofiilide radari. Tõeline tõrjumine nõuab IP-vahetusega samas hingamises päise juhuslikuks muutmist, kirjastiili allasurumist ja ajavööndi võltsimist. Käsitlege sõrmejälgede varieeruvust kui osa oma proxy-pooli entroopia eelarvest.

4 Pööramise sagedus ja valepositiivsed tulemused: jahtige 0,01 %.

Isegi täiuslikud proxy'd võivad üle-eestilised botihaldurid välja lülitada. DataDome'i andmetel on valepositiivsuse määr miljardite päringute puhul alla 0,01 %, tänu millisekundite tasemel seadmete kontrollimisele. See seab praktilise mõõdupuu: kui teie enda skrapperite seaduslikke päringuid blokeeritakse sagedamini kui üks kümnest tuhandest, jätate tulud laua peale. Instrumenteerige oma torujuhtme "blokeerimise eelarve" hoiatusega, kui see on ületatud, drosselge või vahetage väljumissõlm enne, kui sihtdomeen lisab terve alamvõrgu musta nimekirja.

Peamine õppetund

Proxy valimine ei ole enam seotud toore IP-arvuga, see on riskianalüüsi harjutus. Kombineerige a) empiirilised bot-traffic suhtarvud, b) kontrollitud edukuse määrade tabelid, © sõrmejälje entroopia mõõdikud ja d) valepositiivsed ülemmäärad üheks kahjufunktsiooniks, seejärel optimeerige. Meeskonnad, kes kvantifitseerivad iga muutuja, tarnivad roomikud, mis jätkavad kraapimist isegi siis, kui veebi kaevab üha sügavamale kraavi.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Alusta Ranktracker'i kasutamist... Tasuta!

Uuri välja, mis takistab sinu veebisaidi edetabelisse paigutamist.

Loo tasuta konto

Või logi sisse oma volituste abil

Different views of Ranktracker app