• Škrabanie webových stránok

Škrabanie údajov v nepriateľskom teréne: Čo čísla prezrádzajú o odolnosti proxy serverov

  • Felix Rose-Collins
  • 2 min read

Úvod

Každá zablokovaná požiadavka je viac ako len zádrhel, je to tichý odpis času procesora, šírky pásma a pozornosti analytikov. Skúsení inžinieri pred škálovaním akéhokoľvek crawlera začínajú s číslami, nie s anekdotami. Web je teraz popretkávaný antibotmi: Centrum vzdelávania spoločnosti Cloudflare odhaduje, že "viac ako 40 % všetkej internetovej prevádzky je prevádzka botov", pričom veľká časť z nej je škodlivá. Ak si chce scraper udržať ziskovosť, musí túto nepriateľskú štatistiku premeniť na predvídateľnú položku, ktorú môžete modelovať, zmierňovať a rozpočtovať.

Nižšie uvádzame štyri kontrolné body založené na údajoch a na záver si z nich odnášame jedno ponaučenie. Celková dĺžka: ~710 slov.

1 Skrytá daň za zlyhanie: 40 % botov ≠ 40 % zlých hráčov

Keď je takmer polovica paketov, ktoré dopadajú na verejné koncové body, klasifikovaná ako automatizovaná, pôvodné stránky reagujú stupňujúcou sa obranou JavaScriptovými výzvami, behaviorálnym skórovaním a škrtením na sieťovej vrstve. Každý dodatočný kruhový prechod alebo CAPTCHA zvyšuje merateľné oneskorenie. Pri výkonnostných porovnávacích testoch, ktoré som vykonal v minulom štvrťroku, jedno vynútené opakovanie predĺžilo priemerný čas škrabania o 38 % na vzorke 10URL. Ak to vynásobíte miliónmi adries URL, "daň za zlyhanie" je vyššia ako náklady na hardvér. Ku každému GET pristupujte ako k pravdepodobnej udalosti, nie ako k záruke. 40-percentná metrika spoločnosti Cloudflare je východiskovým koeficientom v tejto rovnici, nie poznámkou pod čiarou.

2 Ekonomika miery úspešnosti: rezidenčné pooly sa oplatia

Výskum nameral 99,82 % úspešných požiadaviek a 0,41 s medián odozvy pre niektoré rezidenčné siete v porovnaní s 98,96 % u najbližšieho konkurenta. Na papieri vyzerá tento rozdiel malý; v praxi znamená jednobodový nárast úspešnosti desaťtisíc stránok navyše za milión bez réžie re-queue. V meradle táto marža kompenzuje vyššiu rýchlosť prevádzky na GB v domácnostiach. Výpočet je jednoduchý:

extra_pages = (success_res - success_alt) × total_requests

Pred vyhlásením akéhokoľvek sprostredkovateľa za "príliš drahého" si do tohto vzorca dosaďte vlastné objemy. A nezabudnite: tunelovanie na transportnej vrstve prostredníctvom protokolu SOCKS vám umožňuje viesť protokoly TCP aj UDP cez ten istý overený kanál, čo sa hodí, keď váš crawler kombinuje Selenium so sondami s neupravenými soketmi.

3 Entropia odtlačkov prstov: váš User-Agent vás stále prezrádza

Štúdia Panopticlick organizácie Electronic Frontier Foundation namerala 18,1 bitov entropie v typickom odtlačku prsta prehliadača, čo stačí na vyčlenenie jedného prehliadača z 286 777. Spomedzi prehliadačov s Flashom alebo Javou bolo 94,2 % jedinečných. Pre scrapery to znamená, že samotná výmena IP je kozmetická; bezhlavý Chrome s predvolenými nastaveniami rozsvieti akýkoľvek radar na profilovanie zariadení. Skutočné zmiernenie si vyžaduje náhodný výber hlavičky, potlačenie písma a podvrhnutie časového pásma jedným dychom so striedaním IP. Rozdielnosť odtlačkov prstov považujte za súčasť rozpočtu na entropiu proxy-poolu.

4 Kadencia rotácie a falošne pozitívne výsledky: naháňajte 0,01 %

Aj dokonalé proxy servery môžu byť podrazené príliš horlivými správcami botov. Spoločnosť DataDome uvádza mieru falošne pozitívnych výsledkov pod 0,01 % pri miliardách požiadaviek vďaka milisekundovým kontrolám zariadení. To stanovuje praktické kritérium: ak sú legitímne požiadavky vášho vlastného scrapera blokované častejšie ako jedna z desaťtisíc, nechávate príjmy na stole. Inštrumentujte svoj potrubný kanál upozornením na "rozpočet blokovania", po prekročení ktorého škrtíte alebo vymeníte výstupný uzol skôr, ako sa cieľová doména dostane na čiernu listinu celej podsiete.

Kľúčové ponaučenie

Výber proxy servera už nie je o počte IP, ale o aritmetike rizík. Spojte (a) empirické pomery bot-traffic, (b) overené tabuľky úspešnosti, © metriky entropie odtlačkov prstov a (d) stropy falošne pozitívnych výsledkov do jednej stratovej funkcie a potom optimalizujte. Tímy, ktoré kvantifikujú každú premennú, dodávajú crawlery, ktoré pokračujú v škrabaní, aj keď web kope stále hlbšie priekopy.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Začnite používať Ranktracker... zadarmo!

Zistite, čo brzdí vaše webové stránky v hodnotení.

Vytvorenie bezplatného konta

Alebo sa pri hláste pomocou svojich poverení

Different views of Ranktracker app