Ievads
Katrs bloķēts pieprasījums ir vairāk nekā tikai aizķeršanās, tas ir klusa procesora laika, joslas platuma un analītiķu uzmanības norakstīšana. Pieredzējuši inženieri, pirms mērogošanas sāk ar skaitļiem, nevis anekdotēm. Tagad tīmeklī ir izvietoti pret robotiem vērsti vadi: Cloudflare mācību centrs lēš, ka "vairāk nekā 40 % no visas interneta datplūsmas ir robotu datplūsma", turklāt liela daļa no tās ir ļaunprātīga. Lai saglabātu rentabilitāti, skrāpētājam šī naidīgā statistika ir jāpārvērš par prognozējamu pozīciju, ko var modelēt, mazināt un pret kuru var izstrādāt budžetu.
Turpinājumā mēs pārvarēsim ažiotāžu ar četriem uz datiem balstītiem kontrolpunktiem un noslēgsim ar vienu atziņu, no kuras var izdarīt secinājumus. Kopējais garums: ~710 vārdi.
1 Slēptais neveiksmes nodoklis: 40 % robotu ≠ 40 % slikto dalībnieku
Ja gandrīz puse no paketēm, kas sasniedz publiskos galapunktus, tiek klasificētas kā automatizētas, izcelsmes vietnes reaģē ar pastiprinātu aizsardzību, izmantojot JavaScript izaicinājumus, uzvedības vērtēšanu un tīkla slāņa droseļošanu. Katrs papildu apļveida ceļojums vai CAPTCHA palielina izmērāmu kavēšanos. Pagājušajā ceturksnī veiktajos veiktspējas salīdzinošajos rādītājos konstatēts, ka viens piespiedu atkārtojums vidējo skrāpēšanas laiku palielināja par 38 % 10URL paraugā. Ja to reizina ar miljoniem URL, "neveiksmes nodoklis" ir lielāks par aparatūras izmaksām. Uzskatiet katru GET par iespējamu notikumu, nevis garantiju. Cloudflare 40 % rādītājs ir sākuma koeficients šajā vienādojumā, nevis zemsvītras piezīme.
2 Panākumu koeficienta ekonomika: dzīvojamo ēku baseini atmaksājas paši.
Pētījumā tika konstatēti 99,82 % veiksmīgu pieprasījumu un 0,41 s vidējā atbildes reakcija kādā dzīvojamo māju tīklā, salīdzinot ar 98,96 % tuvākajam konkurentam. Uz papīra šī starpība izskatās neliela; praksē panākumu pieaugums par vienu punktu nozīmē desmit tūkstošus papildu lappušu uz miljonu bez atkārtotas pārsūtīšanas izmaksām. Šāda rezerve kompensē augstāko tarifu par vienu GB datplūsmas, kas attiecas uz mājsaimniecību datplūsmu. Aprēķins ir vienkāršs:
extra_pages = (success_res - success_alt) × total_requests
Pirms pasludināt jebkuru starpnieku par "pārāk dārgu", ievietojiet šajā formulā savu apjomu. Un atcerieties: transporta slāņa tuneļošana, izmantojot SOCKS protokolu, ļauj caur vienu un to pašu autentificētu kanālu savienot gan TCP, gan UDP, kas ir ērti, ja jūsu pārlūks apvieno Selenium ar neapstrādātu ligzdu zondēm.
3 Pirkstu nospiedumu entropija: jūsu lietotāja aģents joprojām jūs nodod
Electronic Frontier Foundation veiktajā Panopticlick pētījumā tika izmērīta 18,1 bita entropija tipiskā pārlūkprogrammas pirkstu nospiedumā, kas ir pietiekami, lai izdalītu vienu pārlūkprogrammu no 286 777. No pārlūkprogrammām ar Flash vai Java 94,2 % bija unikālas. Skrāpjiem tas nozīmē, ka IP adreses maiņa vien ir kosmētiska; Chrome bez galvas ar noklusējuma iestatījumiem izgaismos jebkuru ierīču profilēšanas radaru. Reālai ierobežošanai ir nepieciešama galvenes randomizācija, fontu nomākšana un laika joslu viltošana, un IP rotācija ir viens un tas pats. Pirkstu nospiedumu variāciju uzskatiet par daļu no sava proxy-pool entropijas budžeta.
4 Rotācijas kadence un viltus pozitīvie iznākumi: vajā 0,01 %.
Pat perfektus starpniekservisus var sabojāt pārāk dedzīgi robotu pārvaldnieki. DataDome ziņo, ka, pateicoties milisekundes līmeņa ierīču pārbaudēm, miljardiem pieprasījumu kļūdaini pozitīvo rezultātu līmenis ir zemāks par 0,01 %. Tas nosaka praktisku kritēriju: ja jūsu skrāpētāja likumīgie pieprasījumi tiek bloķēti biežāk nekā viens no desmit tūkstošiem, jūs atstājat ieņēmumus uz galda. Ja vienreiz tiek pārsniegts "bloķēšanas budžets", izmantojiet savu cauruļvadu ar brīdinājumu par bloķēšanas budžeta pārsniegšanu, ierobežojiet vai nomainiet izejas mezglu, pirms mērķa domēns iekļauj visu apakštīklu melnajā sarakstā.
Galvenā atziņa
Starpniekserveru izvēle vairs nav saistīta ar neapstrādātu IP skaitu, bet gan ar riska aritmētiku. Apvienojiet a) empīriskos robotu datplūsmas rādītājus, b) pārbaudītas veiksmes rādītāju tabulas, © pirkstu nospiedumu entropijas rādītājus un d) viltus pozitīvo rezultātu maksimālo skaitu vienā zaudējumu funkcijā, pēc tam optimizējiet. Komandas, kas kvantitatīvi novērtē katru mainīgo lielumu, piegādā rāpotājus, kas turpina izlūkot, pat ja tīmeklī tiek rakts aizvien dziļāks grāvis.