Giriş
Engellenen her istek bir aksaklıktan daha fazlasıdır; CPU zamanı, bant genişliği ve analistlerin dikkati açısından sessiz bir kayıptır. Herhangi bir tarayıcıyı ölçeklendirmeden önce, deneyimli mühendisler anekdotlarla değil rakamlarla işe başlar. Web artık anti-bot tuzak telleriyle dolu: Cloudflare'in öğrenme merkezi , "tüm İnternet trafiğinin %40'ından fazlasının bot trafiği olduğunu" ve bunların çoğunun kötü niyetli olduğunu tahmin ediyor. Kârlı kalabilmek için, bir kazıyıcı bu düşmanca istatistiği modelleyebileceğiniz, azaltabileceğiniz ve bütçeleyebileceğiniz öngörülebilir bir kalem haline getirmelidir.
Aşağıda, veriye dayalı dört kontrol noktasıyla aldatmacayı kesip atıyor ve tek bir dersle bitiriyoruz. Toplam uzunluk: ~710 kelime.
1 Gizli başarısızlık vergisi: 40 botlar ≠ %40 kötü aktörler
Genel uç noktalara ulaşan paketlerin neredeyse yarısı otomatik olarak sınıflandırıldığında, kaynak siteler JavaScript zorlukları, davranışsal puanlama ve ağ katmanı daraltma gibi artan savunmalarla yanıt verir. Her ekstra gidiş-dönüş veya CAPTCHA ölçülebilir bir gecikme ekliyor. Geçen çeyrekte yaptığım performans kıyaslamalarında, tek bir zorunlu yeniden deneme, 10 URL'lik bir örneklemde ortalama kazıma süresini %38 oranında artırdı. Bunu milyonlarca URL ile çarpın ve "başarısızlık vergisi" donanım maliyetlerini gölgede bırakır. Her GET'i bir garanti olarak değil, bir olasılık olayı olarak ele alın. Cloudflare'in yüzde 40 metriği bu denklemde bir dipnot değil, başlangıç katsayısıdır.
2 Başarı oranı ekonomisi: konut havuzları kendini amorti eder
Araştırma, en yakın rakibin %98,96' sına karşılık, bazı konut ağları için %99 ,82 başarılı istek ve 0,41 saniyelik medyan yanıt elde etti. Kağıt üzerinde bu fark küçük görünse de pratikte başarıdaki bir puanlık artış, yeniden sıraya koyma ek yükü olmadan milyon başına on bin ekstra sayfa anlamına geliyor. Ölçekte bu marj, konut trafiğinin GB başına prim oranını dengelemektedir. Hesaplama basittir:
extra_pages = (success_res - success_alt) × total_requests
Herhangi bir proxy'yi "çok pahalı" ilan etmeden önce kendi hacimlerinizi bu formüle ekleyin. Ve unutmayın: SOCKS Protokolü aracılığıyla taşıma katmanı tünelleme, tarayıcınız Selenium'u ham soket problarıyla karıştırdığında kullanışlı olan aynı kimliği doğrulanmış kanal üzerinden hem TCP hem de UDP'yi aktarmanıza olanak tanır.
3 Parmak izi entropisi: Kullanıcı Aracınız hala size ihanet ediyor
Electronic Frontier Foundation'ın Panopticlick çalışması, tipik bir tarayıcı parmak izinde 286.777 tarayıcıdan birini ayırt etmeye yetecek 18,1 bit entropi ölçmüştür. Flash ya da Java kullanan tarayıcıların %94.2'si benzersizdi. Kazıyıcılar için bu, IP'leri değiştirmenin tek başına kozmetik olduğu anlamına gelir; varsayılan ayarlara sahip başsız Chrome, herhangi bir cihaz profilleme radarını aydınlatacaktır. Gerçek hafifletme, IP rotasyonu ile aynı nefeste başlık rastgeleleştirme, yazı tipi bastırma ve zaman dilimi sahtekarlığı gerektirir. Parmak izi varyansını proxy havuzu entropi bütçenizin bir parçası olarak değerlendirin.
4 Rotasyon temposu ve yanlış pozitifler: %0,01'i kovalayın
Mükemmel proxy'ler bile aşırı hevesli bot yöneticileri tarafından tuzağa düşürülebilir. DataDome, milisaniye seviyesindeki cihaz kontrolleri sayesinde milyarlarca istekte %0,01'in altında bir yanlış pozitif oran bildiriyor. Bu pratik bir ölçüt oluşturuyor: Kendi kazıyıcınızın meşru talepleri on binde birden daha sık engelleniyorsa, masada gelir bırakıyorsunuz demektir. Hedef etki alanı tüm bir alt ağı kara listeye almadan önce boru hattınızı bir "blok bütçesi" uyarısı ile enstrümante edin, çıkış düğümünü kısın veya değiştirin.
Anahtar ders
Proxy seçimi artık ham IP sayısı ile ilgili değil, bir risk aritmetiği alıştırmasıdır. (a) ampirik bot trafiği oranlarını, (b) doğrulanmış başarı oranı tablolarını, © parmak izi entropi metriklerini ve (d) yanlış pozitif tavanları tek bir kayıp fonksiyonunda birleştirin, ardından optimize edin. Her bir değişkeni ölçen ekipler, web giderek daha derin hendek kazarken bile kazımaya devam eden tarayıcılar gönderir.