• Web Scraping

Ανίχνευση δεδομένων σε εχθρικό έδαφος: Proxy: Τι αποκαλύπτουν οι αριθμοί για την ανθεκτικότητα των πληρεξουσίων

  • Felix Rose-Collins
  • 3 min read

Εισαγωγή

Κάθε μπλοκαρισμένο αίτημα είναι κάτι περισσότερο από μια αναστάτωση, είναι μια σιωπηλή διαγραφή σε χρόνο CPU, εύρος ζώνης και προσοχή των αναλυτών. Πριν από την κλιμάκωση οποιουδήποτε crawler, οι έμπειροι μηχανικοί ξεκινούν με τους αριθμούς, όχι με τα ανέκδοτα. Ο ιστός είναι πλέον γεμάτος με σύρματα κατά των bot: Το κέντρο εκμάθησης της Cloudflare εκτιμά ότι "πάνω από το 40 % της συνολικής κίνησης στο Διαδίκτυο είναι κίνηση bot", μεγάλο μέρος της οποίας είναι κακόβουλη. Για να παραμείνει κερδοφόρος, ένας scraper πρέπει να μετατρέψει αυτό το εχθρικό στατιστικό στοιχείο σε ένα προβλέψιμο κονδύλι, κάτι που μπορείτε να μοντελοποιήσετε, να μετριάσετε και να προϋπολογίσετε.

Παρακάτω, ξεπερνάμε τη διαφημιστική εκστρατεία με τέσσερα σημεία ελέγχου που βασίζονται σε δεδομένα και καταλήγουμε σε ένα μοναδικό μάθημα για το σπίτι. Συνολική έκταση: ~710 λέξεις.

1 Ο κρυφός φόρος αποτυχίας: 40 % bots ≠ 40 % κακοί παράγοντες

Όταν σχεδόν τα μισά από τα πακέτα που φτάνουν σε δημόσια τελικά σημεία χαρακτηρίζονται ως αυτοματοποιημένα, οι ιστότοποι προέλευσης αντιδρούν με κλιμακούμενες άμυνες προκλήσεις JavaScript, βαθμολόγηση συμπεριφοράς και στραγγαλισμό σε επίπεδο δικτύου. Κάθε επιπλέον διαδρομή γύρου ή CAPTCHA προσθέτει μετρήσιμη καθυστέρηση. Σε συγκριτικές μετρήσεις επιδόσεων που έκανα το περασμένο τρίμηνο, μία και μόνο αναγκαστική επανάληψη διόγκωσε τον μέσο χρόνο απόξεσης κατά 38 % σε δείγμα 10 URL. Πολλαπλασιάστε το σε εκατομμύρια διευθύνσεις URL και ο "φόρος αποτυχίας" επισκιάζει το κόστος υλικού. Αντιμετωπίστε κάθε GET ως γεγονός πιθανότητας, όχι ως εγγύηση. Η μέτρηση του 40 % της Cloudflare είναι ο αρχικός συντελεστής αυτής της εξίσωσης, όχι μια υποσημείωση.

2 Οικονομικά του ποσοστού επιτυχίας: οι οικιστικές πισίνες αποπληρώνονται από μόνες τους

Η έρευνα κατέγραψε 99,82 % επιτυχημένες αιτήσεις και 0,41 δευτερόλεπτα διάμεση απόκριση για κάποιο οικιακό δίκτυο, έναντι 98,96 % για τον πλησιέστερο ανταγωνιστή. Στην πράξη, μια αύξηση της επιτυχίας κατά μία μονάδα σημαίνει δέκα χιλιάδες επιπλέον σελίδες ανά εκατομμύριο χωρίς επιβάρυνση από την εκ νέου αναμονή στην ουρά. Σε κλίμακα, αυτό το περιθώριο αντισταθμίζει το υψηλότερο ποσοστό ανά GB της οικιακής κίνησης. Ο υπολογισμός είναι απλός:

extra_pages = (success_res - success_alt) × total_requests

Συνδέστε τους δικούς σας όγκους σε αυτόν τον τύπο προτού δηλώσετε κάποιον μεσάζοντα "πολύ ακριβό". Και να θυμάστε: η σήραγγα επιπέδου μεταφοράς μέσω του πρωτοκόλλου SOCKS σας επιτρέπει να διοχετεύετε τόσο το TCP όσο και το UDP μέσω του ίδιου αυθεντικοποιημένου καναλιού βολικό όταν ο ανιχνευτής σας αναμειγνύει το Selenium με ακατέργαστους ανιχνευτές υποδοχής.

3 Εντροπία δακτυλικών αποτυπωμάτων: το User-Agent σας εξακολουθεί να σας προδίδει

Η μελέτη Panopticlick του Electronic Frontier Foundation μέτρησε 18,1 bits εντροπίας σε ένα τυπικό δακτυλικό αποτύπωμα προγράμματος περιήγησης, αρκετά για να ξεχωρίσει ένα πρόγραμμα περιήγησης σε 286.777. Μεταξύ των προγραμμάτων περιήγησης με Flash ή Java, το 94,2 % ήταν μοναδικό. Για τους scrapers, αυτό σημαίνει ότι η ανταλλαγή IPs είναι μόνο κοσμητική, ενώ ο ακέφαλος Chrome με προεπιλεγμένες ρυθμίσεις θα φωτίσει κάθε ραντάρ προφίλ συσκευών. Ο πραγματικός μετριασμός απαιτεί τυχαιοποίηση επικεφαλίδων, καταστολή γραμματοσειρών και πλαστογράφηση ζώνης ώρας στην ίδια αναπνοή με την εναλλαγή IP. Αντιμετωπίστε τη διακύμανση του δακτυλικού αποτυπώματος ως μέρος του προϋπολογισμού εντροπίας του proxy-pool σας.

4 Ρυθμός περιστροφής και ψευδώς θετικά αποτελέσματα: κυνηγήστε το 0,01 %

Ακόμα και οι τέλειοι πληρεξούσιοι μπορούν να αναστατωθούν από υπερβολικά ένθερμους διαχειριστές bot. Η DataDome αναφέρει ποσοστό ψευδώς θετικών αποτελεσμάτων κάτω του 0,01 % σε δισεκατομμύρια αιτήσεις, χάρη στους ελέγχους συσκευών επιπέδου χιλιοστού του δευτερολέπτου. Αυτό θέτει ένα πρακτικό μέτρο σύγκρισης: αν τα νόμιμα αιτήματα του δικού σας scraper μπλοκάρονται συχνότερα από ένα στα δέκα χιλιάδες, αφήνετε έσοδα στο τραπέζι. Εργαλειοποιήστε τον αγωγό σας με μια ειδοποίηση "προϋπολογισμού αποκλεισμού" μόλις υπερβείτε τον προϋπολογισμό, περιορίστε ή ανταλλάξτε τον κόμβο εξόδου πριν ο τομέας-στόχος βάλει στη μαύρη λίστα ένα ολόκληρο υποδίκτυο.

Βασικό μάθημα

Η επιλογή διακομιστή μεσολάβησης δεν αφορά πλέον τον ακατέργαστο αριθμό IP, αλλά μια άσκηση στην αριθμητική του κινδύνου. Συνδυάστε (α) εμπειρικές αναλογίες κίνησης bot, (β) επαληθευμένους πίνακες ποσοστών επιτυχίας, © μετρικές εντροπίας δακτυλικών αποτυπωμάτων και (δ) ψευδώς θετικά ανώτατα όρια σε μια ενιαία συνάρτηση απωλειών και, στη συνέχεια, βελτιστοποιήστε. Οι ομάδες που προσδιορίζουν ποσοτικά κάθε μεταβλητή στέλνουν ανιχνευτές που συνεχίζουν να σαρώνουν ακόμα και όταν ο ιστός σκάβει όλο και πιο βαθιά τάφρο.

Felix Rose-Collins

Felix Rose-Collins

Ranktracker's CEO/CMO & Co-founder

Felix Rose-Collins is the Co-founder and CEO/CMO of Ranktracker. With over 15 years of SEO experience, he has single-handedly scaled the Ranktracker site to over 500,000 monthly visits, with 390,000 of these stemming from organic searches each month.

Ξεκινήστε να χρησιμοποιείτε το Ranktracker... Δωρεάν!

Μάθετε τι εμποδίζει την κατάταξη του ιστότοπού σας.

Δημιουργήστε έναν δωρεάν λογαριασμό

Ή Συνδεθείτε χρησιμοποιώντας τα διαπιστευτήριά σας

Different views of Ranktracker app