Τι είναι το Crawler;

Το crawler είναι ένα πρόγραμμα διαδικτύου που έχει σχεδιαστεί για να περιηγείται συστηματικά στο διαδίκτυο. Οι ανιχνευτές χρησιμοποιούνται συνηθέστερα ως μέσο για τις μηχανές αναζήτησης ώστε να ανακαλύπτουν και να επεξεργάζονται σελίδες για την ευρετηρίαση και την εμφάνισή τους στα αποτελέσματα αναζήτησης.

Εκτός από τους ανιχνευτές που επεξεργάζονται την HTML, ορισμένοι ειδικοί ανιχνευτές χρησιμοποιούνται επίσης για την ευρετηρίαση εικόνων και βίντεο.

Στον πραγματικό κόσμο, οι κυριότεροι ανιχνευτές ιστού που πρέπει να γνωρίζετε είναι αυτοί που χρησιμοποιούνται από τις κορυφαίες μηχανές αναζήτησης στον κόσμο: Googlebot, Bingbot, Yandex Bot και Baidu Spider.

Καλοί vs. κακοί ερπυστριοφόροι

Σκεφτείτε ένα καλό crawler ως ένα ρομπότ που μπορεί να βοηθήσει τον ιστότοπό σας, κυρίως προσθέτοντας το περιεχόμενό σας σε ένα ευρετήριο αναζήτησης ή βοηθώντας σας να ελέγξετε τον ιστότοπό σας. Άλλα χαρακτηριστικά ενός καλού crawler είναι ότι αναγνωρίζει τον εαυτό του, ακολουθεί τις οδηγίες σας και προσαρμόζει τον ρυθμό ανίχνευσης ώστε να μην υπερφορτώνει τον διακομιστή σας.

Ένα κακό crawler είναι ένα bot που δεν προσθέτει καμία αξία στον ιδιοκτήτη ενός ιστότοπου και μπορεί να έχει κακόβουλη πρόθεση. Τα κακά crawlers μπορεί να μην αναγνωρίζουν τον εαυτό τους, να παρακάμπτουν τις οδηγίες σας, να δημιουργούν περιττά φορτία στους διακομιστές και ακόμη και να κλέβουν περιεχόμενο και δεδομένα.

Τύποι ερπυστριών

Υπάρχουν δύο κύριοι τύποι ανιχνευτών:

bots που σέρνονται συνεχώς: π.χ. το Googlebot).
Ρομπότ κατά παραγγελία: π.χ., Ranktracker Site Audit bot).

Γιατί είναι σημαντικό το Crawling ιστοσελίδων;

Ο πρωταρχικός σκοπός ενός προγράμματος ανίχνευσης μηχανών αναζήτησης είναι να ανακαλύψει τι υπάρχει στον ιστότοπό σας και να προσθέσει αυτές τις πληροφορίες στο ευρετήριο αναζήτησης. Εάν ο ιστότοπός σας δεν ανιχνευθεί, τότε το περιεχόμενό σας δεν θα εμφανίζεται στα αποτελέσματα αναζήτησης.

Η ανίχνευση ιστοτόπων δεν είναι απλώς ένα γεγονός που συμβαίνει μία φορά - είναι μια συνεχής πρακτική για τους ενεργούς ιστοτόπους. Τα ρομπότ θα κάνουν τακτικά εκ νέου σάρωση ιστότοπων για να βρουν και να προσθέσουν νέες σελίδες στο ευρετήριο αναζήτησης, ενώ παράλληλα θα ενημερώνουν τις πληροφορίες τους σχετικά με τις υπάρχουσες σελίδες.

Ενώ οι περισσότεροι ανιχνευτές συνδέονται με τις μηχανές αναζήτησης, υπάρχουν και άλλοι τύποι ανιχνευτών. Για παράδειγμα, το ρομπότ Ranktracker Site Audit μπορεί να σας βοηθήσει να δείτε τι δεν πάει καλά με τον ιστότοπό σας όσον αφορά το SEO.

Πώς λειτουργούν οι ερπυστριοφόροι;

Με λίγα λόγια, ένα web crawler όπως το Googlebot θα ανακαλύψει τις διευθύνσεις URL στον ιστότοπό σας μέσω sitemaps, συνδέσμων και χειροκίνητων υποβολών μέσω του Google Search Console. Στη συνέχεια, θα ακολουθήσει τους "επιτρεπόμενους" συνδέσμους σε αυτές τις σελίδες.

Το κάνει αυτό, ενώ σέβεται τους κανόνες του robots.txt, καθώς και τυχόν χαρακτηριστικά "nofollow" σε συνδέσμους και σε μεμονωμένες σελίδες.

Ορισμένοι ιστότοποι - αυτοί με περισσότερες από 1 εκατομμύριο σελίδες που ενημερώνονται τακτικά ή αυτοί με 10 χιλιάδες σελίδες περιεχομένου που αλλάζουν καθημερινά - μπορεί να έχουν περιορισμένο "προϋπολογισμό" για την ανίχνευση. Αυτό αναφέρεται στο χρόνο και τους πόρους που μπορεί να αφιερώσει το ρομπότ σε έναν ιστότοπο σε μία μόνο συνεδρία.

Προτεραιότητες ερπυσμού

Λόγω της περιορισμένης χωρητικότητας των προϋπολογισμών ανίχνευσης, οι μηχανές ανίχνευσης λειτουργούν με βάση ένα σύνολο προτεραιοτήτων ανίχνευσης. Το Googlebot, για παράδειγμα, εξετάζει τα εξής:

PageRank της διεύθυνσης URL
Πόσο συχνά ενημερώνεται η σελίδα(-ες)
Εάν η σελίδα είναι νέα ή όχι

Με αυτόν τον τρόπο, το πρόγραμμα ανίχνευσης μπορεί να επικεντρωθεί πρώτα στην ανίχνευση των πιο σημαντικών σελίδων του ιστότοπού σας.

Mobile vs. Desktop Crawler Versions

Το Googlebot έχει δύο κύριες εκδόσεις: Googlebot Desktop και Googlebot Smartphone. Αυτές τις μέρες, η Google χρησιμοποιεί την ευρετηρίαση πρώτα για κινητά, πράγμα που σημαίνει ότι ο πράκτορας για smartphone είναι ο πρωταρχικός Googlebot που χρησιμοποιείται για την ανίχνευση και την ευρετηρίαση σελίδων.

Διαφορετικές εκδόσεις ενός δικτυακού τόπου μπορούν να παρουσιαστούν σε αυτούς τους διαφορετικούς τύπους ανιχνευτών. Τεχνικά, το ρομπότ αναγνωρίζει τον εαυτό του σε έναν διακομιστή ιστού χρησιμοποιώντας την επικεφαλίδα User-Agent του αιτήματος HTTP, μαζί με ένα μοναδικό αναγνωριστικό.

Βέλτιστες πρακτικές για έναν ιστότοπο φιλικό προς τα ερπετά

Για να διασφαλίσετε ότι ο ιστότοπός σας είναι έτοιμος για εντοπισμό, συνιστούμε διάφορα βήματα. Ακολουθήστε τα προκειμένου να δώσετε στις βασικές σελίδες σας τις καλύτερες πιθανότητες ευρετηρίασης και κατάταξης.

1. Ελέγξτε το αρχείο Robots.txt

Το αρχείο robots.txt είναι το αρχείο στον ιστότοπό σας που επικοινωνεί με αυτά τα bots, χρησιμοποιώντας μια σειρά από οδηγίες για τα crawler. Βεβαιωθείτε ότι δεν αποκλείει τα καλά bots από οποιεσδήποτε σελίδες ή τμήματα που θέλετε να ευρετηριάζονται. Χρησιμοποιήστε εργαλεία όπως ο ελεγκτής robots.txt της Google για να ελέγξετε για σφάλματα.

2. Υποβολή Sitemaps

Η υποβολή του sitemap σας είναι ένα κρίσιμο βήμα. Ο χάρτης σελίδων περιέχει όλες τις σελίδες του ιστότοπού σας που θέλετε να ευρετηριαστεί. Στην Κονσόλα αναζήτησης Google, μπορείτε να υποβάλετε το sitemap σας στην ενότητα Ευρετήριο > Sitemaps. Αυτή η διαδικασία είναι παρόμοια και για άλλες μηχανές αναζήτησης, όπως τα Εργαλεία Webmaster του Bing.

3. Χρησιμοποιήστε τις οδηγίες του Crawler με σύνεση

Το αρχείο robots.txt χρησιμοποιεί οδηγίες για να πει στους ανιχνευτές ποιες σελίδες επιτρέπεται ή απαγορεύεται να ανιχνευθούν. Είναι σημαντικό να επιτρέπετε την ανίχνευση σημαντικών σελίδων στην πλοήγηση του ιστότοπού σας. Οποιεσδήποτε οδηγίες σε επίπεδο σελίδας δεν θα φαίνονται εάν το περιεχόμενο δεν επιτρέπεται να ανιχνευθεί στο αρχείο robots.txt.

4. Παροχή εσωτερικών συνδέσμων μεταξύ των σελίδων

Η εσωτερική σύνδεση βοηθά τις μηχανές αναζήτησης να καταλάβουν τι αφορά κάθε σελίδα και βοηθά το πρόγραμμα ανίχνευσης να ανακαλύψει τις σελίδες από την πρώτη στιγμή. Οι εσωτερικοί σύνδεσμοι σας βοηθούν επίσης να διαμορφώσετε τον τρόπο με τον οποίο η PageRank ρέει σε ολόκληρο τον ιστότοπό σας.

5. Μειώστε τα 4xx και τις περιττές ανακατευθύνσεις

Τα σφάλματα 4xx σηματοδοτούν σε ένα πρόγραμμα ανίχνευσης ότι το περιεχόμενο στη συγκεκριμένη διεύθυνση URL δεν υπάρχει. Χρησιμοποιήστε εργαλεία όπως το Ranktracker Site Audit για να διορθώσετε αυτές τις σελίδες ή ρυθμίστε μια ανακατεύθυνση σε μια ζωντανή σελίδα. Επίσης, εξαλείψτε τις περιττές ανακατευθύνσεις και τις αλυσίδες ανακατευθύνσεων για να διασφαλίσετε την ομαλή ανίχνευση.

6. Χρησιμοποιήστε το Ranktracker Site Audit για να βρείτε θέματα ανιχνευσιμότητας και ευρεσιμότητας

Το εργαλείο Ranktracker Site Audit μπορεί να σας βοηθήσει, ελέγχοντας όλες τις σελίδες noindexed και τους nofollowed συνδέσμους στον ιστότοπό σας. Μπορεί να αποκαλύψει τυχόν σπασμένες σελίδες ή υπερβολικές ανακατευθύνσεις, συμπεριλαμβανομένων των αλυσίδων ανακατευθύνσεων ή βρόχων, και να επισημάνει τυχόν ορφανές σελίδες.

Συχνές ερωτήσεις

Είναι η ανίχνευση και η ευρετηρίαση το ίδιο πράγμα;

Όχι.Η ανίχνευση αναφέρεται στη διαδικασία ανακάλυψης δημοσίως προσβάσιμων ιστοσελίδων και άλλου περιεχομένου. Η ευρετηρίαση αναφέρεται στις μηχανές αναζήτησης που αναλύουν αυτές τις σελίδες και τις αποθηκεύουν στο ευρετήριό τους.

Ποιοι είναι οι πιο ενεργοί Crawlers;

Οι πιο δημοφιλείς ανιχνευτές μηχανών αναζήτησης περιλαμβάνουν το Googlebot, το Bingbot, το Yandex Bot και το Baidu Spider. Για περισσότερες λεπτομέρειες, δείτε αυτή τη μελέτη Imperva Bot Traffic. Είναι ενδιαφέρον ότι το AhrefsBot, το οποίο τροφοδοτεί ολόκληρη τη βάση δεδομένων συνδέσμων, βρέθηκε να είναι ο δεύτερος πιο ενεργός crawler μετά το Googlebot.

Κάνουν κακό στον ιστότοπό μου τα ερπετά;

Ενώ οι περισσότεροι ανιχνευτές δεν προκαλούν βλάβη στον ιστότοπό σας, υπάρχουν κακοί ανιχνευτές που μπορούν να βλάψουν. Οι επιβλαβείς ανιχνευτές μπορεί να καταλαμβάνουν το εύρος ζώνης σας, προκαλώντας επιβράδυνση των σελίδων, και μπορεί να προσπαθήσουν να κλέψουν δεδομένα ή να αποσπάσουν περιεχόμενο από τον ιστότοπό σας.

Crawler