Cum viziteaza un spider un blog sau un site

19 iulie 2017
web spider

web spider

Spiderele sunt niste programele facute de catre cei care au motoare de cautare pentru a indexa siteurile web. Ca sa intelegeti mai bine despre ce e vorba am sa va fac o scurta istorie.

Suntem undeva prin anii 90 catre final cand existau niste motoare de cautare care stapanaeau internetul: Yahoo si Altavista. Firmele astea aveau angajati foarte multi oameni care lucrau manual la indexarea asta a siteurilor de pe web. Cum faceau asta? Tu, proprietar de site, intrai pe un formulat unde iti declarai siteul. Angajatii preluau apoi informatia asta si tot pe baza unor formulare, dupa ce iti vizitau siteul si extrageau de acolo informatii relavante, iar apoi introduceau datele in baza de date.

Totul la vreamea respectiva era manual, sa zicem.

Povestea spiderelor

Tot prin vremea aia un student participa la o conferinta in SUA a unui profesor italian care descria un algoritm dupa care se pot indexa siteurile web si cum se pot colecta informatii relevante despre ele in mod automat.

Studentului i-a placut ideea si a pus-o in practica. Studentul se numea Larry Page, cofondator al Google. El impreuna cu Sergey Brin au creat primul spider si au inceput sa indexeze siteurile web. Pe atunci lucrurile erau simple pentru ca marea majoritate erau scrise in html.

Dupa ce au creat spiderele povestea spune ca sau dus si la Yahoo si la Altavista sa le vanda produsul lor, dar aia i-au scos pe usa afara zicand ca ce e prostia aia, ei au oameni care fac toata treaba asta.

Tot povestea zice ca aveau nevoie de bani ca sa dezvolte si l-au asteptat pe fondatorul Oracle cand iesea de la birou intr-o dupa amaiaza, i-au spus tipului povestea in timp ce omul se ducea la masina, iar asta cand a ajuns la masina, pe capota masinii le-a completat un cec de 100.000 dolari (probabil banii lui de buzunar).

Restul deja probabil ca il stiti, iar daca nu stiti restul povestii imi scrieti in comentarii si o istorisesc eu intr-un articol.

Cum lucreaza un spider?

Pe baza unui algoritm el cauta siteuri web pe internet si extrage din ele informatiile relevante. Informatiile acestea sunt puse de proprietarul siteului in site cu ajutorului unor identificatori in <head>. Informatiile sunt: titlul, autorul, data, cuvintele cheie, descrierea siteului, preia aceste informatii si le introduce intr-o baza de date.

Pe langa informatiile astea spiderul preia si continutul paginii, fotografiile, filmele si pe baza unor algortimi le indexeaza. Tot pe baza unor algoritmi lingvistici extrem de sofisticati google intelege textul din pagina si asociaza textul cu cuvintele cheie, cu fotografiile etc, analizeaza chiar lizibilitatea paginii si usurinta utilizatorului de a o citi, timpul in care ar putea fi citit acea pagina etc.

Toate aceste date sunt stocate in baza de date alaturi de numele si linkul siteului. Pe baza unui alt algosritm si pe baza datelor colectate google genereaza un ranking (un punctaj) pentu fiecare site si pentru fiecare pagina din site sau blog. Cu cat e mai mare acest ranking cu atat pagina va fi considerata mai relevanta. In acest fel el face prioritizarea la afisare a paginilor in cautari.

Cum arata o pagina preluata de un spider?

Google zice ca pagina preluata cu un spider arata la fel ca si cum ai vizualiza-o cu Lynx. Cautati-l pe web daca vreti sa vedeti ce si cum.

E util din cand in cand sa vizualizati si voi paginile cu editorul asta de text ca sa vedeti cum o preia un spider, pentru ca iti poate da idei de imbunatatire.

Spiderele viziteaza siteurile destul de des, in functie de mai multi parametri, unul dintre parametri importanti este cat de des postezi tu pe blog sau pe site.

Deci daca vrei sa intre mai des ar trebui sa postezi mai des, insa nu e o regula general valabila asta.

Cum vad cand un spider imi viziteaza siteul?

Sunt cateva metode ca sa vezi cand spider iti viziteaza siteul sau blogul. Una dintre metode e sa intri in Google Search Console si s vezi de acolo informatia asta.

A doua metoda este sa te uiti in slimstat analitycs si ai sa vezi ca in dreptul adresei IP va aparea un paianjen si va si spune cui apartine acet spider care a vizitat siteul.

Nu numai google are spider pentru indexarea siteurilor web ci si celealte motoare de cautare importante, adica yahoo , bing, yandex (al rusilor), baidu (al chinezilor) si fiecare dintre acesti spideri va viziteaza siteul. Vorbesc aici despre spiderul google (care se numeste googlebot) pentru ca, pentru Romania este cel mai important si relevant motor de cautare.

Din google search console se poate face o cerere pentru a mari rata de indexare a siteului sau blogului pentru o perioada de 90 de zile (cred ca asta e perioada maxima). Dupa ce faceti cererea googlebot va va vizita siteul sau blogul mai des decat in mod normal pentru a va indexa mai rapid paginile.

Tot in google search console poti vedea cite pagini au fost idexate din totalul paginilor din sitemap.

Concluzie

Toate aceste informatii sunt utile si sunt in stransa legatura cu SEO, SEO fiind metoda prin care puteti genera trafic relevant pe siteul sau blogul vostru. Trafic relevant inseamna oameni care sunt interesati de subiect si care pot fi convertiti in cumparatori. Exista si trafic nerelevant, acest fel de trafic este folosit pentru a mari artificial numarul de vizitatori si de pagini vizualiate. Astfel de tehnici le folosesccei care ofera servicii de publicitate pe site, pentru a justifica valoarea mare a sunmelor cerute pentru publicitate (o sa revin la subicetul asta intr-un articol viitor).

E bine sa folositi toate instrumentele SEO, dar, asa cum va spuneam, eu nu aloc timp mult pentru asta ci doar respect niste elemente de baza.

Asa cum va spuneam intr-un articol recent http://adesoft.ro/2017/07/10/ce-e-robots-txt-si-cum-se-foloseste/ spiderii pot fi blocati sa va viziteze siteul sau anumite portiuni din site sau blog folosind fisierul robots.txt. Daca doriti sa faceti asta o puteti face.

No Comments

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *