Google recunoaște că ajustează manual pagerank-ul paginilor indexate

google-dr-evilGoogle. Cea mai mare afacere din domeniul IT (și nu numai) a ultimului deceniu. Singurul motor de căutare al cărui nume a ajuns să fie inclus în dicționarul oficial al limbii engleze. Și lista laudelor și a realizărilor Google ar putea continua pentru cel puțin încă o mie de cuvinte dar nu mi-am propus să-l proslăvesc acum.

Pentru a înțelege mai bine afirmația din titlu, prezint succint modul de funcționare a lui Google Search (precizez că acest subiect este atât de vast încât ar putea fi cu ușurință predat sub forma unui curs universitar de două semestre): Google scanează paginile web indexând conținutul acestora sub forma unui clasament unde paginile sunt ordonate în funcție de relevanța acestora pentru anumite cuvinte cheie. De fapt, câte un clasament după fiecare cuvânt sau combinație de cuvinte căutate. Să presupunem că există două pagini web situate pe site-uri diferite (A și B) ambele conținând articole care tratează subiectul asigurărilor de sănătate. La o căutare pe Google după cuvintele „asigurări de sănătate” pagina de pe site-ul A va fi afișată prima în rezultatele căutării deoarece este clasificată mai aproape de topul indexului Google decât pagina de pe site-ul B care nu este cotată prea bine în catalogul intern al celor din Mountain View. De asemenea este posibil ca pagina de pe site-ul B să apară afișată mai sus decât pagina site-ului A într-o căutare după cuvintele cheie „asigurări de sănătate ieftine” pentru simplul motiv că, spre deosebire de pagina de pe site-ul A, ar conține cuvântul „ieftin”.

Cum se întocmesc aceste clasamente interne în funcție de care Google ne afișează rezultatele căutărilor? Prin acordarea unui scor „de calitate” fiecărei pagini indexate. Prea puțină lume (cu excepția specialiștilor de la Google) știe cu precizie calculele matematice prin care se determină acest scor acordat paginilor indexate și acest secret este unul dintre cele mai bine păzite de pe planetă, din motive lesne de intuit: cine are cheia acestor cunoștințe, o poate folosi pentru a manipula Google în propriul interes pecuniar (începând cu spammer-ii și terminând cu motoarele de căutare concurente). Atât pentru a descuraja aceste practici, cât și pentru a îmbunătăți relevanța rezultatelor căutărilor, Google alterează periodic aceste formule matematice.

Cu toate acestea, se zvonește că Google ar folosi o expresie matematică foarte complexă care cuprinde peste 200 de valori (printre care se numără PageRank-ul paginii respective, al domeniului pe care este găzduită pagina, vechimea paginii, rata de actualizare sau timpul de încărcare a site-ului etc.), pentru a calcula acest scor unic.

O pondere însemnată în ecuația calculării scorului o are PageRank-ul paginii - algoritmul căruia Google îi datorează în mare parte dezvoltarea  fulminantă de la începutul anilor 2000. Metodele anterioare de clasificare bazate pe frecvența apariției cuvintelor căutate în textul indexat au devenit brusc învechite atunci când algoritmul calculării Pagerank-ului a început să analizeze link-urile generate de oameni, având în vedere probabilitatea (pertinentă) ca paginile spre care indică link-uri de la mai multe pagini importante să fie mai relevante decât altele generate automat. S-a concluzionat că PageRank-ul acordat paginilor de către Google se mulează destul de bine cu ceea ce oamenii definesc ca fiind „conținut relevant”. Pentru noi, muritorii de rând, PageRank-ul este exprimat sub forma unor numere întregi cu valori cuprinse între 0 și 10 deși am senzația că în interiorul lui Google este folosit un sistem de PageRank care are multe cifre după virgulă.

Revenind la titlul articolului, dintotdeauna Google a afirmat că indexul paginilor web pe care le scanează este unul cât se poate de obiectiv fiind calculat automat din ordinea naturală în care celelalte siteuri consideră că o anumită pagină are conținut relevant.

Toate bune și frumoase cu excepția faptului că acest sistem are o slăbiciune: favorizează companiile care dețin pagini web cu un pagerank mare și vor să se extindă în alte piețe. Prin plasarea de link-uri către noile pagini pe propriile site-uri care au deja un scor mare pe scara calității Google, aceste companii obțin mai multă expunere și-și extind (gratuit și cumva pe nedrept) succesul din domeniul în care s-au impus în alte domenii noi. Companii ca AOL și Yahoo fac uz de acest truc pentru a-și populariza orientarea înspre afacerile de tip „low-cost content”, folosindu-se de Page Rank-ul Google pentru a se asigura că noile pagini apar în topul căutărilor Google.

Amit Singhal (inginer la Google din 2000), i-a lăsat un porumbel să-i zboare pe gură afirmând că Google folosește evaluatori umani pentru a stabili calitatea unor site-uri individuale, tocmai pentru a contracara acest efect al recunoașterii brandului („brand recognition”). Altfel spus, dacă BMW sau Mercedes s-ar hotărâ să intre pe piața medicamentelor și ar crea niște site-uri noi spre care ar pune link-uri pe site-urile lor deja existente (cele în care-și prezintă și vând propriile modelele de mașini), Google ar afișa aceste noi pagini în topul rezultatelor căutărilor după medicamente, în baza popularității site-urilor inițiale.

Bănuiam de câțiva ani existența acestor evaluatori umani angajați la Google dar nu am găsit niciunde pe internet vreo confirmare oficială sau măcar o recunoaștere tacită a acestui fapt. Acești evaluatori au puterea de a promova sau chiar de a șterge complet un site din indexul Google.

Această recunoaștere s-ar putea dovedi foarte costisitoare pentru Google deoarece aceste clasamente valorează enorm de mult și o schimbare în index poate (teoretic) să închidă companii. Nu este cazul pentru BMW sau Mercedes dar nu toate firmele din lume au ajuns la recunoașterea internațională de care se bucură aceste două multinaționale. Cine ar mai avea încredere în Google dacă ar ști că rezultatele căutărilor sunt „mânărite”?

Mai mult, Google are în prezent pe rol mai multe procese în care este acuzat de câteva companii că ar oferi rezultate ale căutării subiective, motiv pentru care autoritățile din domeniul anti-concurențial i-ar putea solicita companiei din Mountain View să răspundă la următoarea întrebare:

Dacă link-urile sunt un factor important în determinarea pagerank-ului conținutului și încasările lui Google din programele de publicitate contextuală (AdWords & AdSense) sunt derivate din aceste clasamente, care sunt măsurile luate de Google pentru a se asigura că evaluatorii umani nu sunt influențați pentru a recompensa propriul conținut sau cel al partenerilor acestuia cu care-și împarte profitul?

Oricum ai privi-o, chestiunea este o cutie imensă cu viermi.

Share on Facebook
Share on LinkedIn

Publicat în: AnalizeNoutăţi

Etichete:

Despre autor: Deși pare uneori cam supărat pe viață, de obicei se abține de la critici gratuite, preferând să publice cu preponderenţă analize obiective ale diverselor trenduri din IT. Cu toate că este o fire destul de agitată, totuși nu prea deschide gura decât când știe exact ce vorbește. După cum se poate vedea și din gravatarul lui, nu mai are toate țiglele pe casă... Umblă vorba prin sat că Şopârloiul şi TransMix ar fi una şi aceeaşi persoană.

RSSComentarii

Comentează | URL trackback

  1. Serginho spune:

    Aveam doua poze care arata cum se calculeaza page rank-ul, adica de cate linkuri ai nevoie pentru a avea un anumit page rank. Daca vrei sa ti le dau sa le pui pe site, contacteaza-ma. :)

  2. Şopârloiul spune:

    Te rog să-mi trimiți pozele cu pricina la soparloiul@it4fans.ro (dacă nu e prea mare deranjul). Multumesc anticipat.

  3. Robert spune:

    Mi le trimiti si mie te rog. Dacă poți la adresa robert.safta@gmail.com


Pingbacks

  1. [...] This post was mentioned on Twitter by Ionutzâ„¢, IT4Fans România. IT4Fans România said: Google recunoaște că ajustează manual pagerank-ul paginilor indexate @ http://ur.ly/hY7c [...]

Comentează




Dacă vrei să apară o poză la comentariul tău, fă-ți rost de un Gravatar.