Spamclock.com – 1 milion de pagini spam sunt create în fiecare oră!

Blekko, motorul de căutare creat de Rich Skrenta, omul hotărât să lupte activ împotriva paginilor web de tip spam, a lansat un site intitulat sugestiv SpamClock, unde este afișat live numărul estimat de pagini spam de la începutul lui 2011. În prezent numărătoarea a ajuns la 2,8 miliarde (de la 1 ianuarie 2011), media fiind de 1 milion de pagini noi pe oră. Mai multe despre aceste estimări și decizia creării unui astfel de site, ne spune chiar Rich Skrenta pe blogul personal aici.

Nu confundați numărul afișat în prezent pe SpamClock cu numărul total de pagini spam din internet. Volumul total al acestor pagini se ridică la mult multe miliarde decât doar 3.

Cât de rău este Spam-ul? Și îl omoară pe Google?

Este spam-ul o problemă majoră? Desigur – spamul îi poate face viața amară unui motor de căutare, inclusiv Blekko, în misiunea acestuia de a prezenta cele mai bune rezultate. Dar îl omoară spam-ul îndeosebi pe Google? Aceasta ar putea fi impresia pe care ți-o lasă dacă ai citit câteva articole la modă prin lumea tehnologiei în ultima perioadă. Acesta ar putea fi și motivul pentru care Blekko a lansat acest spam clock – pentru a mări presiunea asupra spam-ului în general și asupra lui Google în particular.

Spam-ul despre care vorbesc în acest articol se deosebește de spam-ul prin e-mail dezbătut de Coțofana în seria de articole dedicate psihozei spam-ului prin email, prin aceea că, descrie paginile web cu informații puține și inutile create astfel încât să fie catalogate pe nedrept (folosind metode de black SEO) în topul rezultatelor Google după anumite cuvinte cheie și înțesate de reclame comerciale pe care să facă click vizitatorii trimiși pe aceste pagini de chiar… Google (sau celelalte motoare de căutare). Prin metode de black SEO înțeleg acele practici și procedee care păcălesc boții și algoritmii de calcul folosiți de Google în indexarea și alcătuirea clasamentelor cu siteurile care sunt afișate utilizatorilor când efectuează căutări (am mai scris câte puțin despre modul în care Google indexează web-ul în articolul ăsta).

În anul 2000 pe internet erau circa 7 milioane de servere care găzduia pagini web pe internet, oferind practic tot conținutul existent pe web la acea dată. În 2010 acest număr a trecut de 250 de milioane. Câte dintre acestea oferă conținut legitim? O parte infimă, restul fiind spam. Mergând pe firul logic, ajungem la concluzia că web-spamul crează probleme reale care afectează mai mult decât abilitatea noastră de a găsi informațiile căutate.

Energia și celelalte costuri pentru indexarea, stocarea și servirea acestui morman de gunoi este impresionantă. O estimare recentă prevedea că prin 2020 15% din consumul global de energie ar putea va fi înghițit doar de către internet. O cantitate considerabilă de energie este consumată de mii și mii de servere care găzduiesc aceste pagini de web-spam. Făcând curățenie prin acest gunoi informațional ar putea avea un impact pozitiv asupra consumului global de energie. Mai ales când promiți lumii întregi că scopul tău primordial este indexarea și oferirea tuturor informațiilor existente la nivel global, după cum o face Google.

O altă problemă care ar putea afecta negativ experiența folosirii lui Google o reprezintă agregatoarele care, fiind scanate mai des de către Google (pentru că le consideră mai importante decât siteurile de unde acestea strâng informațiile), plasează mai aproape de topul rezultatelor agregatoarele decât siteurile care au generat conținutul original.

Alt factor care degradează lista cu rezultatele căutărilor după cei mai căutați termeni sunt siteurile de tip Q&A (Questions and Answers – Întrebări și Răspunsuri) care inundă topul rezultatelor Google cu conținut oribil.  Situate aproximativ în aceeași zonă sunt și celebrele „content farms”, pomenite pentru prima oară aici și cărora intenționez să le acord un articol separat.

Desigur, Google are probleme

Unii găsesc iritantă poziția lui Google vis-a-vis de toată această problematică a web-spamului, acuzându-l pe marele G că este principalul vinovat pentru explozia acestui fenomen: oamenii sunt tentați să creeze pagini web cu gunoi informațional și muuulte reclame, doar pentru a fi indexate de Google care le trimite trafic și le plătește pentru clickurile făcute de vizitatori pe reclamele din propriul programe (adSense & adWords). Cât de multe pagini? Prin SpamClock.com avem acum un punct de referință: 1 milion de pagini pe oră!

Cumva Google stă cu fundul în două luntrii, ajutând în general oamenii să găsească informația de care au nevoie pe internet și în special catalizând apariția de pagini din categoria web-spam cărora le trimite atât trafic cât și bani câștigați din reclame.

Dar… nimeni nu știe cu adevărat dacă relevanța oferită de Google a scăzut

Ăsta este adevărul: doar pentru că unii bloggeri din lumea IT-ului au avut parte de câteva cuvinte cheie care au generat rezultate cu mai mult webspam decât de obicei, nu înseamnă că restul sutelor de milioane de căutări efectuate pe Google zilnic au rezultate nesatisfăcătoare. Noi, ca utilizatori ai lui Google putem avea doar impresii sau intuiții cu privire la relevanța oferită de către acesta, dar aceste intuiții nu țin cont de o serie de factori și anume:

  • Îi cerem lui Google mai mult decât îi ceream în trecut, căutând pentru lucruri pe care nu le căutam în anii trecuți;
  • Nu ținem minte toate căutările cu rezultate pozitive, când am găsit ceea ce căutam și tindem să ținem minte mai mult timp căutările cu rezultate mai puțin satisfăcătoare; (din ciclul – „Dacă vrei să te țină minte un om, fă-i rău, că dacă-i faci bine, te uită repede”;
    Probabil că nu facem căutări comparative pe Bing sau Blekko să observăm dacă aceste motoare de căutare ne-ar fi oferit rezultate mai bune și nici nu le folosim în mod regulat pentru a observa dacă și acestea eșuează în aceeași măsură cum o face Google;
  • Așteptările noastre de la Google sunt mai mari, pentru că Google ne-a obișnuit cu rezultate premium;

În loc de concluzie

Nu mă pot abține să nu mă întreb dacă SpamClock (în spatele căruia se află Blekko) nu face parte dintr-un efort colaborativ la care participă alt motor de căutare minuscul, respectiv DuckDuckGo, pentru a-l lovi pe Google în punctele lui aparent vulnerabile.

Cu puțin timp înainte de lansarea lui SpamClock, DuckDuckGo a lansat un site denumit DontTrack.us (Nu ne mai monitorizați), o provocare indirectă la adresa problemelor de intimitate și monitorizare de care este acuzat în permanență Google. Acum Blekko a lansat SpamClock.com, o altă provocare indirectă la adresa spamului cu care este inundat și ne inundă Google. Blekko și DuckDuckGo au fost parteneri formali pentru cel puțin câteva luni. Să fie oare doar o coincidență că aceste două lansări s-au întâmplat la doar câteva zile distanță?

Deși SpamClock.com a fost creat pentru a atrage atenția asupra problemei crescânde a spamului, și numărul afișat este mai mult ilustrativ decât științific precis (după cum admite însuși autorul), ne oferă un indiciu îngrijorător asupra chestiunii web-spamului.

Share on Facebook
Share on LinkedIn

Publicat în: Analize

Etichete:

Despre autor: Deși pare uneori cam supărat pe viață, de obicei se abține de la critici gratuite, preferând să publice cu preponderenţă analize obiective ale diverselor trenduri din IT. Cu toate că este o fire destul de agitată, totuși nu prea deschide gura decât când știe exact ce vorbește. După cum se poate vedea și din gravatarul lui, nu mai are toate țiglele pe casă... Umblă vorba prin sat că Şopârloiul şi TransMix ar fi una şi aceeaşi persoană.

RSSComentarii (0)

URL trackback

Comentează




Dacă vrei să apară o poză la comentariul tău, fă-ți rost de un Gravatar.