Google: în lume există 129.864.800 de cărți publicate

Books

Câte cărți au fost publicate în toată istoria modernă a omenirii? Aproape 130 de milioane, ne răspunde Google, mai exact 129.864.880.

Trebuie să recunosc că este imposibil să facem inventarul fiecărei cărți care a fost scrisă vreodată dar pentru ca Google Books să reușească inventarierea tuturor cunoștințelor tipărite ale umanității, compania are nevoie de o estimare a numărului de cărți pe care trebuie să le scaneze.

Într-o postare detaliată pe blogul Google Books, inginerul software Leonid Taycher subliniază cât de complexă a devenit procedura numărării cărților. Primul pas este definirea exactă a conceptului de „carte”: compania a hotărât să ignore orice material care nu este legat în copertă:

„O definiție a cărții pe care am găsit-o acceptabilă în interiorul Google când lucram cu metadatele cărților este ideea de „tom” o formă idealizată a unei cărți prezentate sub forma unui volum. Un tom poate avea milioane de copii (cum ar fi Îngeri și Demoni a lui Dan Brown) sau poate exista doar într-un singur exemplar ori în două (cum ar fi o teză de doctorat obscură care lâncezește în biblioteca unei universități).

Google admite că această definiție are lacune dar este funcțională fiind similară cu ceea ce reprezintă ISBN-urile. Standardul ISBN sau International Standard Book Numbers a fost proiectat să furnizeze identificatori unici pentru cărți. Folosirea acestui standard nu a fost suficientă deoarece este folosit cu preponderență în țările vestice și a apărut doar de vreo 30-40 de ani. Acesta este motivul pentru care Google a luat date din Biblioteca Congresului american, WorldCat și alte surse în încercarea de a număra toate cărțile publicate vreodată. Suma finală s-a ridicat la 1 miliard de cărți.

Dar în acest punct talentul inginerilor de la Google a intrat în scenă, compania folosind nenumărați algoritmi pentru a determina și înlătura duplicatele printr-un efort care a necesitat analizarea a peste 150 de informații de tipul metadata privitoare la cărți pentru a evalua dacă fiecare carte este unicat sau un duplicat al alteia. În urma acestei analize au rămas 210 milioane de cărți unice.

Din această sumă Google a scăzut milioane de microforme, înregistrări audio, hărți, tricouri și clipuri care au ISBN-uri, ajungând la „rezonabilul” număr de 146 milioane. La sfârșit, din acest număr au fost scăzute 16 milioane de volume publicate de către Guvernul SUA, cifra finală fiind 129.8 milioane anunțată. Bineînțeles că editurile publică noi cărți chiar în minutele în care acest articol este scris dar Google actualizează continuu acest număr al cărților publicate.

În timp ce eu nu am o armată de ingineri și de algoritmi care să-mi sprijine afirmațiile, intuiția mea îmi spune că acest număr este prea mic iar Google mai trebuie să numere multe cărți din analele istoriei. Totuși, acest proiect de a număra toate cărțile scrise vreodată este pur și simplu fascinant și ar putea fi folositor în domeniile cercetării și al istoriei în anii care vor urma.

Următoarea mare provocare a lui Google: să oprească șirul neîntrerupt de procese generate de Google Books.

Share on Facebook
Share on LinkedIn

Publicat în: Noutăţi

Etichete:

Despre autor: Pentru că de felul lui se plictisește repede, este mereu dependent de noutăţi, motiv pentru care consumă agregatoarele de ştiri, RSS-uri sau blogurile cu noutăţi şi bârfe ca pe sticksuri. Vrei să afli ce produs va lansa Apple peste 2 ani sau când va reuşi Microsoft să facă un sistem de operare ca lumea? Porumbelul e omul tău. Joacă rolul poştaşului și răspândacului, ocupându-se de propagarea noutăţilor importante din IT.


Pingbacks

Comentează




Dacă vrei să apară o poză la comentariul tău, fă-ți rost de un Gravatar.