ESB Forum ESB Forum
ISSN: 2283-303X

3.1 Prima del "come" ... quanto?

Un elemento altamente opinabile resta sempre quello relativo alla quantità di informazioni realmente indicizzate e disponibili. Come si vede dagli esempi elencati, le unità di misura sono piuttosto difformi anche se forse, al di là della terminologia usata, si tende ad indicare cose analoghe: "documents" e "pages", URL, siti e "resources" e così via.
Non è dato poi conoscere con quale criterio siano scelte (se lo sono) le fonti indicizzate. Ma questo è un problema al quale arriveremo più tardi.

Webcrawler -------------> 145.166 servers

WWWW Worm --------> 3 milioni di URL

Open Text ---------------> 10 miliardi di parole

LYCOS -------------------> 91% dei siti WEB

Excite ---------------------> 11,5 milioni di pagine

Altavista -----------------> 30 milioni di pagine

Inktomi ------------------> documents

Harvest ------------------> objects / pages

NetFirst -----------------> resources

Sia nell'uno che nell'altro caso, molti non dichiarano niente e forse é meglio. Alcuni motori propongono ricerche sulle proprie selezioni attraverso delle raccolte di"reviews" (recensioni). Gli autori del motore Excite a tale riguardo sono molti chiari dichiarando di indicizzare effettivamente l'intero contenuto delle pagine WEB; a differenza di altri, inoltre, non calcolano tra le pagine indicizzate i vari "legami" ad altre pagine. E, a proposito di chi si comporta diversamente, dichiarano:

"E' come se si dichiarasse che una enciclopedia é di 24 volumi di cui 3 di testo effettivo e 21 di "vedi anche" e vari altri rinvii.
Crediamo che il modo più onesto per misurare le dimensioni sia quello di fare riferimento alle pagine a testo pieno."


Precedente - Indice - Seguente

Excite


| © ESB Forum | a cura di Riccardo Ridi |