ESB Forum
ISSN: 2283-303X

VERSIONE D'ARCHIVIO NON AGGIORNATA.
PER LA VERSIONE CORRENTE DI QUESTO DOCUMENTO:
<ridi-mot.htm>

Strumenti e strategie
per la ricerca di informazioni WWW

Versione 3.11 (2010-05-01)

di Riccardo Ridi (versione 1.0 disponibile da marzo 2000)

precedenti versioni di questo documento sono state pubblicate a stampa:

[versione 1.0, marzo 2000] in: Memoria e ricerca in Internet, a cura di Orietta Rossini, Roma, Comune di Roma - L'Erma di Bretschneider, p. 43-51 e 117-120;
[versione 2.0, aprile 2000] in: "Biblioteche oggi", XVIII, n. 5 (giugno 2000), p. 54-62.

e online in ESB Forum: [versione 3.0, 25 agosto 2002] [versione 3.1, 20 settembre 2002] [versione 3.2, 6 novembre 2003] [versione 3.3, 25 aprile 2004] [versione 3.4, 15 marzo 2005] [versione 3.5, 4 novembre 2005] [versione 3.6, 11 novembre 2005] [versione 3.7, 10 febbraio 2006] [versione 3.8, 20 giugno 2006] [versione 3.9, 3 maggio 2007] [versione 3.10, 3 marzo 2008]

Ulteriori elenchi di strumenti per la ricerca in rete che seguono uno schema di classificazione simile a quello qui adottato sono contenuti in:

Biblioteche in Rete (Laterza). Capitolo 11 / di Fabio Metitieri e Riccardo Ridi
Cercare informazioni in Internet: strumenti e strategie / di Claudio Gnoli
Riccardo Ridi's Bookmarks / di Riccardo Ridi

INDICE

Motori di ricerca
Indici web per argomento
Virtual reference desk
Indici web specializzati
Meta-indici web
Portali
Altre tipologie di strumenti
Strategie
Bibliografia essenziale
Note

Il World Wide Web, col suo formato costitutivo HTML, non costituisce certo la totalità di quanto è disponibile in rete (ci sono anche i server FTP, gli OPAC e i database ancora interrogabili via telnet, i libri e i periodici elettronici in formato PDF, i file audio e video, le mailing list e gli altri strumenti di comunicazione, gli universi virtuali come Second Life, il mondo del peer to peer, ecc.), ma sicuramente costituisce la parte di Internet cresciuta più rapidamente (dai 2.738 siti del 1994 agli oltre 172 milioni del 2008, secondo Netcraft). Inoltre la maggior parte delle risorse "non-www" disponibili in rete difficilmente rinuncia a crearsi almeno una "finestra sul web", ovvero una pagina HTML con una breve descrizione della risorsa stessa e un link che permetta al browser di attivare automaticamente il software necessario per raggiungerla. Riuscire a trovare informazioni disponibili sul Web, insomma, coincide ormai col recuperare informazioni tout court disponibili via Internet. Esistono numerose tipologie di strumenti creati, mantenuti e messi a disposizione gratuitamente, spesso grazie ai proventi pubblicitari, per facilitare la ricerca in rete.

Motori di ricerca

Indici Web per parola, detti anche "motori di ricerca", "search engine", "robot" o "spider". Grazie ad appositi programmi raccolgono automaticamente in grandi archivi miliardi di pagine web e permettono di individuare al loro interno tutte le occorrenze di uno o più termini digitati da colui che effettua la ricerca in una apposita maschera. Talvolta i motori ricercano anche tra i messaggi di numerosi newsgroups e in formati alternativi (PDF, RTF, immagini, suoni, ecc.). I risultati trovati, purtroppo, non sono sempre pertinenti, anche se questi strumenti vengono continuamente perfezionati per consentire interrogazioni e metodi di ordinamento sempre più sofisticati. Il problema consiste nella difficoltà di far individuare automaticamente a un programma, senza l'intervento di catalogatori umani, omonimie, sinonimie e più in generale il contenuto semantico delle pagine Web.

Antenati. Veri e propri progenitori degli attuali motori di ricerca web sono stati VERONICA (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) e Archie, due fra i più antichi strumenti di ricerca disponibili in rete, oggi abbandonati. Con un client Archie (oppure collegandosi via telnet a uno dei suoi server) si potevano ricercare in tutti i siti FTP mondiali i file che contengono nel loro nome una determinata sequenza di caratteri; con ciascuna VERONICA si potevano invece ricercare (anche con gli operatori booleani AND, OR e NOT) tutte le parole contenute nei menu dei Gopher, una sorta di Web gerarchico e testuale ante-litteram.

Principali. I tre principali motori di ricerca internazionali sono attualmente:

Google <http://www.google.com>, che punta molto sull'individuazione dei siti più rilevanti mediante l'analisi citazionale dei link in entrata e in uscita e dotato di funzioni di ricerca specializzata per immagini, video, newsgroups ("gruppi"), fonti giornalistiche ("news") e accademiche.
Yahoo! Search <http://search.yahoo.com>, noto soprattutto per la sua directory, ma dal ebbraio 2004 in grado di effettuare anche ricerche per parola utilizzando un proprio archivio e una interfaccia specializzata.
Bing <http://www.bing.com>, della Microsoft, denominato MSN Search fino al 2006 e Windows Live Search dal 2006 al giugno 2009.

Una spanna sotto a questi giganti si possono citare:

AltaVista <http://www.altavista.com>, un tempo il migliore, e l'ultimo ad abbandonare la possibilità di usare esplicitamente gli operatori booleani nella ricerca avanzata;
Ask.com <http://it.ask.com>, che dal 2006 fonde l' "indice di risposte" (cfr. più avanti) Ask Jeeves con il motore Teoma, focalizzato sull'individuazione dei siti più popolari in una "comunità di esperti";
Exalead <http://www.exalead.it/search>, dal look estremamente simile a quello di Google e con l'anteprima automatica delle pagine trovate;
Gigablast <http://gigablast.com/>, che ha purtroppo abbandonato dal 2007 l'utile caratteristica di fornire un link alle precedenti versioni delle pagine recuperate tramite la Wayback Machine (cfr. più avanti).

Motori italiani. Per quanto riguarda i siti italiani, dopo la scomparsa, fra 2005 e 2006, di Arianna, assorbita dal portale di Libero, l'ultimo motore di ricerca davvero italiano è rimasto il piccolo Il trovatore <http://www.iltrovatore.it> ed è quindi ormai diventato necessario rivolgersi ad apposite ricerche mirate fornite dai motori internazionali oppure dai "portali" italiani trattati più avanti.

Relevance ranking. Quando si effettua una ricerca su centinaia di milioni di documenti con tecniche di interrogazione non particolarmente sofisticate come quelle in dotazione ai motori di ricerca web, ci si può facilmente aspettare di ottenere una quantità esorbitante di risultati, non sempre facilmente "raffinabili" con ulteriori interrogazioni. Diventa allora di importanza capitale il criterio utilizzato dal motore per effettuare l'ordinamento (ranking) dei risultati. Il criterio più diffuso è quello che i motori stessi amano chiamare "ordinamento in base alla rilevanza" (relevance ranking), e che in realtà cela un complesso e mutevole[1] mix (tenuto rigorosamente segreto per motivi commerciali) di criteri puramente quantitativi e statistici, fra cui i seguenti:

Frequenza = numero di occorrenze dei termini utilizzati per la ricerca all'interno della singola pagina recuperata.
Densità = rapporto fra il numero di occorrenze dei termini all'interno della pagina e il totale delle parole contenute nella pagina.
Rarità = rapporto inverso fra il numero di occorrenze dei termini utilizzati per la ricerca all'interno del database del motore e il totale delle parole contenute nel database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono ignorate.
Compresenza = presenza, nella pagina, di più d'uno dei termini richiesti o addirittura di tutti. In questo modo l'operatore booleano AND contribuisce, in una certa misura, al risultato finale anche nei casi, a dire il vero sempre più rari, in cui la ricerca iniziale venga impostata di default con l'OR.[2] Quando l'operatore di default è AND alcuni motori (fra i quali Google) premiano la compresenza in una "frase esatta".
Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro.[3]
Posizione = presenza dei termini in particolari zone della pagina[4]. Nella sezione visibile BODY vengono tipicamente "premiate" le prime parole e quelle contenute nei tag H e HREF (ovvero nei vari titoletti (heading) e nei link). La sezione nascosta HEAD è complessivamente "premiata" più di quella BODY. In particolare vengono considerati particolarmente "pesanti" il tag TITLE e, in subordine, quelli KEYWORD e DESCRIPTION.
Priorità = ordine in cui sono stati immessi i termini nel form di ricerca.
Provenienza = pagine provenienti dal medesimo sito vengono spesso mostrate l'una vicina all'altra, talvolta con un rientro a partire dalla seconda e nascondendo le ultime se troppo numerose. Anche la provenienza dell'interrogazione, ovvero l'IP number del computer dal quale si effettua la ricerca, può influenzare il ranking.
Età e aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine aggiornate più recentemente e che esistono da più tempo al medesimo URL.
Popolarità = numero dei link "in entrata"[5] provenienti da altre pagine contenute nel database del motore e numero delle selezioni della pagina effettuate dagli utenti a partire dalle schermate di risposta del motore.
Tariffazione = Altavista ha recentemente annunciato che sarà possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta. C'è chi sospetta che tale criterio sia già utilizzato da vari motori senza dichiarazioni esplicite, almeno per quanto riguarda pagine relative a prodotti propri o di aziende collegate. Per un approfondimento sulla tariffazione nei search engines cfr. Strumenti di ricerca: chi paga ? <pes-paga.htm> di Mariateresa Pesenti.

Metadati. Fondamentale è l'importanza, ai fini del recupero dell'informazione disponibile in rete, della presenza di appropriati "metadati" e "metatag"[6] nelle pagine web, che contribuirebbero in maniera determinante a ridurre quell'information overload di cui molti si lamentano. Esistono a tale proposito vari progetti, fra cui il più noto è lo standard Dublin Core (cfr. le FAQ <http://dublincore.org/resources/faq/> e la traduzione italiana <http://www.aib.it/aib/lis/std/t9503.htm>), molto apprezzato negli ambienti bibliotecari. Attualmente però i principali motori di ricerca prendono in considerazione una serie di "metatag" molto meno sofisticati ma ben più diffusi, fra cui i seguenti:

AUTHOR = Indica l'autore della pagina, in genere identificato con l'"htmlizzatore" piuttosto che con chi detiene la paternità intellettuale del suo contenuto.
COPYRIGHT = Dichiarazione esplicita e sintetica sui diritti relativi al documento, senza link a formulazioni più articolate.
GENERATOR = Indica il software utilizzato per creare il file HTML. Molti di tali software inseriscono automaticamente il proprio nome nel file stesso senza neppure "avvertire" l'utilizzatore. Evidenti le implicazioni pubblicitarie.
ROBOT = Indica ai software di ricerca dei motori se e come tenere conto della pagina. Non tutti i robot sono però rispettosi delle indicazioni ricevute.
TITLE = Il metatag più importante. Non dovrebbe mai mancare in una pagina ben costruita e dovrebbe includere alcune parole particolarmente significative per individuare la risorsa a cui si riferisce. E' il metatag più utilizzato e più "pesante" per i motori di ricerca, che - fra l'altro - lo visualizzano in testa alle "schedine" che si ottengono effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito come qualcosa a metà strada fra il soggetto e il titolo uniforme, appare anche nei bookmark e in testa alla finestra del browser. Alcuni motori, infine, permettono di limitare la ricerca alle sole parole contenute in questo metatag.
DESCRIPTION = Breve descrizione del contenuto della pagina, ovvero un mini-abstract che molti motori visualizzano nel corpo delle loro "schedine". In caso di assenza di questo metatag il motore si arrangia da solo, visualizzando in genere le prime parole presenti nella parte visibile al browser della pagina (BODY), con risultati talvolta efficaci ma più spesso inutilizzabili.
KEYWORD = Ulteriori parole chiave (oltre a quelle contenute in TITLE e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per caratterizzarne il contenuto.

Tecniche di ricerca. Fra i diversi e variabili (nel corso del tempo e da motore a motore) metodi di interrogazione dei search engines ricordiamo solo alcuni dei più utili e diffusi, in genere utilizzabili o dalla maschera di ricerca principale usando degli appositi codici oppure grazie alle maschere multiple della "ricerca avanzata":

combinazione dei termini con l'operatore booleano AND (opzione in genere di default)
combinazione dei termini con l'operatore booleano OR
esclusione di un termine con l'operatore booleano NOT (spesso utilizzando il segno -)
ricerca per frase esatta (spesso racchiudendo fra virgolette la frase cercata)
ricerca esclusivamente nel campo TITLE
ricerca esclusivamente all'interno di un determinato server
ricerca delle pagine web che hanno un link verso una determinata pagina web

Pagine simili e memorizzate. Alcuni motori permettono di rintracciare (con una ricerca che viene talvolta definita impropriamente "per concetto" ma che andrebbe chiamata "per somiglianza") ulteriori pagine Web contenenti una certa percentuale di parole uguali a quelle delle pagine già trovate, nel tentativo di recuperare parte del contenuto semantico sfuggito con la ricerca per parole. Molti consentono di visualizzare la versione della pagina recuperata che è stata memorizzata ("cached") sul server del motore stesso durante il suo ultimo "giro di ricognizione".

Web invisibile. Neppure i motori di ricerca più potenti riescono a scandagliare tutte le pagine web esistenti, anche perchè sempre più spesso esse vengono create "al volo" (on the fly) solo contestualmente all'interrogazione di un sito o di un database. E' quindi indispensabile non limitarsi ai search engines nella ricerca sul Web.

Indici web per argomento

Detti anche "directory", "subject tree" o "pick list", questi indici non sono creati automaticamente come quelli dei search engines, ma vengono costruiti da personale specializzato che seleziona e indicizza le pagine Web in base al soggetto, scartando quelle meno interessanti e talvolta aggiungendo un breve riassunto e una valutazione. Il lavoro umano garantisce un filtro qualitativo e diminuisce il "rumore" rispetto alle ricerche effettuate coi motori, ma per problemi di costi gli archivi sono di gran lunga più piccoli di quelli usati dai motori. Pochi di questi indici adottano sistemi formalizzati di classificazione bibliotecaria (CDD, CDU, LC), mentre la maggior parte utilizza una propria gerarchia di classi annidate piuttosto approssimativa dal punto di vista del rigore concettuale. Alcuni, come Yahoo! e la Open Directory, permettono una ricerca per parola all'interno del proprio archivio di "intestazioni", una possibilità che gli utenti meno esperti confondono spesso con la ricerca full text nell'intero Webspace tipica dei search engine.

Fra le principali directories internazionali si possono citare:

About.com <http://www.about.com/>
Google directory <http://directory.google.com>
Open directory project <http://www.dmoz.org/>
Yahoo! directory <http://dir.yahoo.com/>

Per l'Italia, invece:

Google directory [Italia] <http://directory.google.it/>
Open directory project [Italia] <http://www.dmoz.org/World/Italiano/>
Il trovatore directory Italia <http://categorie.iltrovatore.it/>

Numerose directories e VRD dedicati a singoli paesi sono elencati nella pagina Altri come SegnaWeb <http://www.aib.it/aib/sw/altri.htm3>.

Virtual reference desk

Fondamentali metarisorse dalle molteplici denominazioni, fra cui "virtual library", "electronic reference desk", "gateway", "trailblazer page", "metapage", "homepage" e "hub". Proprio come le sale di consultazione delle biblioteche "reali" questi reference desk virtuali raccolgono, ordinano e talvolta valutano e commentano le principali fonti informative e i più utili strumenti di ricerca disponibili in rete, relativamente a una determinata disciplina o argomento (virtual reference desk specializzati) o a Internet in generale (virtual reference desk generali). Talvolta includono anche (o si presentano come) guide alla ricerca più discorsive, che spiegano metodi e trucchi per la ricerca in rete. In ogni caso si contraddistinguono per la forte selettività delle scelte operate. Alcuni VRD, come ad esempio la WWW virtual library, vengono definiti "distribuiti", perché sono costituiti dalla collaborazione tra diversi siti indipendenti, ciascuno dedicato a un determinato argomento, e quindi potrebbero essere definiti, a maggior ragione, dei "repertori di virtual reference desk specializzati". I VRD costituiscono l'Alfa e l'Omega di molte delle più efficaci ricerche di informazioni che si possono svolgere in rete, che iniziano orientandosi partendo da un buon VRD generale per poi utilizzare vari strumenti e strategie fino ad indivividuare un particolare VRD specializzato in grado di soddisfare il bisogno informativo iniziale e, al tempo stesso, eventuali successive necessità di approfondimento o aggiornamento.

Come esempi di virtual reference desk generali, che talvolta (se molto analitici) sconfinano nella categoria degli indici Web per argomento e che spesso ereditano dagli enti che li gestiscono (spesso biblioteche pubbliche o universitarie) una spiccata propensione per il quick reference rivolto a una particolare tipologia di utenza (cittadini di una determinata Regione, studenti di una determinata Facoltà, ecc.), si possono ricordare:

(fra quelli rivolti prevalentemente a studenti e ricercatori):

BUBL link <http://bubl.ac.uk/link> del britannico Centre for digital library research;
Infomine: scholarly Internet resource collection <http://infomine.ucr.edu/>, della University of California;
Internet per gli umanisti <http://biblio.lett.unitn.it>, a cura di Carlo Favale dell'Università di Trento;
Intute <http://www.intute.ac.uk/ >, "a free online service providing you with access to the very best Web resources for education and research [...] created by a network of UK universities and partners";
WWW virtual library <http://www.vlib.org>, il primo importante VRD generale, nato nel 1991.

(fra quelli rivolti prevalentemente ai cittadini):

Eureka <http://biblioteche.provincia.vicenza.it/eureka/>, a cura di Renzo Brun del Servizio bibliotecario provinciale vicentino;
IPL2 <http://www.ipl.org/>, il risultato di una recente fusione fra la Internet Public Library (IPL) ed il Librarians' Internet Index (LII);
Risorse web < http://www.biblioteca.colognomonzese.mi.it/index2.php?consez=risorse>, a cura della Biblioteca civica di Cologno Monzese;
SegnaWeb: risorse Internet selezionate dai bibliotecari italiani <http://www.segnaweb.it>, a cura di AIB e CILEA;
Selezione Web <http://www.bibliotecasalaborsa.it/content/desktop/indicegenerale.html >, a cura della Biblioteca Sala Borsa di Bologna;
Virtual reference desk per le biblioteche pubbliche <http://www.bibliotecari.it/SPT/VRD/SPT--Home.php>, un "repertorio ragionato di risorse Internet organizzate per materia" curato dalla Biblioteca Luigi Crocetti della Regione Toscana.

VRD specializzati. Numerosi VRD italiani e stranieri specializzati nel settore della biblioteconomia sono elencati in AIB-WEB il Web dell'Associazione Italiana Biblioteche <http://www.aib.it>, all'indirizzo <http://www.aib.it/aib/lis/vrd.htm>. Altri due ottimi esempi di VRD specializzati sono la Rassegna degli strumenti informatici per lo studio dell'antichità classica <http://www.rassegna.unibo.it/rassegna/> curato da Alessandro Cristofori presso l'Università di Bologna e Documentazione di fonte pubblica in rete (DFP) <http://www.aib.it/dfp/>, coordinata da Fernando Venturini presso AIB-WEB.

Il repertorio Virtual library italiane <http://www.virtual-library.it/SPT--BrowseResources.php?ParentId=271> raccoglie numerosi VRD specializzati prodotti in Italia; il curatore Fabio Valenziano ne commentava una precedente versione dicendo che "vi segnaliamo i siti italiani più importanti nei quali esperti di varie discipline raccolgono, selezionano, localizzano e organizzano le risorse informative più interessanti, disponibili non solo localmente ma nell'intera Internet, nei singoli settori. In ciascuna raccolta tematica troverete link a risorse informative sia italiane che straniere. Lo scopo delle segnalazioni è duplice: da un lato indirizzare il ricercatore o lo studioso verso i siti che gli agevoleranno la ricerca delle risorse informative, dall'altro stimolare gli enti intenzionati a creare nuove homepage tematiche a non duplicare inutilmente gli sforzi e valutare l'opportunità di attivare collaborazioni con gli enti citati". Altri VRD specializzati italiani sono raggiungibili attraverso la pagina Repertori di siti realizzati in ambito universitario italiano <http://www.aib.it/aib/sw/univ.htm> curata da Angela Pacillo per SegnaWeb.

Indici web specializzati

Indici Web per parola limitati a una disciplina. Chiamati anche LASE (limited area search engines), costituiscono una sorta di ibridazione fra search engines e directories, dei quali cercano di unire i pregi. Applicano la potenza "cieca" dei motori di ricerca esclusivamente a un gruppo di siti o documenti dedicati a una particolare disciplina o argomento e indicizzati da personale specializzato. Dopo la chiusura dei pionieristici Argos ("limited area search engine of the ancient and medieval Internet") e Hippias ("limited area search of philosophy on the Internet"), come esempi si possono vedere Placidia <http://www.storiaonline.org/mi/cerca.htm>, dedicato alla storia medievale, e LIS-ITA-EJ < http://www.google.com/cse/home?cx=014695034523506990592%3A8gjyays-u5u>, che scandaglia i periodici elettronici italiani di biblioteconomia.

Indici specializzati in particolari tipologie di documenti. Sono directories e search engines limitati esclusivamente a documenti particolari, come ad esempio:

fotografie e altre immagini; ad esempio Google Image Search <http://images.google.com/> e Fotosearch <http://www.fotosearch.it/>;
canzoni e altri documenti sonori; ad esempio Skreemr <http://skreemr.com/> e Yahoo Music <http://new.music.yahoo.com/>;
blogs e news; ad esempio Technorati <http://www.technorati.com/ > e Google News <http://news.google.it/>;
documenti non più disponibili online; ad esempio la Wayback Machine dell'Internet Archive <http://www.archive.org/>;
documenti di ambito accademico; ad esempio Google Scholar <http://scholar.google.com/> e OAIster <http://oaister.umdl.umich.edu/o/oaister/>;
libri in formato originale (ad esempio Find In A Library) o digitalizzati (ad esempio Google Book Search (ex Google Print) <http://books.google.com/>);
altri strumenti specifici per la ricerca di documenti a carattere bibliografico.

Indici specializzati in particolari tipologie di utenti, come ad esempio i bambini:

BiblioKids <http://www.comune.torino.it/cultura/biblioteche/spazioragazzi/bibliokid/index.html>
IPL2 for Kids <http://www.ipl.org/div/kidspace/>
Pianeta dei bambini <http://www.pianetabimbi.it/>

o gli abitanti di un determinato territorio:

Empoli <http://www.comune.empoli.fi.it/biblioteca/fondi/sezloc/sitilocali.htm>
Piemonte <http://www.comune.torino.it/cultura/biblioteche/old/pagine/pie.html>

Meta-indici web

Noti anche come "meta-motori", permettono l'accesso (talvolta anche l'interrogazione, non sempre contemporanea) a un certo numero di indici e repertori primari, come quelli elencati finora. In alcuni casi è possibile scegliere se impostare la ricerca direttamente dalla pagina del meta-indice oppure se collegarsi prima a quella dell'indice primario. Vengono chiamati anche "unified search engine", e possono rivelarsi utili, tra l'altro, per testare le differenze fra i vari indici. Alcuni meta-indici permettono di immettere una sola volta i termini di ricerca, lasciando al software il compito di ripetere l'interrogazione su tutti gli indici selezionati e di produrre una risposta cumulativa; il risultato è "sporco", cieco rispetto alle peculiarità dei vari archivi e delle relative tecniche di interrogazione, ma la rapidità e la potenza di questi strumenti li rende comunque interessanti. Possono essere distinti in tre sottocategorie:

Meta-indici in senso stretto. In questo caso un'unica maschera di ricerca permette l'interrogazione cumulativa di vari indici contemporaneamente. I risultati talvolta sono ordinati in base all'indice di provenienza, con eventuali ripetizioni, mentre a volte vengono "schiacciati", eliminando le ripetizioni, e vengono ordinati in base alla supposta rilevanza rispetto alla richiesta oppure ad altri criteri. Cfr., ad esempio:
- Clusty <http://wwww.clusty.com>, che raggruppa i risultati in base alle parole contenute o ai siti di provenienza;
- MetaCrawler <http://www.metacrawler.com>, che recupera solo i primi risultati provenienti da ciascun motore;
- Search.com <http://www.search.com>, con una interfaccia e alcuni servizi ausiliari estremamente simili a quelli di Google.
Interessanti anche i meta-indici che utilizzano un software di tipo client da installare sul proprio Pc, come ad esempio Copernic <http://www.copernic.com/>, permettendo di memorizzare e gestire in modo piu' sofisticato ricerche complesse o ripetute nel tempo.

Multi-indici. Si tratta di servizi che, attraverso uno o piu' form, permettono la ricerca su vari indici, interrogabili però solo uno alla volta. Cfr., ad esempio:
- All in one <http://www.complang.tuwien.ac.at/pirky/allinone/all1www.html#WWW>
- iTools <http://www.itools.com/search/>
- Search-22 <http://www.search-22.com/>

Indici di indici. Sono semplici liste di link a indici. Più che veri e propri meta-indici sono dei repertori di indici, qualche volta ampiamente commentati e arricchiti di tabelle comparative, recensioni, confronti, segnalazioni di novità, suggerimenti per trovare i siti altrui e far trovare il proprio come nel caso di MotoriDiRicerca.it <http://www.motoridiricerca.it/>, di Search engine watch <http://www.searchenginewatch.com/> e di Search engine showdown <http://www.notess.com/search/>, curato dal "reference librarian" Greg Notess (di cui si veda, in particolare, l'utilissima Search engine features chart <http://www.notess.com/search/features/>). A livello meta-repertoriale va segnalata la pagina Guide per la ricerca in Internet <http://www.aib.it/aib/lis/motori.htm> curata da Sandra Favret e Sara Franzoso, una ricca raccolta commentata di guide, bollettini, gruppi di discussione, bibliografie e raccolte di link sugli strumenti per la ricerca in Internet.

Portali

Molto utilizzati dagli utenti meno esperti e poco adatti invece per professionisti della ricerca in Internet, si candidano a costituire il sito di riferimento dei navigatori non solo per la ricerca di informazioni ma anche per ogni altra attività (comunicazione, giochi, acquisti in linea, prenotazione di servizi, ecc.) effettuabile in rete. Quasi sempre presenti una directory molto orientata sulle necessità della vita quotidiana, un motore di ricerca in proprio o mutuato dai maggiori e un coacervo dei più svariati servizi: notiziari, quotazioni di borsa, indirizzi e-mail e spazio web gratuiti, oroscopi, stradari, chat e forum, messaggistica SMS, previsioni del tempo, ecc. Si vedano, ad esempio, in Italia, Virgilio <http://virgilio.alice.it> e KataWeb <http://www.kataweb.it>, ma anche giganti di altre categorie come Yahoo! si stanno rapidamente "portalizzando" sulla spinta delle pressioni pubblicitarie. C'è chi li distingue in portali "orizzontali" (cioè generali) e "verticali" (cioè specializzati, come ad esempio WUZ <http://www.wuz.it> - ex Alice ed ex AliceLibri - dedicato alla cultura e allo spettacolo).

Altre tipologie di strumenti

Indici di risposte. Ormai in disuso, pretendevano di "comprendere" le domande effettuate dagli utenti in linguaggio naturale, ma in realtà erano solo un magazzino di possibili risposte predisposte in anticipo, scelte fra quelle più probabili (o, per motivazioni pubblicitarie uguali e contrarie a quelle che dettano tale selezione, fra quelle decisamente più improbabili) e dotate di una serie di link a siti pertinenti preselezionati da staff umano. I termini di ricerca immessi dall'utente venivano utilizzati da un normale motore di ricerca per parola, con la differenza che l'archivio da cui si estraevano i risultati non era costituito da una buona fetta delle pagine web mondiali ma solo da alcune migliaia di risposte preconfezionate. Le possibilità di ottenere una risposta pertinente ed esauriente erano piuttosto scarse, e legate più alla capacità di formulare quesiti abbastanza ovvi da parte dell'interrogante che a quelle di acutezza nella comprensione e di perspicacia nella ricerca da parte dell'interrogato. Per non lasciare mai l'utente a mani vuote, se nessuna delle risposte precotte era pertinente, i termini utilizzati venivano "sparati" contro uno o più dei maggiori motori di ricerca per parola, pur di ottenere qualche risultato. Il più noto era Ask Jeeves, trasformatosi all'inizio del 2006 in un normale motore di ricerca per parola. Questo tipo di strumento non va confuso con gli autentici servizi di reference digitale online "umano" effettuati (con tempi, ovviamente, non istantanei) da information broker professionisti oppure da bibliotecari.

Indici personalizzabili e agenti di ricerca. Ancora in gran parte sperimentali, questi strumenti mirano a rintracciare autonomamente tutte le risorse di interesse per l'utilizzatore, sulla base della preventiva definizione di un accurato "profilo di ricerca" e, nei casi più sofisticati ma anche più imprevedibili, di decisioni "autonome" dei cosiddetti "agenti intelligenti". Talvolta utilizzano tecnologie di tipo "push", che "spingono" automaticamente le informazioni sul desktop dell'utente, come i feed RSS. Come esempi piuttosto semplici, che si limitano a permettere una riorganizzazione personalizzata dell'ordinamento delle informazioni proposte si vedano My Yahoo! <http://www.my.yahoo.com> e Rollyo <http://www.rollyo.com/>.

Raccolte di bookmarks coi link alle risorse web preferite di altri utenti; come Delicious <http://delicious.com/> e Connotea <http://www.connotea.org/>.

Catalogazioni bibliotecarie. Numerose sono le sperimentazioni effettuate da singole biblioteche (ad esempio, in Italia, la Biblioteca Angelo Monteverdi dell'Università di Roma "La Sapienza" <http://bam.let.uniroma1.it/inrete/inrete.htm> e la Biblioteca dell'Università di Milano - Bicocca <http://scout-unimib.cilea.it/links/SPT--Home.php >), ma il maggiore progetto del genere a livello mondiale è stato il pionieristico InterCat, promosso nel 1991 da OCLC, ALA e Library of Congress, che ha esteso il formato USMARC e le regole di catalogazione angloamericane per consentire a un vasto gruppo di bibliotecari di tutto il mondo di creare delle vere e proprie "schedine elettroniche" delle risorse disponibili in rete, complete di autore, titolo, data, soggetto LC, classificazione DDC e abstract. I risultati del progetto InterCat, conclusosi nel 1996, sono stati successivamente riversati nel più vasto archivio NetFirst e infine sono stati fusi nel catalogo collettivo generale di OCLC WorldCat <http://www.oclc.org/worldcat/>, dove sono tuttora accessibili a pagamento nell'ambito dei servizi FirstSearch <http://www.oclc.org/firstsearch/> (interrogazione) e Connexion <http://www.oclc.org/connexion/ > (catalogazione derivata).

Integrazioni fra motori di ricerca e cataloghi di biblioteche/librerie. In questo ambito, oltre al già citato progetto Find In A Library, si possono ricordare due peculiari meta-indici:

A9 Open Search <http://www.a9.com/-/home.jsp>, che permette a chiunque l'interrogazione cumulativa dei cataloghi della libreria online Amazon e di altri strumenti di ricerca;
Yahoo! Toolbar <http://www.oclc.org/toolbar/>, che permette agli utenti delle biblioteche affiliate a OCLC l'interrogazione cumulativa di Yahoo! Search e di WorldCat.

Strategie

La ricerca di informazioni in Internet sta ormai diventando una vera e propria professione, o almeno una specializzazione consolidata nel mondo bibliotecario e documentario. E' impossibile ridurre a poche pillole di saggezza strategie che richiedono un ampio bagaglio professionale tradizionale unito a una vasta esperienza di rete. Qui schematizziamo quindi soltanto alcune indicazioni di massima su come condurre una ricerca e sull'ordine con il quale interrogare le diverse metarisorse esistenti.

Se si desidera solo un primo orientamento, per prepararsi a eseguire in seguito ricerche più specifiche, la cosa migliore per cominciare è la visita a un virtual reference desk generale, a uno di biblioteconomia e a uno specializzato scelto in base alla tipologia della propria biblioteca.

Se invece si conosce già quale tipo di informazioni si desidera (ad esempio quando si cerca l'indirizzo di una biblioteca), occorre affidarsi a un repertorio specializzato, o eventualmente a un virtual reference desk generale o specializzato per scoprire se esistono repertori di quell'ambito (ad esempio repertori di biblioteche).

Quando si cercano informazioni di ogni tipo su un certo tema, conviene invece partire da un indice per argomento. Con un po' di fortuna si possono trovare così una o più risorse soddisfacenti; con molta fortuna, si potrebbero trovare addirittura uno o più virtual reference desk specializzati da usare come guida per le ricerche successive.

Nel caso in cui le strategie precedenti non abbiano avuto buon esito, si può provare a interrogare un indice per parola, utilizzando prima le tecniche più elementari ed eventualmente seguendo poi le istruzioni per quelle più complesse e potenti. Tra i risultati si dovrebbe riuscire a individuare qualche risorsa specifica o addirittura un virtual reference desk.

Nel caso si cerchi qualcosa di molto specifico, infine, ben individuabile con una o più parole (un autore minore, un particolare software, un ente, ecc.) conviene provare subito a usare un indice per parola o addirittura un meta-indice.

Bisogna ricordarsi che talvolta può essere utile anche un approccio "archivistico" alla ricerca delle informazioni, mirando alla fonte, ovvero all'ente che emana o comunque è interessato ai documenti cercati. Con un po' di fortuna costruire indirizzi del tipo www.nome-ente-esteso.it o www.sigla-ente.com può portare direttamente alla meta.

Quando un link "va a vuoto", si può provare ad "accorciare l'URL" eliminandone il segmento successivo all'ultimo "slash" (/), risalendo progressivamente verso l'indirizzo dell'host, finchè non si trovano indizi per rintracciare la nuova collocazione della pagina scomparsa.

Utilizzare tutti gli strumenti e le strategie analizzati fin qui, ma senza mai dimenticare che il Web è un ipertesto in cui è sempre possibile anche navigare "a vista" seguendo i link che paiono più promettenti.

Bibliografia essenziale

(È disponibile anche una bibliografia più estesa)

BACHA, Murtha [2000] Introduction to metadata: pathways to digital information, edited by Murtha Baca, last updated 7/5/2000, <http://www.getty.edu/research/institute/standards/intrometadata/index.html>
BIERSDOFER, J. D. - MACDONALD, Matthew - MILSTEIN, Sarah [2006] Google. Il manuale che mancava, Milano, RGB (Google. The missing manual, 2nd ed., O'Reilly, 2006).
BRADLEY, Phil [2004] The advanced Internet searcher's handbook, 3rd ed. London, Facet.
CALISHAIN, Tara - DORNFEST, Rael [2003] Google. Trucchi e segreti per hacker, Milano, Tecniche nuove - Hops (Google hacks, O'Reilly, 2003)
CALVO, Marco - CIOTTI, Fabio - RONCAGLIA, Gino - ZELA, Marco A. [2003] Internet 2004. Manuale per l'uso della rete, Roma - Bari, Laterza, oppure <http://www.laterza.it/internet>, p. 185-247.
CANALI, Daniela [2002] La nuova generazione dei motori di ricerca. document clustering e gestione dei risultati, "Biblioteche oggi", XX (2002), 7, p. 8-12, oppure <http://www.bibliotecheoggi.it/2002/200209canali8.pdf>.
COOKE, Alison [2001] A guide to finding quality information on the Internet. Selection and evaluation strategies, 2nd ed., London, Library association publishing.
DEVINE, Jane - EGGER-SIDER, Francine [2009] Going beyond Google. The invisible web in learning and teaching, London, Facet.
FORRESTER, William H. - ROWLANDS, Jane L. [2000] The online searcher's companion, London, Library association.
GARGIULLO, Giulio [2008] Glossario dei motori di ricerca, <http://www.glossario-motori-ricerca.com/>, ultimo aggiornamento 18 novembre 2008.
GNOLI, Claudio - MARINO, Vittorio - ROSATI, Luca [2006] Organizzare la conoscenza. Dalle biblioteche all'architettura dell' informazione per il Web, Milano, Hops - Tecniche nuove.
HOCK, Randolph E. [2004] The extreme searcher's Internet handbook: a guide for the serious searcher, Medford, Cyberage books.
LANA, Maurizio [2004] I motori di ricerca in: Il testo nel computer. Dal web all'analisi dei testi, Torino, Bollati Boringhieri, 2004, p. 21-101.
METITIERI, Fabio - RIDI, Riccardo [2005] Biblioteche in rete. Istruzioni per l'uso, terza edizione riveduta e aggiornata, Roma-Bari, Laterza, disponibile anche online <http://www.laterza.it/bibliotecheinrete>.
NOTESS, Greg R. [2006] Teaching web searches skills. Techniques and strategies of top trainers, Medford (N.J.), Information today.
PESENTI, Mariateresa [2001] Strumenti di ricerca: chi paga ?, <pes-paga.htm>.
RADFORD, Marie L. - BARNES, Susan B. - BARR, Linda R. [2002] Web research. Selecting, evaluating, and citing, Boston - London, Allyn & Bacon.
RIDI, Riccardo [1999] Metadata e metatag: l'indicizzatore a metà strada fra l'autore e il lettore, relazione tenuta al convegno internazionaleThe digital library. Challenges and solutions for the new millennium, Bologna, 17-18 Giugno 1999, testo aggiornato e link controllati il 29 Settembre 1999 per la pubblicazione in AIB-WEB, < http://www.aib.it/aib/commiss/cnur/dltridi.htm>.
SAUERS, Michael P. [2009] Searching 2.0, New York - London, Neal-Schuman.
SHERMAN, Chris [2000] New web map reveals previously unseen "bow tie" organizational structure, "Information today newsbreaks", May 22, <http://www.infotoday.com/newsbreaks/nb000522-1.htm>.
SHERMAN, Chris - PRICE, Gary [2001] The invisible web: uncovering information sources search engines can't see, Medford, Information today.
SIGNORINI, Giorgio F. [2007] Ricerca di informazione in WWW, Universita' degli studi di Firenze, Dipartimento di chimica, 19 gennaio 2007, <http://srv.chim.unifi.it/~signo/did/inet/>.
SPECTER, Michael [2000] L'ago nel pagliaio. Sempre più intelligenti e facili da usare. Storia della gara per costruire il motore di ricerca migliore e più veloce, "Internazionale", VII, 353, p. 20-27.
STACEY, Alison - STACEY, Adrian [2004] Effective information retrieval from the Internet. An advanced user's guide, Oxford - Rollinsford, Chandos.
TASI [2006] Finding images online, Technical advisory service for images, may 2006, <http://www.tasi.ac.uk/resources/searchingresources.html>.
TASI [2008] A review of image search engines, Technical advisory service for images, february 2008, <http://www.tasi.ac.uk/resources/searchengines.html>.
THOMAS, Alan R. - SHEARER, James R; [2000] Internet searching and indexing: the subject approach, "Journal of Internet cataloging", II, 3/4, special issue.
TOROK, Andrew G. [2003] Organizing the Internet, issue edited by Andrew G. Torok, "Library trends", 52 (2003), n. 2.

Note

¹ Mutevole sia fra motore e motore, sia nel corso della storia di ogni singolo motore, per venire sempre più incontro alle aspettative degli utenti, che tendono a valutare i motori più dall'ordinamento dei risultati che dalle dimensioni e dall'aggiornamento dei relativi database o dall'effettiva individuazione di pagine realmente rilevanti.

² Resta comunque salva, anche in questi casi, la possibilità per gli utenti di forzare il motore alla ricerca in AND con l'uso di particolari operatori (spesso il "+").

³ Alcuni motori sono dotati di liste (non liberamente consultabili) delle coppie o dei gruppi di termini che vengono più spesso utilizzati dagli utenti nella medesima interrogazione (talvolta però solo se uniti fra loro con le virgolette in una ricerca della "exact phrase"). Tale tipo di ricerca "esatta" viene in tali casi effettuata automaticamente anche se l'utente, ignaro della "memoria" del motore, sta utilizzando i termini "gemellati" slegati fra loro.

⁴ O addirittura, come fa Google, fuori dalla pagina, prendendo in esame anche le parole da cui partono link diretti verso di essa e quelle circostanti. Alcuni motori calcolano anche le parole contenute nell'URL.

⁵ Google "premia" anche i link "in uscita".

⁶ I metadati sono "dati sui dati", ovvero informazioni, generalmente strutturate e scandite in campi, relative a documenti primari "a testo pieno" (full-text), che ne permettono una più efficiente organizzazione e recupero. I "metatag" sono quei tag (marcatori) del linguaggio HTML che possono venir inseriti, con funzione di metadati, nella parte nascosta HEAD del file a cui si riferiscono.

Strumenti e strategie per la ricerca di informazioni WWW

Versione 3.11 (2010-05-01)

Strategie

Bibliografia essenziale

Strumenti e strategie
per la ricerca di informazioni WWW