|
|
VERSIONE D'ARCHIVIO NON AGGIORNATA. PER LA VERSIONE CORRENTE DI QUESTO DOCUMENTO:
<ridi-mot.htm>
Strumenti e strategie per la ricerca di informazioni WWW
Versione 3.6 (2005-11-11)
di Riccardo Ridi (versione 1.0 in linea da marzo 2000)
precedenti versioni di questo documento sono state pubblicate a stampa:
e online in ESB Forum: [versione 3.0, 25 agosto 2002] [versione 3.1, 20 settembre 2002]
[versione 3.2, 6 novembre 2003] [versione 3.3, 25 aprile 2004]
[versione 3.4, 15 marzo 2005] [versione 3.5, 4 novembre 2005]
Ulteriori elenchi di strumenti per la ricerca in rete che seguono uno schema di classificazione simile a quello qui adottato sono contenuti in:
INDICE
Il World Wide Web, col suo formato costitutivo HTML, non costituisce certo
la totalità di quanto è disponibile in rete (ci sono anche
le mailing list, i newsgroup, i server FTP, gli OPAC e i database interrogabili
via Telnet, i libri e i periodici elettronici in formato PDF, i file audio
e video, gli emergenti formati SGML e XML, il mondo del Peer To Peer, ecc.), ma sicuramente costituisce
la parte di Internet cresciuta più rapidamente negli ultimi anni
(c'è chi stima che abbia raggiunto all'inizio del 1998 i trecento milioni
di pagine, nel settembre 1999 gli ottocento milioni, nel 2001 i 2 miliardi, nel 2003 i 5 miliardi e nel 2005 gli 11 miliardi).
Inoltre la maggior
parte delle risorse "non-www" disponibili in rete difficilmente rinuncia
a crearsi almeno una "finestra sul web", ovvero una pagina HTML con una breve
descrizione della risorsa stessa e un link che permetta al browser di attivare
automaticamente il software necessario per raggiungerla. Riuscire a trovare
informazioni disponibili sul Web, insomma, tende sempre più a coincidere
col recuperare informazioni tout court disponibili via Internet.
Esistono numerose tipologie di strumenti creati, mantenuti e messi a disposizione
gratuitamente, spesso grazie ai proventi pubblicitari, per facilitare la
ricerca in rete.
Indici Web per parola, detti anche "motori di ricerca", "search engine",
"robot" o "spider". Grazie ad appositi programmi raccolgono
automaticamente in grandi archivi miliardi di pagine web e permettono
di individuare al loro interno tutte le occorrenze di uno o più termini
digitati dal ricercatore in una apposita maschera. Talvolta i motori ricercano
anche tra i messaggi di numerosi newsgroups e in formati alternativi (PDF, RTF, immagini, suoni, ecc.).
I risultati trovati, purtroppo,
non sono sempre pertinenti, anche se questi strumenti vengono continuamente
perfezionati per consentire interrogazioni e metodi di ordinamento sempre
più sofisticati. Il problema consiste nella difficoltà di far
individuare automaticamente a un programma, senza l'intervento di catalogatori
umani, omonimie, sinonimie e più in generale il contenuto semantico
delle pagine Web.
Antenati. Veri e propri progenitori degli attuali motori di ricerca
web sono stati VERONICA (Very Easy Rodent-Oriented Net-wide Index
to Computerized Archives) e Archie, due fra i più antichi strumenti
di ricerca disponibili in rete, oggi abbandonati. Con un client
Archie (oppure collegandosi via telnet a uno dei suoi server) si
potevano ricercare in tutti i siti FTP mondiali i file che contengono nel
loro nome una determinata sequenza di caratteri; con ciascuna VERONICA
si potevano invece ricercare (anche con gli operatori booleani AND, OR e NOT)
tutte le parole contenute nei menu dei Gopher, una sorta di Web gerarchico e testuale ante-litteram.
Principali. I tre principali motori di ricerca internazionali sono attualmente:
- Google <http://www.google.com>, che punta
molto sull'individuazione dei siti più rilevanti mediante l'analisi
citazionale dei link in entrata e in uscita e dotato di funzioni di ricerca specializzata per immagini, newsgroups ("gruppi"), fonti giornalistiche ("news") e accademiche.
- Yahoo! Search <http://search.yahoo.com>, noto soprattutto per la sua directory, ma dal Febbraio 2004 in grado di effettuare anche ricerche per parola
utilizzando un proprio archivio e una interfaccia specializzata.
- MSN Search <http://search.msn.com>,
della Microsoft, uscito a febbraio 2005 da una lunga fase sperimentale e pronto a sfidare Google per la supremazia.
Una spanna sotto a questi giganti si possono citare:
Motori italiani.
Per quanto riguarda i siti italiani, dopo che
Arianna <http://www.arianna.it>
è passato a utilizzare Google, l'ultimo motore di ricerca davvero italiano è
rimasto il piccolo Il trovatore
<http://www.iltrovatore.it> ed è
quindi ormai diventato necessario rivolgersi ad apposite ricerche mirate
fornite dai motori internazionali oppure dai "portali" italiani trattati più avanti.
Pagine simili. Alcuni motori permettono di rintracciare (con una ricerca che viene talvolta definita
impropriamente "per concetto" ma che andrebbe chiamata "per somiglianza")
ulteriori pagine Web contenenti una certa percentuale di parole uguali a
quelle delle pagine già trovate, nel tentativo di recuperare parte
del contenuto semantico sfuggito con la ricerca per parole.
Relevance ranking. Quando si effettua una ricerca su centinaia di
milioni di documenti con tecniche di interrogazione non particolarmente
sofisticate come quelle in dotazione ai motori di ricerca web, ci si può
facilmente aspettare di ottenere una quantità esorbitante di risultati,
non sempre facilmente "raffinabili" con ulteriori interrogazioni. Diventa
allora di importanza capitale il criterio utilizzato dal motore per effettuare
l'ordinamento (ranking) dei risultati. Il criterio più diffuso
è quello che i motori stessi amano chiamare "ordinamento in base alla
rilevanza" (relevance ranking), e che in realtà cela un complesso
e mutevole[1] mix (tenuto rigorosamente
segreto per motivi commerciali) di criteri puramente quantitativi e statistici,
fra cui i seguenti:
-
Frequenza = numero di occorrenze dei termini utilizzati per la ricerca
all'interno della singola pagina recuperata.
-
Densità = rapporto fra il numero di occorrenze dei termini
all'interno della pagina e il totale delle parole contenute nella pagina.
-
Rarità = rapporto inverso fra il numero di occorrenze dei termini
utilizzati per la ricerca all'interno del database del motore e il totale
delle parole contenute nel database stesso. Alcuni motori dispongono anche
di una lista di stopwords che vengono ignorate.
-
Compresenza = presenza, nella pagina, di più d'uno dei termini
richiesti o addirittura di tutti. In questo modo l'operatore booleano AND
contribuisce, in una certa misura, al risultato finale anche nei casi, a dire il vero
sempre più rari, in cui la ricerca iniziale venga impostata di default con
l'OR.[2] Quando l'operatore di default è AND alcuni
motori (fra i quali Google) premiano la compresenza in una "frase esatta".
-
Prossimità = presenza, nella pagina, di più d'uno dei
termini richiesti - o addirittura di tutti - nella medesima frase o comunque
vicini fra loro.[3]
-
Posizione = presenza dei termini in particolari zone della
pagina[4]. Nella sezione visibile BODY vengono
tipicamente "premiate" le prime parole e quelle contenute nei tag H e HREF
(ovvero nei vari titoletti (heading) e nei link). La sezione nascosta
HEAD è complessivamente "premiata" più di quella BODY. In
particolare vengono considerati particolarmente "pesanti" il tag TITLE e,
in subordine, quelli KEYWORD e DESCRIPTION.
-
Priorità = ordine in cui sono stati immessi i termini nel form
di ricerca.
-
Provenienza = pagine provenienti dal medesimo sito vengono spesso mostrate l'una
vicina all'altra, talvolta con un rientro a partire dalla seconda e nascondendo le ultime se troppo numerose.
-
Aggiornamento = a parità di requisiti, alcuni motori privilegiano
le pagine più recenti.
-
Popolarità = numero dei link "in
entrata"[5] provenienti da altre pagine
contenute nel database del motore e numero delle selezioni della pagina
effettuate dagli utenti a partire dalle schermate di risposta del motore.
-
Tariffazione = Altavista ha recentemente annunciato che sarà
possibile, pagando, garantire una posizione di rilievo alle proprie pagine
nella schermata di risposta. C'è chi sospetta che tale criterio sia
già utilizzato da vari motori senza dichiarazioni esplicite, almeno
per quanto riguarda pagine relative a prodotti propri o di aziende collegate. Per un approfondimento sulla tariffazione nei search engines cfr. Strumenti di ricerca: chi paga ? <pes-paga.htm>
di Mariateresa Pesenti.
Metadati. Fondamentale è l'importanza, ai fini del recupero
dell'informazione disponibile in rete, della presenza di appropriati "metadati"
e "metatag"[6] nelle pagine web, che
contribuirebbero in maniera determinante a ridurre quell'information
overload di cui molti si lamentano. Esistono a tale proposito vari progetti,
fra cui il più noto è lo standard Dublin Core (cfr.
le FAQ
<http://dublincore.org/resources/faq/>
e la traduzione italiana
<http://www.aib.it/aib/lis/std/t9503.htm>),
molto apprezzato negli ambienti bibliotecari. Attualmente però i
principali motori di ricerca prendono in considerazione una serie di "metatag"
molto meno sofisticati ma ben più diffusi, fra cui i seguenti:
-
AUTHOR = Indica l'autore della pagina, in genere identificato con
l'"htmlizzatore" piuttosto che con chi detiene la paternità intellettuale
del suo contenuto.
-
COPYRIGHT = Dichiarazione esplicita e sintetica sui diritti relativi
al documento, senza link a formulazioni più articolate.
-
GENERATOR = Indica il software utilizzato per creare il file HTML.
Molti di tali software inseriscono automaticamente il proprio nome nel file
stesso senza neppure "avvertire" l'utilizzatore. Evidenti le implicazioni
pubblicitarie.
-
ROBOT = Indica ai software di ricerca dei motori se e come tenere
conto della pagina. Non tutti i robot sono però rispettosi delle
indicazioni ricevute.
-
TITLE = Il metatag più importante. Non dovrebbe mai mancare
in una pagina ben costruita e dovrebbe includere alcune parole particolarmente
significative per individuare la risorsa a cui si riferisce. E' il metatag
più utilizzato e più "pesante" per i motori di ricerca, che
- fra l'altro - lo visualizzano in testa alle "schedine" che si ottengono
effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito
come qualcosa a metà strada fra il soggetto e il titolo uniforme,
appare anche nei bookmark e in testa alla finestra del browser. Alcuni
motori, infine, permettono di limitare
la ricerca alle sole parole contenute in questo metatag.
-
DESCRIPTION = Breve descrizione del contenuto della pagina, ovvero
un mini-abstract che molti motori visualizzano nel corpo delle loro "schedine".
In caso di assenza di questo metatag il motore si arrangia da solo, visualizzando
in genere le prime parole presenti nella parte visibile al browser della
pagina (BODY), con risultati talvolta efficaci ma più spesso
inutilizzabili.
-
KEYWORD = Ulteriori parole chiave (oltre a quelle contenute in TITLE
e DESCRIPTION) ritenute particolarmente significative dall'autore della pagina
per caratterizzarne il contenuto.
Detti anche "directory", "subject tree"
o "pick list", questi indici non sono creati automaticamente come quelli
dei search engines, ma vengono costruiti da personale specializzato che seleziona
e indicizza le pagine Web in base al soggetto, scartando quelle meno interessanti
e talvolta aggiungendo un breve riassunto e una valutazione. Il lavoro umano
garantisce un filtro qualitativo e diminuisce il "rumore" rispetto alle ricerche
effettuate coi motori, ma per problemi di costi gli archivi sono di gran
lunga più piccoli di quelli usati dai motori. Pochi di questi indici
adottano sistemi formalizzati di classificazione bibliotecaria (CDD, CDU,
LC), mentre la maggior parte utilizza una propria gerarchia di classi annidate
piuttosto approssimativa dal punto di vista del rigore concettuale. Alcuni,
come Yahoo! e la Open Directory, permettono una ricerca per parola all'interno del proprio archivio
di "intestazioni", una possibilità che gli utenti meno esperti confondono
spesso con la ricerca full text nell'intero Webspace tipica dei search engine.
Fra le principali directories internazionali si possono citare:
Fondamentali metarisorse
dalle molteplici denominazioni, fra cui "virtual library", "electronic reference
desk", "gateway", "trailblazer page", "metapage", "homepage" e "hub". Proprio
come le sale di consultazione delle biblioteche "reali" questi reference
desk virtuali raccolgono, ordinano e talvolta valutano e commentano le principali
fonti informative e i più utili strumenti di ricerca disponibili in
rete, relativamente a una determinata disciplina o argomento (virtual
reference desk specializzati) o a Internet in generale (virtual reference
desk generali). Talvolta includono anche (o si presentano come) guide
alla ricerca più discorsive, che spiegano metodi e trucchi per la
ricerca in rete. In ogni caso si contraddistinguono per la forte
selettività delle scelte operate. Alcuni VRD, come ad esempio la WWW virtual library, vengono definiti "distribuiti", perché sono
costituiti dalla collaborazione tra diversi siti indipendenti, ciascuno dedicato
a un determinato argomento, e quindi potrebbero essere definiti, a maggior ragione, dei "repertori di virtual reference desk specializzati". I VRD costituiscono l'Alfa e l'Omega
di molte delle più efficaci ricerche di informazioni che si possono
svolgere in rete, che iniziano orientandosi partendo da un buon VRD generale
per poi utilizzare vari strumenti e strategie fino ad indivividuare un
particolare VRD specializzato in grado di soddisfare il bisogno informativo
iniziale e, al tempo stesso, eventuali successive necessità di
approfondimento o aggiornamento.
Come esempi di virtual reference desk generali, che talvolta (se molto analitici)
sconfinano nella categoria degli indici Web per argomento e che spesso ereditano
dagli enti che li gestiscono (spesso biblioteche pubbliche o universitarie)
una spiccata propensione per il quick reference rivolto a una particolare
tipologia di utenza (cittadini di una determinata Regione, studenti di una
determinata Facoltà, ecc.), si possono ricordare:
VRD specializzati. Numerosi VRD italiani e stranieri specializzati
nel settore della biblioteconomia sono elencati in AIB-WEB il Web
dell'Associazione Italiana Biblioteche
<http://www.aib.it>, all'indirizzo
<http://www.aib.it/aib/lis/vrd.htm>.
Altri due ottimi esempi di VRD specializzati sono la Rassegna degli strumenti
informatici per lo studio dell'antichità classica
<http://www.rassegna.unibo.it/index.html>
curato da Alessandro Cristofori presso l'Università di Bologna e
Documentazione di fonte pubblica in rete (DFP)
<http://www.aib.it/dfp/>,
coordinata da Fernando Venturini presso AIB-WEB.
Il repertorio Virtual
library italiane
<http://www.cilea.it/Virtual_Library/test/bvita.htm>
raccoglie numerosi VRD specializzati prodotti in Italia; il curatore Fabio
Valenziano spiega che "vi segnaliamo i siti italiani più importanti
nei quali esperti di varie discipline raccolgono, selezionano, localizzano
e organizzano le risorse informative più interessanti, disponibili
non solo localmente ma nell'intera Internet, nei singoli settori. In ciascuna
raccolta tematica troverete link a risorse informative sia italiane che
straniere. Lo scopo delle segnalazioni è duplice: da un lato indirizzare
il ricercatore o lo studioso verso i siti che gli agevoleranno la ricerca
delle risorse informative, dall'altro stimolare gli enti intenzionati a creare
nuove homepage tematiche a non duplicare inutilmente gli sforzi e valutare
l'opportunità di attivare collaborazioni con gli enti citati".
Indici Web per parola limitati a una disciplina. Costituiscono una sorta di ibridazione fra search engines e directories, dei
quali cercano di unire i pregi. Applicano la potenza "cieca" dei motori di
ricerca esclusivamente a un gruppo di siti dedicati a una particolare disciplina
o argomento e indicizzati da personale specializzato. Molti di tali LASE (limited area search engines), dopo la chiusura dei pionieristici Argos ("limited area search engine of the ancient and medieval
Internet") e Hippias ("limited area search of philosophy on the Internet") si sono raccolti sotto l'egida del Resource discovery network
<http://www.rdn.ac.uk>, un
interessante esperimento di progressivo accorpamento cooperativo di più
siti settoriali al fine di permetterne una interrogazione per parola cumulativa.
Indici specializzati in particolari tipologie di documenti o utenti.
Sono directories e search engines limitati esclusivamente a documenti particolari, come ad esempio:
oppure adatti a particolari tipologie di utilizzatori (come i bambini nel caso
di Sussidiario
<http://www.sussidiario.it>
e Yahooligans!
<http://www.yahooligans.com/>)
o comunque con caratteristiche peculiari.
Noti anche come "meta-motori", permettono l'accesso (talvolta anche l'interrogazione,
non sempre contemporanea) a un certo numero di indici e repertori primari,
come quelli elencati finora. In alcuni casi è possibile scegliere
se impostare la ricerca direttamente dalla pagina del meta-indice oppure
se collegarsi prima a quella dell'indice primario. Vengono chiamati anche
"unified search engine", e possono rivelarsi utili, tra l'altro, per testare
le differenze fra i vari indici. Alcuni meta-indici permettono di immettere
una sola volta i termini di ricerca, lasciando al software il compito di
ripetere l'interrogazione su tutti gli indici selezionati e di produrre una
risposta cumulativa; il risultato è "sporco", cieco rispetto alle
peculiarità dei vari archivi e delle relative tecniche di interrogazione,
ma la rapidità e la potenza di questi strumenti li rende comunque
interessanti. Possono essere distinti in tre sottocategorie:
-
Meta-indici in senso stretto. In questo caso un'unica maschera di
ricerca permette l'interrogazione cumulativa di vari indici contemporaneamente.
I risultati talvolta sono ordinati in base all'indice di provenienza, con
eventuali ripetizioni, mentre a volte vengono "schiacciati", eliminando le
ripetizioni, e vengono ordinati in base alla supposta rilevanza rispetto
alla richiesta oppure ad altri criteri. Cfr., ad esempio:
Interessanti anche i meta-indici che utilizzano un software di tipo client da installare sul proprio Pc, come ad esempio Copernic <http://www.copernic.com/>, permettendo di memorizzare e gestire in modo piu' sofisticato ricerche complesse o ripetute nel tempo.
-
Multi-indici. Si tratta di servizi che, attraverso uno o piu' form, permettono la
ricerca su vari indici, interrogabili però solo uno alla volta. Cfr.,
ad esempio:
-
Indici di indici. Sono semplici liste di link a indici. Più
che veri e propri meta-indici sono dei repertori di indici, qualche volta
ampiamente commentati e arricchiti di tabelle comparative, recensioni, confronti,
segnalazioni di novità, suggerimenti per trovare i siti altrui e far
trovare il proprio come nel caso di MotoriDiRicerca.it
<http://www.motoridiricerca.it/>,
di Search engine watch
<http://www.searchenginewatch.com/>
e di Search engine showdown
<http://www.notess.com/search/>,
curato dal "reference librarian" Greg Notess (di cui si veda, in particolare,
l'utilissima Search engine features chart
<http://www.notess.com/search/features/>).
A livello meta-repertoriale va segnalata la pagina Guide per la ricerca
in Internet
<http://www.aib.it/aib/lis/motori.htm>
curata da Sandra Favret e Sara Franzoso, una ricca raccolta commentata di guide,
bollettini, gruppi di discussione, bibliografie e raccolte di link sugli
strumenti per la ricerca in Internet.
Molto utilizzati dagli utenti meno esperti e poco adatti
invece per professionisti della ricerca in Internet, si candidano a costituire
il sito di riferimento dei navigatori non solo per la ricerca di informazioni
ma anche per ogni altra attività (comunicazione, giochi, acquisti
in linea, prenotazione di servizi, ecc.) effettuabile in rete. Quasi sempre
presenti una directory molto orientata sulle necessità della vita
quotidiana, un motore di ricerca in proprio o mutuato dai maggiori e un coacervo
dei più svariati servizi: notiziari, quotazioni di borsa, indirizzi
e-mail e spazio web gratuiti, oroscopi, stradari, chat e forum, messaggistica
SMS, previsioni del tempo, ecc. Si vedano, ad esempio, in Italia,
Jumpy
<http://www.jumpy.it>, KataWeb
<http://www.kataweb.it>,
SuperEva
<http://www.supereva.it> e
Virgilio
<http://www.virgilio.it>; ma anche
giganti di altre categorie come Yahoo! si stanno rapidamente
"portalizzando" sulla spinta delle pressioni pubblicitarie. C'è chi
li distingue in portali "orizzontali" (cioè generali) e "verticali"
(cioè specializzati, come ad esempio LibriAlice.it
<http://www.librialice.it>, dedicato
al mondo del libro e dell'editoria).
Indici di risposte. Si autodefiniscono "internet search service" o
"cybrarian" e pretenderebbero di "comprendere" domande effettuate in linguaggio
naturale. Il più noto è Ask Jeeves
<http://www.askjeeves.com>,
che in realtà è solo un magazzino di possibili risposte predisposte
in anticipo, scelte fra quelle più probabili (o, per motivazioni
pubblicitarie uguali e contrarie a quelle che dettano tale selezione, fra
quelle decisamente più improbabili) e dotate di una serie di link
a siti pertinenti preselezionati da staff umano. I termini di ricerca immessi
dall'utente vengono utilizzati da un normale motore di ricerca per parola,
con la differenza che stavolta l'archivio da cui si estraggono i risultati
non è costituito da una buona fetta delle pagine web mondiali ma solo
da alcune migliaia di risposte preconfezionate. Le possibilità di
ottenere una risposta pertinente ed esauriente sono piuttosto scarse, e legate
più alla capacità di formulare quesiti abbastanza ovvi da parte
dell'interrogante che a quelle di acutezza nella comprensione e di perspicacia
nella ricerca da parte dell'interrogato. Per non lasciare mai l'utente a
mani vuote, se nessuna delle risposte precotte ha proprio niente a che vedere
con la domanda, i termini utilizzati vengono "sparati" contro uno o
più dei maggiori motori di ricerca per parola (Teoma nel caso di Ask Jeeves), pur di ottenere uno
straccio di risultato purchessia. Da non confondere con autentici servizi
di reference online "umano" effettuati (con tempi, ovviamente, non istantanei)
da information broker professionisti oppure da bibliotecari volontari,
come quelli raccolti in The Virtual Reference Desk
<http://www.vrd.org/>.
Indici personalizzabili e agenti di ricerca. Ancora in gran
parte sperimentali, questi strumenti mirano a rintracciare autonomamente
tutte le risorse di interesse per l'utilizzatore, sulla base della preventiva
definizione di un accurato "profilo di ricerca" e, nei casi più
sofisticati ma anche più imprevedibili, di decisioni "autonome" dei
cosiddetti "agenti intelligenti". Talvolta utilizzano tecnologie di tipo
"push", che "spingono" automaticamente le informazioni sul desktop dell'utente.
Come esempi piuttosto semplici, che si limitano a permettere una
riorganizzazione personalizzata dell'ordinamento delle informazioni proposte
si vedano My Yahoo!
<http://www.my.yahoo.com> e My Humbul
<http://www.humbul.ac.uk/user/login.php>.
Catalogazioni bibliotecarie. Numerose sono le sperimentazioni effettuate
da singole biblioteche (ad esempio, in Italia, la Biblioteca Angelo
Monteverdi dell'Università di Roma "La Sapienza"
<http://bam.let.uniroma1.it/inrete/inrete.htm>),
ma il maggiore progetto del genere a livello mondiale è
stato il pionieristico InterCat, promosso nel 1991 da OCLC, ALA e Library of Congress, che ha esteso il formato USMARC e le regole di catalogazione angloamericane per consentire a un vasto gruppo di bibliotecari di tutto il mondo di creare delle vere e proprie "schedine elettroniche" delle risorse
disponibili in rete, complete di autore, titolo, data, soggetto LC,
classificazione DDC e abstract. I risultati del progetto InterCat, conclusosi nel 1996, sono stati successivamente riversati nel più vasto archivio NetFirst e infine sono stati fusi nel catalogo collettivo generale di OCLC WorldCat <http://www.oclc.org/worldcat/>, dove sono tuttora accessibili a pagamento nell'ambito dei servizi FirstSearch <http://www.oclc.org/firstsearch/> (interrogazione) e Connexion <http://www.oclc.org/connexion/
> (catalogazione derivata).
Integrazioni fra motori di ricerca e cataloghi di biblioteche/librerie. In questo ambito, oltre al già citato progetto Find In A Library,
si possono ricordare due peculiari meta-indici:
- A9.com
<http://www.a9.com>, che permette a chiunque l'interrogazione cumulativa degli archivi di Google
e dei cataloghi della libreria online Amazon;
- Yahoo! Toolbar
<http://www.oclc.org/toolbar/>, che permette l'interrogazione cumulativa di Yahoo! Search
e di WorldCat agli utenti delle biblioteche affiliate a OCLC.
Strategie
La ricerca di informazioni in Internet sta ormai diventando una vera e propria
professione, o almeno una specializzazione consolidata nel mondo bibliotecario
e documentario. E' impossibile ridurre a poche pillole di saggezza strategie
che richiedono un ampio bagaglio professionale tradizionale unito a una vasta
esperienza di rete. Qui schematizziamo quindi soltanto alcune indicazioni
di massima su come condurre una ricerca e sull'ordine con il quale interrogare
le diverse metarisorse esistenti.
-
Se si desidera solo un primo orientamento, per prepararsi a eseguire in seguito
ricerche più specifiche, la cosa migliore per cominciare è
la visita a un virtual reference desk generale, a uno di biblioteconomia
e a uno specializzato scelto in base alla tipologia della propria biblioteca.
-
Se invece si conosce già quale tipo di informazioni si desidera (ad
esempio quando si cerca l'indirizzo di una biblioteca), occorre affidarsi
a un repertorio specializzato, o eventualmente a un virtual reference desk
generale o specializzato per scoprire se esistono repertori di quell'ambito
(ad esempio repertori di biblioteche).
-
Quando si cercano informazioni di ogni tipo su un certo tema, conviene invece
partire da un indice per argomento. Con un po' di fortuna si possono trovare
così una o più risorse soddisfacenti; con molta fortuna, si
potrebbero trovare addirittura uno o più virtual reference desk
specializzati da usare come guida per le ricerche successive.
-
Nel caso in cui le strategie precedenti non abbiano avuto buon esito, si
può provare a interrogare un indice per parola, utilizzando prima
le tecniche più elementari ed eventualmente seguendo poi le istruzioni
per quelle più complesse e potenti. Tra i risultati si dovrebbe riuscire
a individuare qualche risorsa specifica o addirittura un virtual reference
desk.
-
Nel caso si cerchi qualcosa di molto specifico, infine, ben individuabile
con una o più parole (un autore minore, un particolare software, un
ente, ecc.) conviene provare subito a usare un indice per parola o addirittura
un meta-indice.
-
Bisogna ricordarsi che talvolta può essere utile anche un approccio
"archivistico" alla ricerca delle informazioni, mirando alla fonte, ovvero
all'ente che emana o comunque è interessato ai documenti cercati.
Con un po' di fortuna costruire indirizzi del tipo www.nome-ente-esteso.it
o www.sigla-ente.com può portare direttamente alla meta.
-
Quando un link "va a vuoto", si può provare ad "accorciare l'URL"
eliminandone il segmento successivo all'ultimo "slash" (/), risalendo
progressivamente verso l'indirizzo dell'host, finchè non si trovano
indizi per rintracciare la nuova collocazione della pagina scomparsa.
-
Utilizzare tutti gli strumenti e le strategie analizzati fin qui, ma senza
mai dimenticare che il Web è un ipertesto in cui è sempre possibile
anche navigare "a vista" seguendo i link che paiono più promettenti.
Bibliografia
-
ACKERMANN, Ernest - ACKERMANN, Karen [1999] The information specialist's
guide to searching and researching on the Internet and the World Wide Web,
Wilsonville (Or.), ABF content.
- ALTAVISTA [2000] Guida alle tecniche di ricerca, Milano, AltaVista Italia.
- BACHA, Murtha [2000] Introduction to metadata: pathways to digital information, edited by Murtha Baca, last updated 7/5/2000, <http://www.getty.edu/research/institute/standards/intrometadata/index.html>
- BANFI, Dario [2000] Portali: pronti per la selezione digitale, "Internet news", VI, 8, p. 48-59.
-
BASILI, Carla [1995] La ricerca "per soggetto" dell'informazione in
Internet, "Biblioteche oggi", XIII, 6, p. 40-47.
-
BASILI, Carla [1998a] L'innovazione tecnologica nella documentazione, "Biblioteche oggi", XVI, 3, p. 58-65.
-
BASILI, Carla [1998b] Verso la società dell'informazione. Le professioni dell'informazione fra ricerca d'identità e linee di convergenza, "Biblioteche oggi", XVI, 6, p. 50-53.
-
BASILI, Carla [1998c] La biblioteca in rete. Strategie e servizi nella
società dell'informazione, Milano, Editrice Bibliografica.
- BASH, Reva [1998] Ricerche online for dummies, traduzione di Deborah
Tagliacozzo, Tullio Policastro, Paolo Morpurgo e Bruno Piatti, Milano, Apogeo
(Researching online for dummies, Foster city (Cal.), IDG, 1998).
- BASSI, Maria Cristina [2002] La catalogazione delle risorse informative in Internet, Milano, Editrice Bibliografica.
- BERGAMIN, Giovanni [2000] La catalogazione dei periodici ed editoria elettronica in rete, in: Biblioteche toscane: esperienze di rete, catalogazione e strategie cooperative, atti del convegno, Livorno, 18-19 febbraio 1999, Livorno, Comune di Livorno (Quaderni della Labronica, 75), p. 53-58.
-
BIANCHINI, Massimiliano - GALIMBERTI, Andrea [2000] Ricerche on line, Milano, Alpha test - Hoepli.
-
BOWEN, James [1999] Conducting research on the Internet, in:
Encyclopedia of library and information science, New York, Dekker,
1968- , vol. 64 (supplement 27), p. 62-68.
-
BRADLEY, Phil [2004] The advanced Internet searcher's handbook, 3rd ed. London, Facet.
-
BRENNER, Diane - ROWLAND, Marilyn [2000] Beyond book indexing, edited by Diane Brenner and Marilyn Rowland, Medford - Phoenix, Information today - American society of indexers.
-
BUSATO, Marcello [2002]
Internet per la scuola. Corso introduttivo alla ricerca bibliografica in Internet per insegnanti e studenti del Liceo "Luigi Stefanini" di Mestre, Venezia, Fondazione Querini Stampalia, creazione 27 gennaio 2002, ultimo aggiornamento 16 marzo 2002,
<http://www.provincia.venezia.it/querini/biblioteca/corsi/stefanini/>.
-
BUTLER, John A. [1998] Cybersearch. Research techniques in the electronic
age, New York, Penguin books.
- CALISHAIN, Tara - DORNFEST, Rael [2003] Google. Trucchi e segreti per hacker,
Milano, Tecniche nuove - Hops (Google hacks, O'Reilly, 2003)
-
CALVO, Marco - CIOTTI, Fabio - RONCAGLIA, Gino - ZELA, Marco A. [1999]
Internet 2000. Manuale per l'uso della rete, Roma - Bari, Laterza,
oppure
<http://www.laterza.it/internet>,
p. 216-268.
-
CALVO, Marco - CIOTTI, Fabio - RONCAGLIA, Gino - ZELA, Marco A. [2001]
Frontiere di rete. Internet 2001: cosa c'e' di nuovo, Roma - Bari, Laterza,
<http://www.laterza.it/internet/home/speciali/2001/frontieredirete/index.htm>,
p. 9-54.
-
CAMAGNI, Valeria [1999] I web portal italiani, "PC professionale,
104, p. 435-445.
-
CANALI, Daniela [2002] La nuova generazione dei motori di ricerca. document clustering e gestione dei risultati, "Biblioteche oggi", XX (2002), 7, p. 8-12, oppure <http://www.bibliotecheoggi.it/2002/200209canali8.pdf>.
- CARLINI, Franco [2000] Portale delle mie brame, "Il manifesto", 12 novembre 2000, p. 11.
-
CASEY, Carol [1998] Web rings. An alternative to search engines, "College
& research libraries", LIX, 10, p. 761-763.
-
CASEY, Carol [1999] An analytical index to the Internet: dreams of
utopia, "College & research libraries", LX, 6, p. 586-.
-
CHOWDHURY, G. G. [1999] The Internet and information retrieval research:
a brief review, "Journal of documentation", LV, 2, p. 209-225.
-
COHEN, Alan [1999] Web portal e siti di ricerca: parti da qua, "PC
professionale, 104, p. 408-433.
-
COHEN, Laura [1999] Quick reference guide to search engine syntax,
updated 26 October,
<http://www.albany.edu/tree-tops/docs.library/internet/syntax.html>
- COMOLLI, Fabrizio [2000] Ricerche sul Web, Milano, Tecniche nuove.
-
COOKE, Alison [2001] A guide to finding quality information on the Internet.
Selection and evaluation strategies, 2nd ed., London, Library association publishing.
-
COOPER, Brian [2001] Ricerche in Internet, traduzione di Cristina Nazarri, Milano, Apogeo (Essential computers. Searching the Internet, London, Dorling Kindersley, 2000).
-
CRUPI, Gianfranco - PARLANTI, Donatella - SIMONE, Carla [1999] Un progetto
di catalogazione delle risorse elettroniche: Easycat.ER, Novembre,
<crupi-er.htm>.
-
DE FRANCESCO, Corrado [2001] Computer e Internet per lavorare con i testi. Stile, struttura e raccolta delle informazioni, Milano, Angeli.
-
ELLIS,David - FORD, Nigel - FURNER, Jonathan [1998] In search of the unknown
user: indexing, hypertext and the world wide web, "Journal of documentation",
LIV, 1, p. 28-47.
- FORRESTER, William H. - ROWLANDS, Jane L. [2000] The online searcher's companion,
London, Library association.
- FOUCHARD, Gilles [2000] Ricercare su Internet, traduzione, revisione tecnica e realizzazione editoriale SEI servizi, Milano, Mondadori (Recherches sur Internet. Se former en 1 jour, CampusPress, France, 1999).
- ENSOR, Pat [2000] Tool kit for the expert web searcher, ALA - LITA, <http://www.lita.org/committe/toptech/toolkit.htm>.
- GAMBARI, Stefano - GUERRINI, Mauro [2002]. Definire e catalogare le risorse elettroniche: un'introduzione a ISBD(ER), AACR2 e metadati, saggio introduttivo di Paul Gabriele Weston, Milano, Editrice Bibliografica.
-
GARGIULLO, Giulio [2005]
Glossario dei motori di ricerca,
<http://www.glossario-motori-ricerca.com/>.
-
GILSTER, Paul [1996] Finding it on the Internet. The Internet navigator's
guide to search tools and techniques, revised and expanded second edition,
New York, Wiley.
-
GLOSSBRENNER, Alfred - GLOSSBRENNER, Emily [1999] Search engines for the
world wide web, 2nd ed., Berkeley (Cal.), Peachpit press.
- GNOLI, Claudio [2000a] Cercare informazioni in Internet: strumenti e strategie, in: "ESB Forum", <gnoli-mot.htm>.
- GNOLI, Claudio [2000b] Le risorse elettroniche nei cataloghi: una discussione telematica della redazione di "OPAC italiani", a cura di Claudio Gnoli, con interventi di Antonella De Robbio, Maurizio di Girolamo, Claudio Gnoli, Riccardo Ridi, Paola Rossi e Giulia Visintin, in: "AIB-WEB Contributi", <http://www.aib.it/aib/contr/gnoli3.htm>.
-
GRASSI, Andrea [1999] 10 motori di ricerca, "PC magazine", XVI, 160,
p. 78-104.
-
GRIFONI, Giovanna [1997] Come orientarsi tra i motori di ricerca. Una
panoramica sugli strumenti di recupero delle informazioni in Internet,
"Biblioteche oggi", XV, 5, p. 10-16, oppure
<grif-mot.htm>.
-
HASKIN, David [1997] Power search. Web search engins are smarter and stronger
than ever. We test six of the best, "Internet world", VIII, 12, p. 78-92.
-
HEHL, Hans [1999]. Die elektronische Bibliothek. Literatursuche und Literaturbeschaffung im Internet,
Munchen, K. G. Saur.
- HERRELIER, Jean-Marc - WOLOSIN, Claudia [2001] Far conoscere il proprio sito, Milano, Mondadori informatica
(Bien référencer son site Internet, CampusPress France, 2000).
-
HOCK, Randolph E. [1997] Sizing up Hotbot: evaluating one web search engine's
capabilities, "Online", XXI, 6, p. 24-33.
-
HOCK, Randolph E. [1999] The extreme searcher's guide to web search engines.
A handbook for the serious searcher, foreword by Paula Berinstein, Medford
(NJ), Information today.
-
HOCK, Randolph E. [2004] The extreme searcher's Internet handbook:
a guide for the serious searcher, Medford, Cyberage books.
- LANA, Maurizio [2004] I motori di ricerca in: Il testo nel computer. Dal web all'analisi dei testi,
Torino, Bollati Boringhieri, 2004, p. 21-101.
-
LARGE, Andrew - TEDD, Lucy A. - HARTLEY, Richard J. [1999] Information seeking in the online age: principles and practice, London, Bowker Saur.
-
LESNICK, Leslie L. - MOORE, Ralph E. [1997] Agenti di ricerca, Milano,
McGraw-Hill libri Italia (Creating cool intelligent agents for the Net,
Foster city (Cal.), IDG, 1997), con allegato un cd-rom di programmi per Windows.
-
LUNATI, Gabriele [1996] Strumenti per la ricerca ed il recupero
dell'informazione su Internet,
<motori/motori.htm>,
poi, col pretitolo Bollicine di champagne..., anche "Biblioteche oggi",
XV (1997), 5, p. 18-29.
- LUPI, Mauro [2001] Motori di ricerca e visibilità sul Web. Come utilizzare al meglio i motori di ricerca nelle attività di web marketing, Milano, Apogeo.
- LUZI, Daniela [2003] La letteratura grigia su Internet: alcuni suggerimenti per la ricerca, Roma, Associazione italiana biblioteche.
-
MAFFEI, Lucia [1996] Il filo di Arianna: trovare informazione di qualità
in Internet, "AIDA informazioni", XIV, 2, p. 26-31.
-
MARANGONI, Roberto - CUCCA, Alessandro [2001] Motori di ricerca. La via facile e veloce alla ricerca sul Web, seconda edizione, Milano, Hoepli (prima edizione 1999).
-
METITIERI, Fabio [2003] Quando il sito è invisibile,
"Panorama Web", supplemento a "Panorama" n. 17 del 24 Aprile 2003, p. 42-45 e 81.
-
METITIERI, Fabio [2004] Motori di ricerca: la concorrenza a Google si fa dura,
"Internet.pro", 1 (2004), n. 1 (ottobre 2004), p. 10-12.
-
METITIERI, Fabio - RIDI, Riccardo [2005] Biblioteche in rete. Istruzioni per l'uso, quarta edizione riveduta e aggiornata, Roma-Bari, Laterza, disponibile anche online <http://www.laterza.it/bibliotecheinrete>.
-
MILSTEAD, Jessica - FELDMAN, Susan [1999] Metadata: cataloging by another
name... [include Metadata projects and standards], "Online", XXIII,
1, p. 24-41, oppure
<http://www.onlineinc.com/onlinemag/OL1999/milstead1.html>.
-
MORVILLE, Peter S. - ROSENFELD, Louis - JANES, Joseph [1996] The Internet
searcher's handbook. Locating information, people & software, New
York, Neal-Schuman.
-
NEGRINO, Tom [2000] Camera con Altavista, in: Tutto Macintosh 2000. La guida essenziale al Mac, supplemento di "Macworld Italia", n. 6, giugno 2000, p. 44-50.
-
NOTESS, Greg R. [1997] Internet search techniques and strategies,
"Online, XXI, 4, p. 63-66.
-
NOTESS, Greg R. [1999a] Special search engine section, edited by Greg
R. Notess, "Online", XXIII, 3, p. 20-90.
-
NOTESS, Greg R. [1999b] On-the-fly search engine analysis, "Online",
XXI, 3, p. 63-66.
-
ODER, Norman [1998] Cataloging the Net: can we do it ?, "Library journal",
CXXIII, 16, p. 47-51.
- ONLINE [1999] Special search engine section, "Online", XXIII, 3, p. 20-90.
- ONLINE [2000] Special web search section, "Online", XXIV, 3, p. 16-77.
-
PANTò, Eleonora - PETRUCCO, Corrado [1998] Internet per la didattica.
Dialogare a scuola col mondo, Milano, Apogeo.
- PARRINI, Claudio - FERRY BYTE [2000] Chaos vs. Business: un'indagine sui motori di ricerca ,
<http://www.strano.net/chaos/>.
- PARRINI, Claudio - FERRY BYTE [2001] I motori di ricerca nel caos della rete. Kit di sopravvivenza, Milano, Shake.
-
PASTERIS, Vittorio [1996] Internet per chi studia. Orientarsi, documentarsi,
preparare la tesi, Milano, Apogeo.
- PAUL, Nora - WILLIAMS, Margot [1999] Great scouts! Cyberguides for subject searching on the Web, Paula J. Hane, editor, Medford (New Jersey), Information today - Cyberage books.
-
PC MAGAZINE [1997] Catching sites. Internet search engines, "PC magazine",
VI, 2, p. 109-153.
-
PC PROFESSIONALE [1997] Chi cerca trova... ma non sempre. Internet: motori
di ricerca, "PC professionale", 69, p. 271-300.
-
PC PROFESSIONALE [1998] Una guida completa alle ricerche in Rete. 36 siti
che vi aiutano a utilizzare le risorse del Web, "PC professionale", 83,
p. 322-363.
-
PESENTI, Mariateresa [2001] Strumenti di ricerca: chi paga ?,
<pes-paga.htm>.
RADFORD, Marie L. - BARNES, Susan B. - BARR, Linda R. [2002] Web research. selecting, evaluating, and citing, Boston - London, Allyn & Bacon.
-
RIDI, Riccardo [1996] Internet in biblioteca, Milano, Editrice
Bibliografica.
-
RIDI, Riccardo [1998] Dal canone alla rete: il ruolo del bibliotecario
nell'organizzazione del sapere digitale, "Biblioteche oggi", XVI, 5,
p. 12-19, oppure in: Bibliotecario nel 2000. Come cambia la professione
nell'era digitale, atti del convegno di "Biblioteche oggi", Milano, 12-13
Marzo 1998, a cura di Ornella Foglieni, Milano, Editrice Bibliografica, 1999,
p. 62-76, oppure
<http://www.fahrenheit.org/fahrenheit/Calendario/Ridi.htm>.
-
RIDI, Riccardo [1999a] Vittime del fuoco amico. Mito e realtà delle
interfacce amichevoli, Biblioteche oggi", XVII (1999), n. 5, p. 12-17.
-
RIDI, Riccardo [1999b] Metadata e metatag: l'indicizzatore a metà
strada fra l'autore e il lettore, relazione tenuta al convegno
internazionaleThe digital library. Challenges and solutions for the new
millennium, Bologna, 17-18 Giugno 1999, testo aggiornato e link controllati
il 29 Settembre 1999 per la pubblicazione in AIB-WEB,
<
http://www.aib.it/aib/commiss/cnur/dltridi.htm>.
- ROBINSON, Lyn [2000] A strategic approach to research using Internet tools an resources, "Aslib proceedings", LII, 1, p. 11-19.
- ROSSINI, Orietta [2000] Memoria e ricerca in Internet, a cura di Orietta Rossini, Roma, Comune di Roma - L'Erma di Bretschneider.
-
SALARELLI, Alberto [1996] Ricerca e valutazione delle informazioni in
World Wide Web, "Archivi & computer", VI, 5, p. 413-430.
-
SELTZER, Richard - RAY, Eric J. - RAY, Deborah [1998] The AltaVista search
revolution, 2nd ed. Berkeley, Osborne/McGraw-Hill.
-
SHA, Vianne Tang [1995] Cataloging Internet resources: the library
approach, "The electronic library", XIII, 5, p. 467-476.
- SHERMAN, Chris [2000] New web map reveals previously unseen "bow tie" organizational structure, "Information today newsbreaks", May 22, <http://www.infotoday.com/newsbreaks/nb000522-1.htm>.
- SHERMAN, Chris - PRICE, Gary [2001] The invisible web: uncovering information sources search engines canŐt see, Medford, Information today.
-
SCHLEIN, Alan M. [1999] Find it online. The complete guide to online
research, edited by James R. Flowers jr., Shirley Kwan Kisaichi, Peter
Weber, Tempe (Az), Facts on demand press.
- SITTA, Giorgio [2001] Ricerche su Internet, Milano, Jackson libri.
-
SONNENREICH, Wes - MACINTA, Tim [1998] Web developer.com guide to search
engines, New York, Wiley.
- SPECTER, Michael [2000] L'ago nel pagliaio. Sempre più intelligenti e facili da usare. Storia della gara per costruire il motore di ricerca migliore e più veloce, "Internazionale", VII, 353, p. 20-27.
-
SPENCER, Greg [2001] A simple guide to internet research, London, Prentice Hall.
- TASI [2003] A review of image search engines, Technical advisory service for images,
february 2003, <http://www.tasi.ac.uk/resources/searchengines.html>.
- TASI [2004] Searching the Internet for images, Technical advisory service for images,
january 2004, <http://www.tasi.ac.uk/resources/searchingresources.html>.
-
THOMAS, Alan R. - SHEARER, James R; [2000] Internet searching and indexing: the subject approach, "Journal of Internet cataloging", II, 3/4, special issue.
- TOROK, Andrew G. [2003] Organizing the Internet,
issue edited by Andrew G. Torok, "Library trends", 52 (2003), n. 2.
- VELLONE, Ercole - SCIUTO, Maria [2001] La ricerca bibliografica. Applicazioni nel nursing e nelle scienze sanitarie, Milano, McGraw-Hill Italia.
-
VIALI, Giorgio [2000] AAA. Guida cercasi. Umana, "Internet news", VI, 6, p. 88-92.
-
VIANELLO, Andrea [2000] La ricerca di informazioni in Internet, revised 1 May, <http://lettere.unive.it/materiale_didattico/archeologia_egea/motori.htm>.
-
WOODWARD, Jeannette [1996] Cataloging and classifying information resources
on the Internet, "Annual review of information science and
technology", XXXI, p. 189-220.
-
ZANZI, Silvio - MAISTRELLO, Sergio - ALBINI, Andrea [2001] Dossier motori di ricerca, "Internet news", VII , 10, p. 54-69.
-
ZORN, Peggy - EMANOIL, Mary - MARSHALL, Lucy - PANEK, Mary [1999] Finding
needles in the haystack: mining meets the Web, "Online", XXI, 3, p. 30-51.
1 Mutevole sia fra motore e motore, sia nel corso della storia
di ogni singolo motore, per venire sempre più incontro alle aspettative
degli utenti, che tendono a valutare i motori più dall'ordinamento
dei risultati che dalle dimensioni e dall'aggiornamento dei relativi database
o dall'effettiva individuazione di pagine realmente rilevanti.
2 Resta comunque salva, anche in questi casi, la possibilità per gli utenti di
forzare il motore alla ricerca in AND con l'uso di particolari operatori
(spesso il "+").
3 Alcuni motori sono dotati di liste (non liberamente consultabili)
delle coppie o dei gruppi di termini che vengono più spesso utilizzati
dagli utenti nella medesima interrogazione (talvolta però solo se
uniti fra loro con le virgolette in una ricerca della "exact phrase"). Tale
tipo di ricerca "esatta" viene in tali casi effettuata automaticamente anche
se l'utente, ignaro della "memoria" del motore, sta utilizzando i termini
"gemellati" slegati fra loro.
4 O addirittura, come fa Google, fuori dalla pagina, prendendo
in esame anche le parole da cui partono link diretti verso di essa e quelle
circostanti. Alcuni motori calcolano anche le parole contenute nell'URL.
5 Google "premia" anche i link "in uscita".
6 I metadati sono "dati sui dati", ovvero informazioni, generalmente
strutturate e scandite in campi, relative a documenti primari "a testo pieno"
(full-text), che ne permettono una più efficiente organizzazione
e recupero. I "metatag" sono quei tag (marcatori) del linguaggio HTML che
possono venir inseriti, con funzione di metadati, nella parte nascosta HEAD
del file a cui si riferiscono.
|