Cercare informazioni in Internet: strumenti e strategie
Versione 2.2 (2000-05-28)
di Claudio Gnoli (in linea da giugno 2000)
Questo documento è strutturato in forma schematica
e destinato ad essere aggiornato. Deriva originariamente dalla rielaborazione
di precedenti materiali dell'autore e di Riccardo Ridi. Le versioni da
1.1 a 2.1, non pubblicate, sono state realizzate nei primi mesi del 2000
ed utilizzate come supporto didattico.
Sommario
1 : Principi della ricerca
2 : Fonti informative disponibili su Internet
3 : Indici e repertori
4 : Strategie di ricerca
1 : Principi della ricerca
1.1 : Definizioni secondo Foskett
1.2 : Forme con cui i documenti possono essere indicizzati
1.3 : Efficacia di una ricerca
1.1 : Definizioni secondo Foskett
- Conoscenza : ciò che io so
- Informazione : conoscenza condivisa fra più
persone
- Comunicazione : scambio e trasferimento di informazione
- Documento : informazione registrata su un qualsiasi
supporto fisico
[1]
1.2 : Forme con cui i documenti possono essere indicizzati
In ordine crescente di accuratezza
-- e quindi di costo:
- metatag:
"author", "copyright", "generator",
"robot", "title", "description", "keyword",
...
- descrizione catalografica
Literary warrant : si crea
una voce solo a partire da documenti realmente esistenti
1.3 : Efficacia di una ricerca
Documenti pertinenti (= utili ~ rilevanti)
o no
- Richiamo = documenti pertinenti trovati / documenti
pertinenti esistenti
- Precisione = documenti pertinenti trovati
/ documenti trovati
All'aumentare dell'uno diminuisce
l'altro; occorre quindi trovare un compromesso ottimale.
- Punto di futilità : numero di documenti
da vagliare oltre il quale ci si stufa di scorrerli (circa 30 secondo Blair)
Se si trovano pochi documenti (es.
decine), possono essere selezionati manualmente;
se si trovano molti documenti (centinaia o più), occorre raffinare
la ricerca rendendola più specifica.
2 : Fonti informative disponibili su Internet
2.1 : Forme di trasmissione delle informazioni in
rete
2.2 : Formati dei documenti
2.3 : Tipologie dei documenti
2.1 : Forme di trasmissione delle informazioni in rete
- trasmissione di posta elettronica (SMTP)
- trasferimento di file (FTP)
- collegamento a distanza (telnet)
- web, con dialogo client-server (HTTP)
2.2 : Formati dei documenti
- testi (.HTML, .TXT, .PDF, DOC,...)
- immagini (.JPG, .GIF, .BMP, ...)
- musica (.MP3), video (.WAV)
- istruzioni eseguibili (.EXE, .ZIP, ...)
Per utilizzare alcune categorie
di documenti occorrono programmi appositi.
2.3 : Tipologie dei documenti
- posta elettronica (e-mail)
- liste di discussione e di distribuzione (mailing list),
newsgroup
- periodici elettronici (e-journal)
- siti istituzionali e aziendali
- basi di dati, archivi (database)
- cataloghi bibliografici (OPAC)
3 : Indici e repertori
3.1 : Indici per parola ("motori di ricerca",
search engine, robot, spider, worm)
3.2 : Indici per argomento (guide, repertori, gateway,
virtual reference desk, hub)
3.3 : Reference in linea
3.4 : Indici di documenti di particolari tipologie
3.5 : Portali
[2, 3]
3.1 : Indici per parola ("motori di ricerca", search engine,
robot, spider, worm)
Recuperano i documenti che contengono
parole specificate, escluse le stopword.
Problema della decontestualizzazione
[4]
Alto richiamo, bassa precisione:
quindi utili per parole o sequenze di parole rare, nomi propri e
simili.
3.1.1 : Sintassi
3.1.2 : Criteri di selezione e ordinamento
3.1.3 : Metaindici per parola ("metamotori")
3.1.1 : Sintassi
Operatori logici = booleani:
- and : compresenza
- or : alternativa
- not : esclusione
Altri operatori:
rappresentati da vari simboli (+
- "" $ * @ ...) ;
usati anche negli OPAC.
3.1.2 : Criteri di selezione e ordinamento
Molto spesso non esplicitati.
- Frequenza: numero di occorrenze
- Densità: numero di occorrenze / parole totali del
documento
- Rarità: 1 / (numero di occorrenze nella base dati
/ parole totali della base dati)
- Compresenza (default solitamente OR)
- Prossimità: parole vicine fra loro nel documento
- Posizione: parole nei titoli di sezioni (<H>),
nei link (<A HREF>), nelle intestazioni
(<HEAD>) e in particolare nel titolo (<TITLE>)
o in altri metatag come "keyword" e "description"
- Aggiornamento: documenti più recenti
- Analisi di citazione (Google,
progetto Clever [7]): utilizzo di un algoritmo che
considera il numero di link al documento, distinguendo fra repertori
(hub) e fonti primarie (authority), con risultati brillanti
- Somiglianza delle parole con quelle di documenti già
rintracciati
3.1.3 : Metaindici per parola ("metamotori",
"megamotori", "motori" paralleli)
Esistono centinaia di indici per parola,
i cui risultati sono scarsamente sovrapposti: dunque ognuno copre solo
una parte di Internet. [8]
Ciò suggerisce di cercare
in più indici, utilizzando:
Problemi di sintassi differenti
fra indici diversi. [9]
Altissimo richiamo, bassissima precisione.
3.2 : Indici per argomento (guide, repertori, gateway, virtual
reference desk, hub)
Raccolgono documenti primari e altri
repertori, classificandoli gerarchicamente per argomenti (quindi per classi,
anche se generalmente prive di notazione, più o meno commerciali,
accademiche o biblioteconomiche).
Documenti selezionati da operatori
umani.
Basso richiamo, alta precisione.
3.3 : Reference in linea
- FAQ : frequently asked questions
su argomenti specifici
3.4 : Indici di documenti di particolari tipologie
3.5 : Portali
Tendenza di sviluppo recente.
Convogliano accesso a molte risorse
(indici per parola e per argomento, notiziari, email e spazio web gratuiti,
servizi telefonici, ...).
Puntano a creare una "comunità
fedele": spirito commerciale più che documentalistico, molta
pubblicità.
Esempi:
- Repubblica.it <http://www.repubblica.it>
- MSN search <http://www.msn.com>
- alcuni degli indici elencati sopra
4 : Strategie di ricerca
I principi sono comuni a quelli delle
ricerche tradizionali: perciò le strategie di ricerca sono una competenza
dei bibliotecari!
Occorre educare alla definizione
di una strategia invece dell'uso irriflessivo di strumenti popolari e abituali.
Selezione dello strumento adeguato
al tipo di ricerca:
- parole o sequenze rare, nomi di
persone e istituzioni
=> indici o metaindici per parola
- argomenti generici
=> indici per argomento del tipo opportuno
- bibliografia
=> basi dati bibliografiche, cataloghi
di biblioteche grandi
- copie di documenti cartacei
=> cataloghi di biblioteche raggiungibili
Uso sequenziale degli strumenti
in base a ciò che man mano si trova (feedback): es. dal più
generale al più specifico.
Valutazione e selezione critica
delle risorse in base a copertura, completezza, serietà, aggiornamento,
ecc. [14]
Ogni utente deve acquisire esperienza:
il bibliotecario dev'essere solo una guida, non sostituirsi all'utente
ma insegnargli dei metodi con cui diventare più autonomo, come "ogni
buon maestro che si fa invisibile" [15].
Note bibliografiche
1 : The subject approach to information # 5 / A'C' Foskett
-- Library Association {London} (1996)
2: Yahoo!. Searching the Web -- <http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web>
3 : Guide all'uso degli strumenti di ricerca
in Internet / Mariateresa Pesenti = AIB-WEB. Il mondo delle biblioteche
in rete. * -- <http://www.aib.it/aib/lis/motori.htm>
4 : La segretaria quasi privata / Walter
Lang : dir' ; Katharine Hepburn, Spencer Tracy : play -- (1957)
5 : [Recensione di FAST Search] /
Phil Bradley = Ariadne. 21. ' -- <http://www.ariadne.ac.uk/issue21/search-engines/>
6 : Motoridiricerca.it : guida completa
ai motori di ricerca / `Ad Maiora -- <http://www.motoridirecerca.it>
7 : Hypersearching the Web = Scientific
American. _ (1999.06) || & -- <http://www.sciam.com/1999/0699issue/0699raghavan.html>
8 : Searching the World Wide Web / G'
Lawrence, C'L' Giles = Science. 5360 (1998.04.03). p 98-100
9 : Towards more comprehensive Web searching
: single searching versus megasearching / Greg R' Notess = Online. _ (1998)
-- <http://www.onlineinc.com/onlinemag/OL1998/net3.html>
10 : [Recensione di BUBL] / Elena
Boretti -- Biblioteca comunale forteguerriana {Pistoia} <http://www.comune.pistoia.it/data/dirbib/informazione/BUBL.html>
11 : [Recensione di Infomine] / Steve
Mitchell = Ariadne. 8. ' -- <http://www.ariadne.ac.uk/issue8/infomine/>
12 : [Recensione di The Internet public
library] / Elena Boretti -- Biblioteca comunale forteguerriana {Pistoia}<http://www.comune.pistoia.it/data/dirbib/informazione/ipl.html>
13 : For your information / Christopher
Ott = Salon. ' (1999.08.03). ' -- <http://www.salon.com/tech/feature/1999/08/03/info_markets>
14 : Valutare Internet : la valutazione
di fonti di documentazione web / Elena Boretti = AIB-WEB. Contributi. '
-- <http://www.aib.it/aib/contr/boretti1.htm>
(2000.02.09)
15 : Invisibile / Ivano Fossati = La
disciplina della terra. 4 -- Columbia (2000)
Cercare informazioni in Internet: strumenti e strategie
# 2.2 / Claudio Gnoli (2000.05.28) = [ESB Forum. '] -- _
|