ESB Forum ESB Forum
ISSN: 2283-303X

Cercare informazioni in Internet: strumenti e strategie

Versione 2.2 (2000-05-28)


di Claudio Gnoli (in linea da giugno 2000)
Questo documento è strutturato in forma schematica e destinato ad essere aggiornato. Deriva originariamente dalla rielaborazione di precedenti materiali dell'autore e di Riccardo Ridi. Le versioni da 1.1 a 2.1, non pubblicate, sono state realizzate nei primi mesi del 2000 ed utilizzate come supporto didattico.

Sommario

1 : Principi della ricerca
2 : Fonti informative disponibili su Internet
3 : Indici e repertori
4 : Strategie di ricerca


1 : Principi della ricerca


1.1 : Definizioni secondo Foskett
1.2 : Forme con cui i documenti possono essere indicizzati
1.3 : Efficacia di una ricerca


1.1 : Definizioni secondo Foskett

  • Conoscenza : ciò che io so
  • Informazione : conoscenza condivisa fra più persone
  • Comunicazione : scambio e trasferimento di informazione
  • Documento : informazione registrata su un qualsiasi supporto fisico

[1]


1.2 : Forme con cui i documenti possono essere indicizzati


In ordine crescente di accuratezza -- e quindi di costo:

  • parole del testo
  • parole chiave (keyword)
  • metatag:
    "author", "copyright", "generator", "robot", "title", "description", "keyword", ...
  • descrizione catalografica
  • soggetti
  • classi

Literary warrant : si crea una voce solo a partire da documenti realmente esistenti


1.3 : Efficacia di una ricerca


Documenti pertinenti (= utili ~ rilevanti) o no

  • Richiamo = documenti pertinenti trovati / documenti pertinenti esistenti
  • Precisione = documenti pertinenti trovati / documenti trovati

All'aumentare dell'uno diminuisce l'altro; occorre quindi trovare un compromesso ottimale.

  • Punto di futilità : numero di documenti da vagliare oltre il quale ci si stufa di scorrerli (circa 30 secondo Blair)

Se si trovano pochi documenti (es. decine), possono essere selezionati manualmente;
se si trovano molti documenti (centinaia o più), occorre raffinare la ricerca rendendola più specifica.


2 : Fonti informative disponibili su Internet

2.1 : Forme di trasmissione delle informazioni in rete
2.2 : Formati dei documenti
2.3 : Tipologie dei documenti


2.1 : Forme di trasmissione delle informazioni in rete

  • trasmissione di posta elettronica (SMTP)
  • trasferimento di file (FTP)
  • collegamento a distanza (telnet)
  • gopher
  • web, con dialogo client-server (HTTP)


2.2 : Formati dei documenti

  • testi (.HTML, .TXT, .PDF, DOC,...)
  • immagini (.JPG, .GIF, .BMP, ...)
  • musica (.MP3), video (.WAV)
  • istruzioni eseguibili (.EXE, .ZIP, ...)
  • ...

Per utilizzare alcune categorie di documenti occorrono programmi appositi.


2.3 : Tipologie dei documenti

  • posta elettronica (e-mail)
  • liste di discussione e di distribuzione (mailing list), newsgroup
  • documenti monografici
  • periodici elettronici (e-journal)
  • siti istituzionali e aziendali
  • legislazione
  • programmi (software)
  • basi di dati, archivi (database)
  • cataloghi bibliografici (OPAC)
  • indici e repertori


3 : Indici e repertori


3.1 : Indici per parola ("motori di ricerca", search engine, robot, spider, worm)
3.2 : Indici per argomento (guide, repertori, gateway, virtual reference desk, hub)
3.3 : Reference in linea
3.4 : Indici di documenti di particolari tipologie
3.5 : Portali

[2, 3]


3.1 : Indici per parola ("motori di ricerca", search engine, robot, spider, worm)


Recuperano i documenti che contengono parole specificate, escluse le stopword.

Problema della decontestualizzazione [4]

Alto richiamo, bassa precisione:
quindi utili per parole o sequenze di parole rare, nomi propri e simili.

3.1.1 : Sintassi
3.1.2 : Criteri di selezione e ordinamento
3.1.3 : Metaindici per parola ("metamotori")


3.1.1 : Sintassi

Operatori logici = booleani:

  • and  : compresenza
  • or  : alternativa
  • not : esclusione

Altri operatori:

  • adiacenza
  • troncamento

rappresentati da vari simboli (+ - "" $ * @ ...) ;

usati anche negli OPAC.


3.1.2 : Criteri di selezione e ordinamento

Molto spesso non esplicitati.

  • Frequenza: numero di occorrenze
  • Densità: numero di occorrenze / parole totali del documento
  • Rarità: 1 / (numero di occorrenze nella base dati / parole totali della base dati)
  • Compresenza (default solitamente OR)
  • Prossimità: parole vicine fra loro nel documento
  • Posizione: parole nei titoli di sezioni (<H>), nei link (<A HREF>), nelle intestazioni (<HEAD>) e in particolare nel titolo (<TITLE>) o in altri metatag come "keyword" e "description"
  • Aggiornamento: documenti più recenti
  • Popolarità
  • Sponsorizzazione
  • Analisi di citazione (Google, progetto Clever [7]): utilizzo di un algoritmo che considera il numero di link al documento, distinguendo fra repertori (hub) e fonti primarie (authority), con risultati brillanti
  • Somiglianza delle parole con quelle di documenti già rintracciati


3.1.3 : Metaindici per parola ("metamotori", "megamotori", "motori" paralleli)


Esistono centinaia di indici per parola, i cui risultati sono scarsamente sovrapposti: dunque ognuno copre solo una parte di Internet. [8]

Ciò suggerisce di cercare in più indici, utilizzando:

Problemi di sintassi differenti fra indici diversi. [9]

Altissimo richiamo, bassissima precisione.


3.2 : Indici per argomento (guide, repertori, gateway, virtual reference desk, hub)


Raccolgono documenti primari e altri repertori, classificandoli gerarchicamente per argomenti (quindi per classi, anche se generalmente prive di notazione, più o meno commerciali, accademiche o biblioteconomiche).

Documenti selezionati da operatori umani.

Basso richiamo, alta precisione.


3.3 : Reference in linea

  • FAQ : frequently asked questions
    su argomenti specifici


3.4 : Indici di documenti di particolari tipologie


3.5 : Portali


Tendenza di sviluppo recente.

Convogliano accesso a molte risorse (indici per parola e per argomento, notiziari, email e spazio web gratuiti, servizi telefonici, ...).

Puntano a creare una "comunità fedele": spirito commerciale più che documentalistico, molta pubblicità.

Esempi:
- Repubblica.it <http://www.repubblica.it>
- MSN search <http://www.msn.com>
- alcuni degli indici elencati sopra


4 : Strategie di ricerca


I principi sono comuni a quelli delle ricerche tradizionali: perciò le strategie di ricerca sono una competenza dei bibliotecari!

Occorre educare alla definizione di una strategia invece dell'uso irriflessivo di strumenti popolari e abituali.

Selezione dello strumento adeguato al tipo di ricerca:

  • parole o sequenze rare, nomi di persone e istituzioni
    => indici o metaindici per parola
  • argomenti generici
    => indici per argomento del tipo opportuno
  • bibliografia
    => basi dati bibliografiche, cataloghi di biblioteche grandi
  • copie di documenti cartacei
    => cataloghi di biblioteche raggiungibili

Uso sequenziale degli strumenti in base a ciò che man mano si trova (feedback): es. dal più generale al più specifico.

Valutazione e selezione critica delle risorse in base a copertura, completezza, serietà, aggiornamento, ecc. [14]

Ogni utente deve acquisire esperienza: il bibliotecario dev'essere solo una guida, non sostituirsi all'utente ma insegnargli dei metodi con cui diventare più autonomo, come "ogni buon maestro che si fa invisibile" [15].


Note bibliografiche

1 : The subject approach to information # 5 / A'C' Foskett -- Library Association {London} (1996)

2: Yahoo!. Searching the Web -- <http://www.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web>

3 : Guide all'uso degli strumenti di ricerca in Internet / Mariateresa Pesenti = AIB-WEB. Il mondo delle biblioteche in rete. * -- <http://www.aib.it/aib/lis/motori.htm>

4 : La segretaria quasi privata / Walter Lang : dir' ; Katharine Hepburn, Spencer Tracy : play -- (1957)

5 : [Recensione di FAST Search] / Phil Bradley = Ariadne. 21. ' -- <http://www.ariadne.ac.uk/issue21/search-engines/>

6 : Motoridiricerca.it : guida completa ai motori di ricerca / `Ad Maiora -- <http://www.motoridirecerca.it>

7 : Hypersearching the Web = Scientific American. _ (1999.06) || & -- <http://www.sciam.com/1999/0699issue/0699raghavan.html>

8 : Searching the World Wide Web / G' Lawrence, C'L' Giles = Science. 5360 (1998.04.03). p 98-100

9 : Towards more comprehensive Web searching : single searching versus megasearching / Greg R' Notess = Online. _ (1998) -- <http://www.onlineinc.com/onlinemag/OL1998/net3.html>

10 : [Recensione di BUBL] / Elena Boretti -- Biblioteca comunale forteguerriana {Pistoia} <http://www.comune.pistoia.it/data/dirbib/informazione/BUBL.html>

11 : [Recensione di Infomine] / Steve Mitchell = Ariadne. 8. ' -- <http://www.ariadne.ac.uk/issue8/infomine/>

12 : [Recensione di The Internet public library] / Elena Boretti -- Biblioteca comunale forteguerriana {Pistoia}<http://www.comune.pistoia.it/data/dirbib/informazione/ipl.html>

13 : For your information / Christopher Ott = Salon. ' (1999.08.03). ' -- <http://www.salon.com/tech/feature/1999/08/03/info_markets>

14 : Valutare Internet : la valutazione di fonti di documentazione web / Elena Boretti = AIB-WEB. Contributi. ' -- <http://www.aib.it/aib/contr/boretti1.htm> (2000.02.09)

15 : Invisibile / Ivano Fossati = La disciplina della terra. 4 -- Columbia (2000)


Cercare informazioni in Internet: strumenti e strategie # 2.2 / Claudio Gnoli (2000.05.28) = [ESB Forum. '] -- _

| © ESB Forum | a cura di Riccardo Ridi |