ESB Forum
ISSN: 2283-303X |
||
Come orientarsi tra i motori di ricerca. Una panoramica sugli strumenti di recupero delle informazioni in Internetpubblicato anche a stampa, in "Biblioteche oggi", XV, n. 5 (giugno 1997), p. 10-16. di Giovanna Grifoni (in linea da agosto 1997) La crescita esponenziale delle risorse informative, che ogni giorno vanno ad aggiungersi a quelle già esistenti nel vasto mondo di Internet, è un fenomeno di così vaste dimensioni che il rischio di perdersi e soprattutto di perdere del tempo nel tentativo di rintracciare ciò che serve sta diventando una realtà con cui bisogna fare sempre più i conti. Alla soluzione del problema, ma forse sarebbe meglio dire al tentativo di soluzione, hanno provveduto i cosidetti motori di ricerca, coetanei della Rete; strumenti creati allo scopo appunto di facilitare il reperimento delle informazioni e di mettere ordine in un universo disordinato di notizie. Ma se l'antico adagio "chi cerca trova" è vero anche per chi si avventura tra le "ragnatele" di Internet, qualche perplessità sorge quando si vanno ad analizzare i risultati della ricerca, soprattutto per quanto riguarda la pertinenza e l'efficacia delle risposte restituite. Come sanno, infatti, tutti coloro che hanno avuto l'occasione di sperimentare i motori di ricerca non sempre è facile capire come funzionano e soprattutto quali sono le principali differenze tra l'uno e l'altro e quale deve essere la migliore strategia di ricerca da adottare nei vari casi. Negli ultimi tempi si è assistito inoltre ad un proliferare di questi strumenti, cosicché alle due principali categorie finora conosciute che distinguevano i motori di ricerca (search engines) dalle directories o liste di soggetti (Yahoo! [1] è il più noto) se ne sono aggiunte altre definibili nella categoria degli indici specializzati per materia e dei meta-search engines, tanto da rendere necessaria un'ulteriore esigenza di ordine. Preliminarmente è opportuno ricordare che per motore di ricerca s'intende qualsiasi sistema informatico che permette il recupero delle informazioni contenute in un database, ed il termine è precedente all'avvento di Internet; è questo il caso per esempio dei sistemi di ricerca per il recupero delle informazioni dei produttori di CD-ROM. Ma qui ci vogliamo occupare soltanto dei motori di ricerca, gratuiti, sviluppati per la ricerca delle informazioni in Internet. Pur rimanendo attuale la distinzione fra search engine e directory la tendenza odierna è rivolta a costruire sistemi misti che in aggiunta ai potenti software, che viaggiano sulla rete a caccia di nuovi documenti Web ed informazioni in generale, affianchino liste di soggetti, create e riviste da un'apposito staff di persone. Anche la natura delle informazioni tende sempre più ad assumere caratteristiche aggiuntive, non più legate soltanto al mondo dei servizi di rete finora conosciuti. Intere redazioni giornalistiche con tanto di direttori responsabili, capi servizio e redattori collaborano alla messa a punto di nuovi servizi d'informazioni di tipo giornalistico. Basta dare un'occhiata alle versioni recenti di Yahoo!, Excite[2], Lycos, Infoseek. La trasformazione in corso è sempre più orientata a far sì che da sistemi per la ricerca delle informazioni in Rete si passi a sistemi di fornitura diretta delle informazioni, con conseguenti aumenti dell'aspetto pubblicitario e quindi inevitabilmente economico dell'intera faccenda. Yahoo! per esempio è oggi una società che ha fatturato nell'anno precedente 19 milioni di dollari. Il servizio "Today's News" è il risultato dell'accordo siglato nel 1995 tra Yahoo! e l'agenzia di informazioni Reuter. E' così che Yahoo! è diventata una delle società azionarie più quotate in borsa. Così sempre più spesso i "vecchi" motori di ricerca si stanno trasformando anche in agenzie giornalistiche con tanto di redazioni (v. Excite, Lycos) che vanno a caccia di informazioni in Rete. Tenteremo ora di distinguere le principali caratteristiche di questi strumenti per il recupero delle informazioni fornendo una panoramica delle problematiche più comuni legate al loro uso e del dibattito in corso su questo argomento, rinviando per quanto concerne una attenta analisi delle singole procedure di funzionamento ai numerosi articoli in linea e non che sono apparsi sull'argomento.[3] Qualsiasi tentativo di distinzione deve dunque tener conto delle seguente caratteristiche:
Rispetto al primo punto la maggiore distinzione finora esistente è stata tra strumenti di ricerca che utilizzano indici e quelli che utilizzano directory, i primi sono generati dai cosidetti Web crawler o spider o robot, programmi software che recuperano le pagine html, analizzando ed indicizzando il loro contenuto, in modo automatico. Le directory sono invece elenchi ipertestuali di siti, organizzati in modo gerarchico in categorie e sottocategorie, che per passaggi successivi conducono ai siti contenenti le informazioni cercate, in una struttura che va dal termine più generale a quello più specifico. Entrambi portano alla fine ad un collegamento, ma in modi e fasi diverse. Nel primo caso il risultato è più immediato, sempre che l'interrogazione sia stata formulata correttamente, conoscendo cioè l'esatta sintassi della query e l'ambito delle informazioni contenute nel database, se cioè sono raccolte le informazioni relative ai siti web, usenet, ftp, gopher; nel secondo, grazie al fatto che si possono scorrere delle liste di soggetti espressi in linguaggio naturale e che la compilazione di tali liste è il frutto di una selezione operata da menti umane, il risultato è magari meno immediato, ma in molti casi più preciso e più facilmente raggiungibile anche da i non esperti. A questo proposito tra i più famosi motori di ricerca esistenti in Internet si possono definire indici Web a pieno titolo: Alta Vista [4], HotBot [5], Open Text Index e World Wide Web Worm. Motori di ricerca misti, in grado cioè di svolgere ricerche sia come indici che come directory sono quelli di Infoseek, Excite, Lycos e WebCrawler. Ad un'altra specie appartengono poi le nuove versioni di Yahoo! e di Magellan Internet Guide che sono essenzialmente directory, che però abbinano come nel caso di Magellan un database di 15 milioni di indirizzi non ordinati in categorie o come, è il caso di Yahoo!, la possibilità di dirottare su Alta Vista la ricerca quando il primo esito è negativo. Al gruppo degli ultimi nati appartengono poi i cosidetti Meta-Search Engines, motori di ricerca cioè che attivano contemporaneamente o in successione altri motori di ricerca, tra i più noti: MetaCrawler, All-in-one, SavvySearch. I vantaggi di una ricerca condotta con questi mega motori sono evidenti, meno evidenti, ma ugualmente reali sono gli svantaggi soprattutto per quanto riguarda la quantità di risposte irrilevanti recuperate, dovute al problema del diverso modo che ogni motore di ricerca ha per aggiornare e selezionare le notizie nel proprio database. In pratica questi meta motori non hanno un proprio database ma si affidano a quello di altri, forniscono cioè un interfaccia di ricerca per sottoporre una interrogazione ad altri motori di ricerca e per ottenere questo si affidano a due diversi modi di accesso. Uno consiste nell'elencare i vari motori di ricerca e fornire un modulo di ricerca per ognuno in un unica pagina, è quello usato per esempio da All-in-One (http://www.albany.net/allinone/) e Beaucoup (http://www.beaucoup.com/formengs.html) che effettuano una ricerca sequenziale, e l'utente può aprire un motore dopo l'altro. L'altro, è il caso di SavvySearch (http://guaraldi.cs.colostate.edu:2000/) e MetaCrawler (http://www.metacrawler.com/), che fornisce invece un'unica maschera di ricerca e l'interrogazione viene inviata simultaneamente a più motori. Sia All-in-One che SavvySearch sono disponibili in più lingue, compreso l'italiano. L'inconveniente maggiore rappresentato dal primo caso consiste nel fatto che essendo i moduli di ricerca (query box) in qualche modo standardizzati per tutti i motori elencati molto spesso non contemplano le caratteristiche specifiche di ognuno, come ad esempio le possibilità di effettuare ricerche avanzate o di utilizzare limitazioni od estensioni, presenti invece nella pagina principale di ciascun motore di ricerca. In questo caso se si ha già una certa familiarità con la sintassi utilizzata da un determinato motore si ottengono risultati più sicuri. Il maggiore incoveniente invece del secondo tipo di meta motori consiste nel fatto che, pur ammettendo questi l'uso di alcuni operatori booleani, non sempre la stessa opzione è parimenti supportata dai search engine con cui si collega il meta motore, cosicché i risultati possono non essere affidabili. In generale il problema più evidente è costituito dai limiti che un ulteriore software, quello del mega motore, i cui meccanismi di recupero dell'informazione non sono sempre chiari ed omogenei, aggiunge a quelli che già sono propri dei singoli motori di ricerca che affidano la costituzione e l'aggiornamento dei loro database a criteri difformi e talvolta abbastanza casuali. Per quanto riguarda invece il punto due (selezione automatica o "umana"), la principale differenza consiste nei modi in cui liste di soggetti e motori aggiornano i loro database: i primi sono compilati da uno staff di esperti, appartengono cioè alla categoria degli strumenti di ricerca in cui la compilazione e l'aggiornamento è determinata da una selezione operata da esseri umani che vantano una competenza specifica, mentre gli altri sono affidati del tutto a selezioni ed aggiornamenti automatici, operati appunto dai cosidetti crawler o spider, che agiscono in modo diversi. Alcuni crawler, per esempio, danno più rilievo alle parole chiave contenute nel titolo, nelle prime righe d'intestazione o negli elenchi di parole chiave racchiuse dai marcatori META, che a quelle inserite nel testo del documento, ma quasi tutti si concentrano su come l'informazione è strutturata, sulle convenzioni di identificazione editoriale, sulle annotazioni HTML, non sul contenuto del documento. E' fuori di dubbio comunque che l'indicizzazione automatica è spesso casuale, mancano a tutti questi strumenti la precisione e l'affidabilità di un catalogo semantico risultato del lavoro di catalogatori esperti e di un thesaurus controllato. Anche se chi si occupa di scienza dell'informazione sta studiando un modo per risolvere il problema. Al tentativo di soluzione di questo problema un gruppo di lavoro guidato da Robert Wilensky, responsbile del progetto di automazione bibliotecaria, a Berkeley, in California, ha pensato di provvedere con l'applicazione dell'espediente linguistico della disambiguazione, nota a tutti i bibliotecari che hanno dimestichezza con i cataloghi a soggetto. E' questo il caso di tutte quelle che parole che sono omografe ma non omologhe e che soltanto il grado di conoscenza e di cultura specifica di chi opera la selezione permette di distinguere assegnando i contenuti ai diversi ambiti e rendendo quindi possibile il reperimento senza dispersione di energie. Nel tentativo sopra citato un algoritmo costruisce un database di riferimento da un'analisi statistica dei vari contesti nei quali un parola viene a trovarsi e la nuova parola chiave viene associata al suo contesto di riferimento.[6] Ma una sensibilità al contesto comporta molto tempo nella programmazione e comunque l'approccio non è mai in grado di raggiungere la penetrazione del giudizio di un catalogatore esperto. A questo proposito è utile ricordare che uno dei punti nodali della qualità delle informazioni in Internet riguarda proprio i criteri della valutazione. L'assenza di barriere alla proliferazione di notizie, chiunque può "pubblicare" in Internet, basta avere un accesso alla rete e un editor html, se ha liberalizzato la possibilità di espressione ha sicuramente comportato anche un rovescio della medaglia. Non tutte le informazioni che si trovano sono di per sé buone informazioni, non godono cioé dei benefici propri delle pubblicazioni tradizionali: il provenire cioè da una fonte autorevole e l'essere state sottosposte ad una revisione editoriale e ad una valutazione fatta da esperti della materia. Uno sforzo per comparare il tradizionale processo di pubblicazione off-line a quello on-line potrebbe descrivere il primo come il frutto di passaggi successivi, sottosposti ad un vaglio selettivo che ne assicura generalmente la validità dal punto di vista scientifico, ed il secondo invece come un processo autolegittimante nel quale l'informazione arriva in linea da fonti quali i gruppi Usenet, listserv, e pagine Web[7]. Sul tema della valutazione e sul grado di attendibilità degli strumenti di ricerca il dibattito in rete si è particolarmente infittito negli ultimi tempi tanto da registrare numerosi articoli on-line sull'argomento, ai quali conviene far riferimento per una più attenta lettura sul funzionamento e sulle caratteristiche dei casi specifici[8]. Riguardo invece all'ampiezza dei dati indicizzati dai motori di ricerca, la quantità cioè di notizie web o usenet o altro a seconda dei casi, che generalmente ogni motore dichiara nella propria pagina iniziale, va detto che non sempre la quantità dei documenti indicizzati corrisponde a reali notizie univoche, in molti casi infatti, grazie ai numerosi trucchi messi in atto dai produttori di pagine Web per assicurarsi una presenza, magari reiterata - il demone o la necessità della pubblicità si adatta a qualunque mezzo -, delle loro pagine nel database del motore di ricerca, e dati i meccanismi automatici e dunque non controllati di recupero delle informazioni, nei risultati possono comparire molte volte di seguito le stesse informazioni.[9] Dando per scontato che non esiste per ora all'interno della Rete un motore di ricerca o in generale uno strumento di recupero delle informazioni che vada bene per qualsiasi indagine, conviene orientare la domanda di volta in volta ad una fonte o ad un'altra a seconda di ciò che si vuole trovare; ma per fare questo è necessario prima di tutto conoscere di quale settore di informazioni si alimenta il singolo database del motore di ricerca, se indicizza notizie provenienti da pagine web o da gruppi di discussione o, per esempio, se raccoglie collegamenti con siti che offrono soltanto servizi di ftp o di gopher. Questo tipo di notizia è generalmente fornita nella pagina iniziale con cui si apre il collegamento con il motore di ricerca. In un'ottica bibliotecaria pare inevitabile chiedersi a questo punto in che misura tali strumenti siano utili per le ricerche; se si possano cioè considerare mezzi alternativi o integrativi dei tradizionali strumenti di reference. E soprattutto quali siano i migliori motori di ricerca nell'ambito delle informazioni bibliografiche: ricerche di cataloghi di biblioteca, banche dati specializzate nel recupero dei documenti, bibliografie e testi on-line. Senz'altro i bibliotecari da ora in avanti dovranno sempre di più farsi interpreti di mediazione nel recupero delle informazioni bibliografiche tra i testi che appartengono ormai alla "letteratura" in Internet, perché i confini del mondo delle pubblicazioni in rete si stanno dilatando, pur con tutte le legittime diffidenze che si possono continuare a nutrire riguardo alla loro qualità, oltre misura. Esistono ormai numerosi articoli in rete che costituiscono a tutti gli effetti materiali di studio interessanti e quindi ricercabili da sempre maggiori utenti. E sempre più spesso chi si occupa di reference in biblioteca dovrà porsi il problema di reperire informazioni secondo il contenuto ed il formato che soddisfa le necessità di ciascun individuo. Recentemente il dibattito si è spostato sulla questione se sia migliore ai fini della ricerca fare affidamento sui motori di ricerca, propriamente detti, e universalmente noti al pubblico di Internet o invece non sia più opportuno che ciascuna "comunità" scientifica o culturale, in base ai propri settori di interessi , si costruisca un proprio indice di risorse partendo da una scelta mirata e dunque non più generale. Per favorire una personalizzazione delle informazioni, per esempio, Yahoo offre da poco tempo un nuovo servizio, chiamato My Yahoo! che permette di creare una versione ad hoc, gratuita, di apertura dell'home page del motore di ricerca su alcuni argomenti preferiti e selezionati. Per creare questa versione personalizzata basta collegarsi all'indirizzo di My Yahoo! (http://www.my.yahoo.com) e seguire le istruzioni che vengono offerte, selezionando le categorie d'interesse, fino ad un massimo di 30. Anche la Apple Computer fornisce un servizio personalizzato che si chiama Apple Personalized Internet Launcher (http://myhome.apple.com/home/welcome/guest) che permette di selezionare, gratuitamente, le categorie d'interesse con le quali costruire la pagina personalizzata dando l'incarico al motore di ricerca di provvedere all'aggiornamento automatico. Un servizio simile è offerto anche da YPN: Your Personal Net (http://www.ypn.com). Tutti permettono di variare i campi d'interesse a seconda delle necessità aggiungendo o sottraendo dei soggetti. L'utilizzo di questi servizi potrebbe risultare utile per esempio nella configurazione delle postazioni di lavoro dedicate al pubblico, preselezionando da parte dei bibliotecari una pagina d'apertura al motore di ricerca già impostata sui campi di ricerca che possono avere maggiore attinenza con le ricerche che più frequentemente gli utenti di quella biblioteca sono soliti fare. Per quanto riguarda ancora la questione della qualità, quale sia cioè il motore di ricerca più adatto, quello generale o quello specifico, non si può fare a meno di notare che si stanno affermando sempre più i motori di ricerca limitati a particolari soggetti, i cosidetti LASE (Limited Area Search Engine), più utili per ricerche per esempio in ambito universitario. Sono questi motori di ricerca, più spesso gateway, costruiti da istituzioni accademiche e scientifiche che garantiscono una accuratezza nella selezione delle informazioni sicuramente maggiore dei search engines commerciali che, come abbiamo già detto, si affidano per la compilazione dei loro database ai robot. Un esempio di questo tipo di motore di ricerca può essere costituito da ARGOS (http://argos.evansville.edu/), il database dedicato alle fonti informative in Rete sul mondo antico e medievale, che funziona come un classico motore di ricerca per query ma è anche contemporaneamente un utilissimo gateway per altri siti web che contengono notizie controllate sulle antichità classiche e medievali, e da ARCHNET (http://www.lib.uconn.edu/ArchNet/), un sistema di ricerca dedicato alle informazioni sul mondo dell'archeologia, sviluppato all'Università del Connecticut, che permette la ricerca sia attraverso una lista di soggetti che attraverso l'interrogazione del motore di ricerca, o da MATHSEARCH (http://ms.maths.usyd.edu.au:8000/MathSearch.html), sviluppato all'Università di Sidney che è un motore di ricerca che indaga in oltre 90.000 documenti html dedicati alla matematica e alla statistica in lingua inglese, o SOSIG (http://www.esrc.bris.ac.uk) dell'Economic and Social Research Council che è un database di oltre 1400 fonti di ricerca nelle scienze sociali interrogabile sia attraverso lo scorrimento della lista dei soggetti che attraverso l'interrogazione del motore di ricerca e fa parte dei cosidetti SBIG (Subject Based Information Gateways). Questi sono soltanto alcuni esempi, la lista potrebbe proseguire elencando per ogni disciplina numerosi altri gateway che in generale forniscono un servizio integrato e controllato alle due principali funzioni di ricerca: lo scorrimento delle liste e il servizio di ricerca con un motore. Al fine di migliorare i servizi di informazione sta lavorando un progetto europeo chiamato DESIRE, iniziato nel 1996 all'interno di 8 paesi. L'obiettivo del progetto consiste nello sviluppare un'infrastruttura d'informazione integrata per le risorse della Rete a favore della comunità accademica. Una delle articolazioni principali del lavoro consiste appunto nell'indicizzazione delle fonti di informazione finalizzata a favorire le necessità di una ricerca di alto livello. Il prodotto dovrà quindi risultare dall'unione dei due elementi finora descritti: accessi all'informazione basati su specifiche aree di soggetto attraverso cataloghi controllati di risorse e indici automatici di fonti di informazione web su tutte le aree di soggetto. Per quanto riguardo l'ultimo punto: funzionalità della ricerca: semplice, avanzata (operatori booleani e di vicinanza), presenza di help in linea e chiarezza delle istruzioni, nonché semplicità dell'interfaccia grafica, quasi tutti i più noti motori di ricerca offrono la possibilità di ricerche semplici ed avanzate, anche se conviene sempre leggere attentamente le istruzioni in linea perché non sempre valgono le stesse regole per tutti. Per quanto riguarda l'interfaccia utente una significativa novità da segnalare all'interno del popolare AltaVista è quella della possibilità di scegliere una lingua alternativa all'inglese, tra le 16 lingue europee tra cui anche l'italiano, per interrogare il database della Digital. Un discorso a parte meritano poi tutti quei motori di ricerca che, mutuando l'architettura dei loro indici sulla base dei sistemi biblioteconomici, offrono la possibilità di scorrere degli indici di argomenti organizzati secondo gli schemi delle classificazioni decimali, tra quelli nazionali è da segnalare IONIO (http://www.ianus.cineca.it/venus/ionio/www/awww.htm), che fa parte dei servizi per l'accesso all'informazione del Cineca. E' un motore di ricerca italiano che classifica le discipline su cui immagazzina i dati in base al sistema UDC (Universal Decimal Classification). Tra quelli stranieri, i cui indici sono strutturati in base a UDC sono da segnalare BUBL (http://bubl.ac.uk/link) e NISS (http://www.niss.ac.uk/resource-description/new95udc.html); tra quelli che invece usano la CDD (Classification Decimal Dewey) CyberDewey (http://ivory.lm.com/~mundie/DDHC/DDH.html), Morton Grove Public Library Webrary (http://www.webrary.org/orrs/webrary.html); ed infine CyberStacks (http://www.public.iastate.edu/~CYBERSTACKS/homepage.html) che utilizza la Classificazione della Library of Congress.[10]
1 Inventato da due studenti di ingegneria della Stanford University, David Filo e Jerry Yang deve il suo nome all'acronimo di "Yet Another Hierarchical Officious Oracle". 2 EXCITE (http://www.excite.com).
Vanta a detta della società produttrice oltre 50 milioni di pagine
a testo pieno indicizzato. Risulta particolarmente efficace per effettuare
ricerche generali su web. Originariamente chiamato Architext, Excite è
stato sviluppato da un gruppo di lavoro alla Stanford University nel 1993.
Dalla fine di novembre Excite è diventato ufficialmente lo strumento
di ricerca di sul sito di AOL (American Online) il più popolare
servizio Internet online degli Stati Uniti. L'efficacia delle sue risposte
è dovuta anche al fatto che la compagnia che lo produce spinge i
vari amministratori di Web ad includere un collegamento ad Excite nelle
loro pagine web offrendo in cambio la possibilità di scaricare il
software di ricerca Excite per usarlo direttamente dai loro siti. 3 Un'analisi esauriente in italiano è contenuta in: "Internet, motori di ricerca", in PC Professionale, gennaio 1997. Numerosi sono gli articoli on-line che contengono liste di motori di ricerca, suddivisi per categorie, e con valutazioni e punteggi, tra quelli odierni che ci sono sembrati più esaurienti segnaliamo: Mitchell, Steve General Internet resource finding tools (http://lib-www.ucr.edu/pubs/navigato.html) , e Koch, Traugott Internet search service (http://ww.ub2.lu.se/tk/demos/DO9603-meng.html). 4 ALTAVISTA (http://www.altavista.digital.com/).
Motore di ricerca della Digital, tra i più noti e consultati dal
popolo della rete, offre un ampio database di notizie relative a documenti
Web ed a Usenet. 5 HOTBOT (http://www.hotbot.com).
Nato originariamente come un esperimento accademico condotto a Berkeley,
Università della California, con la Inktomi, è attualmente
sviluppato congiuntamente da Inktomi e Hotwired; ha rispetto agli altri
motori di ricerca una capacità in più: quella di limitare
la ricerca alle pagine Web che contengono specifice tecnologie quali JavaScript
o Shochwave, file audio, immagini, documenti Acrobat (scegliere modalità
Expert). Ha un database di indici a testo pieno contenente 54 milioni di
documenti. 6 Cfr. Taubes, G.:"Indexing the Internet" (http://sci.aaas.org/aaas/computers/webindex.html). 7 Interessante a questo proposito l'esperienza fatta nei corsi di strategie per l'informazione nelle biblioteche della Purdue University illustrate in : D.Scott Brandt: Evaluating Information on Internet, in: Computers in Library, may 1996. 8 cfr.:"Literature about search
services" (http://www.ub2.lu.se/desire/radar/lit-about-search-services.html). 9 Esempi curiosi sui vari trucchi sono visibili presso http://webreference.com/content/search/how.html che contiene un interessante articolo di Bruce Grossan sul funzionamento di alcuni motori di ricerca. 10 Un accurato esame delle tendenze in atto in tema di servizi di ricerca è contenuto nell'articolo di Traugott Koch, Internet search service (http://www.ub2.lu.se/tk/demos/DO9603-meng.html). |
| © ESB Forum | a cura di Riccardo Ridi | |