ESB Forum
ISSN: 2283-303X |
||
I cataloghi elettronici delle bibliotecheTendenze evolutive degli OPACTesi di laurea in biblioteconomia, Corso di laurea in Conservazione dei Beni Culturali, Facoltà di Lettere e Filosofia dell'Università Ca' Foscari di Venezia, relatore prof. Riccardo Ridi, correlatore prof. Paolo Eleuteri, anno accademico 2006/2007 discussa il 27 febbraio 2008. di Lucia Tronchin (in linea da marzo 2008) 3. I modelli di interrogazioneSecondo Hildreth i fattori che influenzano il tipo, la misura e la qualità dell’accesso ai dati bibliografici dipendono principalmente da cinque fattori: i campi scelti come interrogabili, cioè attraverso quali parti si accede al record bibliografico; il tipo e formato degli elementi dei dati presenti negli indici del data base; i metodi di elaborazione dei dati; i comandi di ricerca disponibili per l’utente; il contenuto e il formato della visualizzazione dei dati bibliografici (Hildreth 1982 pag.113). Per capire e valutare la qualità degli accessi ad un catalogo è importante anche chiarire alcuni termini: categorie di ricerca, punti di accesso, metodi di accesso, meccanismi di ricerca. Le categorie di ricerca sono l’approccio generale o la via scelta per recuperare i record bibliografici dal data base attraverso il campo autore, il campo titolo, il campo soggetto, i numeri di classificazione, i numeri standard, o attraverso parametri di ricerca più ampi come la lingua, l’editore, la data di pubblicazione, il tipo di materiale. Per esempio la ricerca per soggetto può comprendere l’accesso attraverso intestazioni di soggetto indicizzate, parole chiave nel titolo, il numero che rappresenta il soggetto in particolari soggettari. I punti di accesso sono i campi del record specificamente ricercabili, o più precisamente sono le parole o frasi estratte dai campi o dai sottocampi che sono stati immessi in un file di indice. Queste parole o frasi servono come punto di accesso al record o ai record dai quali sono stati estratti. I metodi di accesso sono i modi con cui un termine di ricerca (parola chiave, frase, o chiave estratta) è rintracciato in uno o più file di indice o eventualmente nel testo intero del record. Si può avere accesso attraverso la corrispondenza esatta, carattere per carattere, di un termine di ricerca oppure attraverso una ricerca per troncamento, o ancora attraverso una ricerca combinata di termini con l’uso di operatori booleani. I meccanismi di ricerca sono i metodi di accesso visti dal punto di vista dell’interfaccia utente, i comandi e le operazioni che sono messi a disposizione dell’utente per accedere al data base e svolgere la sua ricerca (Hildreth 1982).
Il catalogo ha una sua intrinseca complessità di interrogazione che si manifesta anche all’utente. E’ difficile immaginare che l’utente di un opac possa conoscere gli aspetti tecnici e quelli relativi alla catalogazione dei documenti che sono alla base della costruzione del catalogo, tuttavia per una ricerca efficace sarebbe necessario sapere almeno quali termini sono indicizzati e in che modo, attraverso quali campi di ricerca si possono trovare, che differenza c’è tra una ricerca per termine esatto e per parola chiave, quali operatori booleani sono implicitamente applicati. La necessità di forme di istruzione o del supporto dei bibliotecari oltre che l’utilità degli help sono state ripetutamente evidenziate: la sfida è la creazione di un opac che, mantenendo ignota all’utente la complessità del catalogo, sia comunque in grado di dargli delle risposte soddisfacenti interpretandone le necessità. I primi opac furono progettati seguendo due modelli: da una parte cercando di riprodurre on line un ambiente familiare che replicasse le funzioni e i punti accesso del catalogo cartaceo, dall’altra imitando i database di ricerca sviluppati per prodotti di tipo commerciale (Hildreth 1995). Normalmente in questi primi opac era possibile la ricerca per autore e per titolo, mentre la ricerca per soggetto non era prevista neanche attraverso parole chiave; l’accesso ai dati avveniva immettendo chiavi derivate o attraverso la corrispondenza esatta di una parola o di una frase o almeno dell’inizio di una frase; non era possibile raffinare progressivamente la ricerca; i dati che venivano proposti in risposta erano una rappresentazione in formato ridotto del contenuto di una scheda cartacea. Per questo i primi opac furono spesso accusati di essere inferiori ai tradizionali cataloghi cartacei. Una seconda generazione di opac ha cercato di offrire prestazioni migliori aumentando i punti di accesso, praticamente ogni parola o simbolo del record bibliografico può diventare un punto di accesso, consentendo lo scorrimento di liste alfabetiche come avveniva in ambiente cartaceo, introducendo la ricerca per soggetti. In questi opac si è inoltre cercato di applicare e sfruttare al massimo i metodi di accesso tipici dell’information retrieval.
3.1 SearchingL’information retrieval (IR) è un insieme di tecniche per il recupero dell’informazione elettronica, più precisamente l’insieme dei linguaggi di interrogazione basati sui comandi testuali tipici delle banche dati commerciali on line. Esistono numerosi linguaggi di interrogazione e di volta in volta si devono apprendere i comandi utilizzati nel sistema che si sta interrogando, anche se molte funzionalità restano costanti pur essendo chiamate con termini diversi. Tipico dell’IR è l’uso degli operatori booleani (NOT, AND, OR, XOR), degli operatori relazionali (<, >, =) e di prossimità (SAME, NEAR, ADJ, WITH). Molti sistemi consentono anche l’uso di parentesi ed espressioni per determinare l’ordine di esecuzione degli operatori ed è possibile inoltre usare il troncamento (sfruttare dei caratteri jolly per sostituire un numero indeterminato di caratteri a destra e a sinistra del termine di ricerca) e il mascheramento dei caratteri (sostituire un numero determinato di caratteri all’interno di una parola con un carattere jolly) (Metitieri-Ridi 2005). L’uso di queste tecniche ha sostanzialmente cambiato le capacità di ricerca degli opac e migliorato la loro popolarità tra gli utenti finali, tuttavia, secondo Hildreth, i sistemi di information retrieval classici, utilizzati negli opac di seconda generazione, pongono l’utente di fronte ad un paradosso: la necessità di descrivere quello che non conoscono allo scopo di trovarlo (Hildreth 1995 parte 2 pag. 10). Questi sistemi sono infatti “query oriented” cioè richiedono la corrispondenza tra l’interrogazione e la rappresentazione del documento o del testo: solo quando le specifiche fornite nell’interrogazione sono soddisfatte da qualcuno dei documenti si ottiene un risultato. Quindi per ottenere una risposta si deve avere un’idea precisa di che cosa si sta cercando ed essere in grado di esprimerla in un linguaggio che possa essere compreso dal sistema. Le query (definite anche search o find) possono essere di tipo phrase matching (corrispondenza esatta di una stringa di testo o di un vocabolo controllato) o keyword matching (parole separate, con operatori booleani o di prossimità): in ogni caso il meccanismo di ricerca nel database consiste nella comparazione tra i termini presenti negli indici del database, che rappresentano i documenti, e i termini dell’interrogazione. I criteri di corrispondenza sono specificati nell’interrogazione o applicati automaticamente dal sistema, ma in ogni caso la corrispondenza deve essere esatta (exact match). Il procedimento è di tipo meccanico e la responsabilità di introdurre termini che possano corrispondere agli indici presenti nel database è lasciata all’utente. I risultati dell’interrogazione sono considerati tutti ugualmente utili al ricercatore e non vengono applicati metodi di ranking nella visualizzazione. La rigidezza di queste tecniche è in parte temperata nei sistemi che consentono l’uso di caratteri jolly nei termini di ricerca o utilizzano le tecniche di stemming, che lanciano la ricerca non solo sul termine immesso ma anche sui termini ottenuti rimuovendo i suffissi del termine con mezzi automatici. Alle difficoltà degli utenti nel formulare interrogazioni con gli operatori booleani si è risposto, da parte dei progettisti di opac, facendo immettere agli utenti solo i termini di ricerca, ed eventualmente i campi sui quali svolgere la ricerca selezionandoli da un menù, e lasciando al sistema il compito di stabilire le relazioni tra i termini o di applicare troncamenti nei termini. In questo modo si ottiene generalmente una risposta più ampia, si evitano i risultati a risposta zero ma si lascia l’utente completamente ignaro della logica che porta a quei risultati e quindi privo di un feedback adeguato per proseguire la ricerca con ulteriori interrogazioni. Secondo Hildreth l’applicazione agli opac delle tecniche di IR basate sulla logica booleana è avvenuta, ed è stata salutata con grande enfasi, proprio mentre nel mondo della ricerca venivano messi in evidenza i limiti di questo tipo di approccio criticando sia le sue performance dal punto di vista dell’usabilità e dell’efficienza, sia la stessa adeguatezza del modello a rappresentare le situazioni e i comportamenti di ricerca (Hildreth 1995 parte 3, pag. 3). Ai modelli di ricerca booleana convenzionale si sono affiancati modelli non convenzionali o probabilistici. Questi modelli assumono che l’intero processo di recupero delle informazioni sia caratterizzato da indeterminatezza, incertezza e variabilità e, rifiutando l’approccio della corrispondenza esatta, mirano a rintracciare la corrispondenza migliore (closest, best match), recuperando documenti con un certo grado di vicinanza o similarità e con un’alta probabilità di essere rilevanti per l’utente. I sistemi probabilistici recuperano documenti che corrispondono all’interrogazione non in modo esatto ma in qualsiasi grado, anche se la corrispondenza è solo con una parola o una parte del termine immesso; calcolano la probabilità che questi documenti siano rilevanti per l’interrogazione formulata; li ordinano con algoritmi di ranking. Normalmente questi sistemi hanno delle performance migliori di quelli convenzionali, inoltre liberano l’utente dalla necessità di conoscere gli operatori logici booleani, risolvono il problema di un’eccessiva quantità di dati recuperati e delle ricerche a risultato zero, fattori che sono stati giudicati tra quelli più problematici per gli utenti nei sistemi che adottano i metodi di IR classici.
3.2 BrowsingIl modello probabilistico riconosce la situazione di incertezza che abbiamo visto essere tipica della ricerca di informazioni ma entrambi i modelli, classico e probabilistico, sono basati sul concetto di interrogazione (query-oriented), assumono cioè che la ricerca di informazioni sia basata sulla formulazione di una domanda, che questa non cambi nel corso della transazione di ricerca e che sia soddisfatta da un unico insieme di risposte. Diverse ricerche e teorie hanno invece indicato che la ricerca di informazioni è un'attività di problem solving durante la quale i bisogni informativi cambiano in conseguenza dei primi risultati della ricerca che viene quindi condotta in modo iterativo. Questo modo di ricercare viene definito in molti modi: browsing, esplorazione, ricerca non-lineare, berrypicking (Bates 1989). Secondo Hildreth, in qualunque modo la si chiami, bisogna riconoscere che questa non è una sola attività ma un’insieme di molti tipi di attività e sulla base degli studi di diversi autori individua tre categorie (Hildreth 1995 parte 5 pag. 1, 4):
indiretto (indirected browsing, general browsing, serendipity browsing) semi-diretto (semi-directed browsing, general purposive browsing, general purpose browsing) diretto (directed browsing, specific browsing, search browsing).
Alla prima categoria può essere ricondotta la più semplice attività di browsing che viene svolta in biblioteca: quella di curiosare tra gli scaffali cercando qualcosa, non si sa bene che cosa, nella speranza di trovare una lettura di proprio interesse. I documenti vengono esaminati in modo casuale per essere presi in prestito. E’ un’attività occasionale, non strutturata. Non tutte le attività di browsing sono così indeterminate: alcuni tipi partono da una necessità informativa che, ancorché non perfettamente formulata, viene riconosciuta una volta che la si trovi. E’ quello che avviene quando si esplorano gli scaffali della biblioteca in una zona precisa cercando documenti relativi ad una particolare area di interesse. Questo tipo di ricerca è di solito aiutata da forme di orientamento predisposte dai bibliotecari. La terza categoria di browsing è quella svolta da persone più padrone degli strumenti di ricerca quando cercano in un repertorio, in una bibliografia, in un abstract, nel catalogo, senza preparare una strategia di ricerca ma partendo da un punto e facendosi poi guidare dai riferimenti incrociati, strutturati e organizzati, presenti nei vari strumenti di ricerca. E’ un’attività strutturata ma aperta a cogliere indizi e suggestioni che emergano nel corso della ricerca. Capire come e perché le persone fanno attività di browsing dovrebbe aiutare a cogliere l’importanza di questa pratica nella ricerca informativa e spingere a migliorare le funzioni di browsing nei sistemi elettronici. Tutti i sistemi di IR, compresi gli opac, hanno delle funzioni che permettono qualche tipo di browsing ma negli opac tradizionali questa attività è sempre stata considerata secondaria o di supporto alle funzioni di searching. Negli opac tradizionali tipicamente il sistema mostra delle liste ordinate, in genere alfabeticamente, di termini o di descrittori, o di record bibliografici in formato ridotto. Le sole opzioni di navigazione consentite sono muoversi avanti e indietro nelle liste in maniera lineare: negli opac di seconda generazione, infatti, le operazioni ipertestuali che consentono di muoversi attraverso termini correlati in modo non lineare non erano ancora presenti. Le liste consento all’utente di individuare il termine corretto da utilizzare in una interrogazione di tipo query. Nei sistemi tradizionali, query-orientend, infatti, le funzioni di browsing svolgono un ruolo subordinato essenzialmente aiutando a individuare i termini di ricerca. Secondo Hildreth To break out of the query-oriented, Boolean mind-set, we need to turn the conventional query-first-then-browse paradigm upside down. Searching by exploration, recognition, and discovery in a well-structured bibliographic space should be the primary search interface provided to information seekers, augmented by secondary query expansion methods and a choice of similarity operations (Hildreth 1995 parte 6 pag. 1)[1]. Per creare lo spazio bibliografico ben strutturato suggerito da Hildreth, per organizzare un’interfaccia che sostenga l’esplorazione, vengono oggi sperimentati diversi metodi: tra questi la rappresentazione del contenuto del catalogo e l’organizzazione dei risultati della ricerca in gruppi significativi attraverso il clustering (raggruppamento) e la faceted categorization (classificazione a faccette). Il clustering si riferisce al raggruppamento di oggetti che siano in qualche misura simili, che presentino caratteristiche comuni. Per i documenti la somiglianza è stabilita sul fatto di avere parole e frasi in comune. E’ un procedimento completamente automatizzabile e può essere facilmente applicato alle collezioni di testi. Il clustering produce una rappresentazione grafica ad albero (dendrogramma) in cui i grappoli (cluster) apparentemente più simili sono disposti su rami vicini (Gnoli-Marino-Rosati 2006 pag. 57). Non sempre la somiglianza è indice di un’affinità più profonda, come quella che potrebbe essere individuata dall’analisi dei contenuti fatta da un essere umano, ma il clustering ha il vantaggio di poter essere applicato a grandi quantità di documenti e consente comunque di chiarire e mettere a fuoco un'interrogazione troppo generica mostrando all’utente i temi prevalenti nei risultati della ricerca, con la potenzialità di rivelare anche raggruppamenti inaspettati che possono rappresentare trend emergenti all’interno di un gruppo di documenti. Lo svantaggio di questa tecnica è di essere imprevedibile, di mescolare ambiti diversi, di generare categorie a volte poco intuitive oltre alla difficoltà di attribuire etichette corrette ai raggruppamenti (Hearst 2006). Gli studi sull’usabilità citati da Herst (Hearst 2006 pag. 60) dimostrerebbero che gli utenti non amano questo tipo di raggruppamenti disordinati preferendo invece gerarchie di categorie che presentino lo stesso livello di granularità ma l’automazione dei processi, e quindi la scarsa necessità di intervento umano, spinge ad approfondire le ricerche anche in questo campo[2].
Un sistema di categorie è un insieme di etichette significative organizzate in modo da riflettere i concetti rilevanti di un certo ambito disciplinare. Un buon sistema ha la caratteristica di essere coerente e completo ma la sua creazione richiede una complessa attività umana, anche se, in seguito, l’assegnazione dei singoli documenti può essere automatizzata ottenendo dei risultati abbastanza accurati[3]. La questione di quale sia la struttura di categorie che possa meglio favorire il browsing di una collezione di risorse è ancora aperta. Secondo Hearst (Hearst 2006 pag. 60) c’è un ampio riconoscimento che una classificazione per categorie strettamente gerarchica non soddisfa le necessità degli utenti[4] e per questo negli ultimi anni si starebbe diffondendo un metodo di rappresentazione alternativo noto come Hierarchical faceted categories (HFC) molto più flessibile e di minore complessità. Questo metodo, anziché creare una vasta gerarchia di categorie, consiste nel creare un insieme di categorie gerarchiche ciascuna delle quali corrisponde a diverse faccette, dimensioni o caratteristiche rilevanti per la collezione che si sta esplorando. Ogni faccetta ha una gerarchia di termini associati. Ad ogni documento possono essere assegnate molte etichette della gerarchia. L’interfaccia utente mostra esplicitamente le categorie e le sottocategorie per guidare l’utente alle possibili scelte e allo stesso modo espone i risultati di una ricerca di tipo search[5]. La navigazione tra le categorie genera un'interrogazione complessa che include o esclude categorie e sottocategorie, interrogazione che però non ha richiesto all’utente la formulazione di una domanda (query) ma solo il riconoscimento degli aspetti di suo interesse favorito dalla presentazione della struttura logica dei dati. Lo svantaggio nell’uso di Hierarchical faceted categories è che le categorie di interesse relative ad uno specifico campo devono essere note in anticipo e ancora di più che l’attribuzione delle categorie ai documenti viene fatta in gran parte manualmente poiché l’assegnazione automatica si è rivelata fino ad ora solo parzialmente efficace (Hearst 2006 pag. 61). Inoltre fino ad oggi sono state sperimentate principalmente in collezioni ristrette a specifici ambiti disciplinari.
3.3 IpertestualitàL’applicazione agli opac della tecnologia web ha consentito di aggiungere fra le modalità di ricerca fornite agli utenti la navigazione ipertestuale, cioè la possibilità di passare, grazie alla tecnica dei legami, da un documento individuato ad altri che condividano lo stesso autore o soggetto o facciano parte dello stesso insieme bibliografico, collana o opera principale. Normalmente nella presentazione di un record bibliografico i termini che costituiscono un link sono evidenziati o sottolineati e cliccandoli si aprono liste di termini correlati. E’ evidente che la prospettazione di link è resa possibile dal lavoro di individuazione dei legami fatta dai catalogatori al momento della creazione della notizia. Secondo Weston la ricerca ipertestuale essendo di tipo non lineare ma associativo riproduce il comportamento del pensiero umano[6], ma al contempo può generare una ricerca non sistematica, indurre l’utente a tralasciare informazioni importanti, farlo sentire disorientato e incapace di ripercorrere a ritroso il percorso svolto (Weston 2002 pag. 64). Questa modalità di ricerca dovrebbe comunque essere potenziata nell’ottica della creazione di un catalogo post coordinato, un catalogo nel quale l’utente determina i suoi percorsi di ricerca e i suoi punti di accesso, non dimenticando che in questo caso il lavoro del catalogatore, dovendo prevedere un congruo numero di opzioni da mettere a disposizione dell’utente e soprattutto l’attivazione di una fitta rete di collegamenti reciproci, non sarebbe né meccanico né ripetitivo (Weston 2002 pag. 137) e neanche di entità trascurabile. In un ambiente molto ipertestuale come quello degli opac arricchiti o estesi, in cui i link sono non solo tra metadati catalografici ma anche tra metadati di diversa natura e tra metadati e documenti primari, al fine di creare uno spazio informativo più comprensibile e amichevole per l’utente, sarebbe particolarmente interessante trovasse applicazione la possibilità di differenziare i link formalmente secondo il tipo di collegamento che creano (riferimento bibliografico, rinvio a contenuto sonoro o grafico, citazione di un testo ecc.) prospettata da Ridi come uno dei possibili approfondimenti delle tecniche di ricerca ipertestuale (Ridi 2007a pag. 147).
3.4 La ricerca nel catalogo multimedialeLa presenza sempre più consistente nei cataloghi di documenti multimediali pone nuove problematiche rispetto al recupero del contenuto di questi documenti. Fino ad ora il recupero è avvenuto, tramite il linguaggio testuale, sui dati associati alle risorse in fase di descrizione e indicizzazione dei documenti la quale avviene con gli stessi dispositivi catalografici usati per la descrizione dei documenti testuali. Alcuni dati come quelli del nome dell’autore o creatore o il luogo di produzione hanno una natura tale da giustificare questa scelta, ma esistono altri contenuti che richiederebbero l’applicazione di metodi diversi (Weston 2002 pag. 66). Da alcuni anni si sta studiando l’applicazione di tecniche di pattern recognition[7] a sistemi di ricerca che non richiedano la preventiva formulazione del contenuto dei documenti con vocabolari controllati o attraverso il linguaggio naturale, sistemi di ricerca effettivamente multimediali, fondati sull’interrelazione e sull’organizzazione di tutti i mezzi comunicativi: la parola, l’immagine e il suono. Allo stato dell’attuale sviluppo tecnologico sembra infatti essere limitante fermarsi al metodo generico di information retrieval e si comincia a cominciare ragionare in termini di Multi Media Information Retrieval, cioè di metodi in cui ogni genere di documento digitale venga trattato e ricercato tramite gli elementi di linguaggio, o di metalinguaggio, più adatti alla sua natura propria (Raieli 2001). Gli opac nelle loro realizzazioni più recenti lasciano intravedere la possibilità che lo sviluppo della tecnologia si combini ad un ripensamento della struttura del catalogo, ad una rielaborazione dei suoi principi di base, e che questo renda l’opac adatto ad un uso diverso da quella che è stata fino ad oggi considerata la sua funzione tradizionale (Weston 2002 pag. 66). 3.5 Interrogazioni con Z39.50Già negli anni ’70 sia in America sia in Europa, la grande quantità di cataloghi on line che si andava sviluppando pose il problema di creare uno strumento che facilitasse all’utente l’interrogazione di queste molteplici basi di dati che si presentavano con diverse interfacce e funzioni di ricerca. Gli opac si erano infatti sviluppati senza alcuno standard e gli utenti potevano trovarsi, senza esserne coscienti, a ricevere dagli opac risposte diverse, a fronte della stessa interrogazione, sulla base dei diversi metodi di interrogazione adottati dal sistema. Era quindi necessario creare uno standard, definito di Search and Retrive (SR), che consentisse agli utenti la consultazione di basi dati eterogenee tramite un unico linguaggio di interrogazione, possibilmente quello adottato dal sistema di automazione locale. Senza entrare nei dettagli dello sviluppo di questo standard, per i quali si rimanda a Scolari (Scolari 1996, 2000) è interessante notare che La preparazione di questi protocolli si sviluppò piuttosto lentamente non tanto per l'analisi e la stesura, quanto piuttosto per la loro applicabilità pratica, perché erano in anticipo sui tempi per quanto concerneva gli strumenti offerti dai sistemi di telecomunicazione: infatti numerosi degli standard di comunicazione oggi disponibili erano ancora alle prime fasi di discussione, l'uso delle reti di interconnessione era ancora agli inizi, di architettura client/server si incominciava appena a parlare (Scolari 1996 pag. 398). Da due protocolli diversi, uno di matrice europea e l’altro sviluppato negli Stati Uniti, si è giunti, attraverso una serie di passaggi avvenuti dal 1980 al 1995, ad un unico protocollo chiamato ANSI/NISO Z39.50[8]. Il protocollo Z39.50 permette di interrogare più archivi, uno alla volta o contemporaneamente, attraverso una singola interfaccia e un singolo linguaggio di interrogazione, ottenendo risultati omogenei e semplificando le procedure di scarico e di stampa dei dati. Nel caso vengano interrogati più archivi, la ricerca eseguita tramite un gateway risulta però appiattita in direzione del minimo comun denominatore fra gli archivi stessi […] (Metitieri-Ridi 2005 pag. 31). Il protocollo si basa sull’architettura client server: prevede infatti l'esistenza di un elaboratore che ospita il server (nel protocollo viene definito target), cioè un insieme di software che rendono possibili le operazioni previste, a cui possono accedere differenti tipi di client (nel protocollo vengono definiti origin), cioè dei pacchetti software residenti su macchine remote, tipicamente dei personal computer. Il server Z39.50 non contiene in sé la base di dati, ma è in grado di accedervi a richiesta del client, risiede cioè ad un livello esterno rispetto al sistema di gestione della base di dati (DBMS) e ha la funzione di filtrare le richieste che arrivano da clients remoti e di indirizzarle al DBMS. Il DBMS interrogato esegue la ricerca e invia la risposta al server Z39.50, il quale a sua volta la trasmette al client richiedente (Scolari 1996 pag. 400). La caratteristica principale dello standard è di essere stato pensato per conoscere la struttura dei DB che va ad interrogare: al momento di avvio della sessione di interrogazione avviene una negoziazione tra client e server durante la quale vengono concordati la sintassi di ricerca, la definizione degli attributi della richiesta e i formati delle registrazioni bibliografiche. La sintassi della ricerca (query type) indica sulla base di quale standard avverrà l’interrogazione, per esempio sugli standard ISO o sul Common Command language. Gli attributi descrivono le caratteristiche dei termini di accesso e possono essere di tipo bibliografico (ad esempio autore persona, titolo), di relazione (ad esempio maggiore di), di posizione (ad esempio prima posizione nel campo) ecc. (Scolari 1996 pag. 403). Le tavole degli attributi consentono di stabilire una corrispondenza tra l’oggetto della richiesta e il contenuto della risposta: sono in continua evoluzione per adattarsi alle necessità delle nuove applicazioni e rendono lo standard aperto e flessibile. I formati delle registrazioni indicano la struttura dei record e possono essere esterni al protocollo (per esempio i formati MARC o SUTRS) o definiti dal protocollo stesso. Attualmente lo standard incorpora non solo le originarie funzioni di ricerca ma anche ulteriori funzioni per il trattamento dell’ILL (Inter Library Loan), dei documenti full-text e delle immagini. Numerosi prodotti di automazione bibliotecaria offrono, accanto ai server che consentono l’interrogazione diretta della base dati con sistemi proprietari e ai server web, anche server Z39.50.
[1] Per rompere l’atteggiamento mentale booleano e query-oriented dobbiamo rovesciare il paradigma convenzionale prima cerca poi esplora. La ricerca attraverso l’esplorazione, il riconoscimento e la scoperta in uno spazio bibliografico ben strutturato dovrebbe essere la prima interfaccia di ricerca offerta a chi fa ricerca di informazioni, potenziata da metodi di espansione di tipo query e da una scelta di operazioni simili. [2] Una ricerca sul clastering di metadati di soggetto è descritta in Hagedorn (Hagedorn-Chapman-Newman 2007). Si riferisce all’applicazione di tecniche di clastering in una collezione di materiali eterogenei come quelli presenti in OAIser <http://www.oaister.org/>. Il lavoro è consistito nell’integrare i risultati delle tecniche di clustering con una classificazione appositamente creata per poi testare i risultati dell’applicazione di diverse tecniche di ricerca a questi record arricchiti proposti agli utenti con un’interfaccia appositamente creata. [3] L’assegnazione automatica ad una classe o categoria (ATC Automated Text Categorization) è utilizzata oggi da grandi servizi bibliografici e studiata da OCLC nell’ambito del progetto CORC per l’inserimento di risorse elettroniche presenti sul web nel catalogo WorldCat (Gnoli-Marino-Rosati 2006 pag. 58). [4] L’insoddisfazione per gli schemi di classificazione enumerativi e gerarchici, come la CDD e la LCC, era stata espressa da Ranganathan già nel 1933 e poi nel 1967 nel suo “Prolegomena to library classification”, dove concepì un metodo di descrizione dei documenti, l’analisi a faccette, e formulò un sistema sperimentale di classificazione a faccette, la Classificazione Colon. [5] Per un esempio del funzionamento di questo tipo di organizzazione di medati di soggetto e della relativa interfaccia si veda il progetto Flamenco search della Berkley school of information <http://flamenco.berkeley.edu/demos.html>. L’interfaccia usa metadati a faccetta gerarchica, li mostra all’utente per facilitarne le scelte, consente all’utente di raffinare la ricerca o di espanderla sempre mantenendo una rappresentazione generale della struttura della raccolta di documenti. Lo scopo è proprio quello di strutturare l’interfaccia in modo che l’utente possa muoversi in uno spazio informativo vasto senza sentirsi disorientato. [6] Un’obiezione a questa assunzione è presente in Ridi (Ridi 2007a pag. 44). [7] La pattern recognition è un’area di studio dell’intelligenza artificiale che studia il funzionamento e la progettazione di sistemi che hanno lo scopo di riconoscere e classificare, all’interno di un insieme di dati, modelli che presentino specifiche proprietà. Questo riconoscimento viene fatto basandosi su informazioni statistiche estratte dai dati stessi o sul confronto con conoscenze precedenti. Ha importanti applicazioni nel campo dell’analisi delle immagini e dei documenti, dell’analisi del linguaggio parlato, dei metodi diagnostici, dell’identificazione delle persone, dell’automazione industriale. [8] L’attuale versione dello standard è la revisione 2003 dello standar ANSI/NISO Z39.50-1995 consultabile sul sito della Library of Congress che è l’ente che si occupa del mantenimento dello standard <http://www.loc.gov/z3950/agency/document.html>. |
| © ESB Forum | a cura di Riccardo Ridi | |