ESB Forum
ISSN: 2283-303X |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Il Progetto EULER: un modello per l'integrazione di risorse eterogenee nell'ambito della matematicaContributo sul tema "L'innovazione tecnologica ed organizzativa per i servizi di biblioteca",
presentato in occasione del convegno internazionale di studi "Strumenti e
strategie per la costruzione della biblioteca ibrida" (Firenze, 14 febbraio 2001).
di Patrizia Cotoneschi, Valdo Pasqui (in linea da febbraio 2001) Pubblicato anche a stampa in "L'innovazione tecnologica ed organizzativa per i servizi di biblioteca", Genova, Burioni, 2001, p.45-68. AbstractIl documento descrive le esperienze e i risultati raggiunti dal progetto europeo Euler. Euler ha creato un portale per la matematica utilizzando un modello di integrazione di risorse e servizi che si fonda sui due standard dell'interoperabilità al momento più conosciuti: lo schema di metadata Dublin Core e il protocollo di rete Z39.50. Il modello, che nasce da una esperienza di reale integrazione di risorse eterogenee, è esportabile anche in altri settori disciplinari e può ritenersi utile per tutte le comunità che intendono cimentarsi in sistemi "one stop shopping". Il sistema è stato disegnato prestando un'estrema attenzione alle aspettative e alle valutazioni dell'utenza, attuando così l'approccio orientato all'utente, uno degli indirizzi cardine del progetto. Il prototipo realizzato è il punto di partenza per la costituzione di un futuro consorzio che aspira a creare un vero e proprio servizio allargandosi ad altri fornitori e aumentando così il patrimonio informativo accessibile agli utenti finali.
1. Origini, obiettivi ed evoluzioneAlla fine del mese di settembre il progetto Euler ha concluso i suoi trenta mesi di lavoro presentando ai revisori della Commissione della Comunità Europea il prototipo messo a punto per l'integrazione di risorse eterogenee nel settore matematico. Il progetto Euler era stato varato nel 1998 nel quadro di "Telematics for Libraries", il programma europeo di sviluppo di nuove tecnologie per le biblioteche [EULER].Gli obiettivi del progetto si possono sintetizzare nei seguenti punti:
Il progetto ha mantenuto una costante attenzione ai bisogni dell'utenza ed in tutte le sue fasi ha raccolto giudizi e condotto un'attenta ricognizione delle esigenze dei potenziali utenti. Nella fase iniziale è stato messo a punto un questionario dei bisogni informativi con l'intento di disegnare un prototipo realmente corrispondente alle aspettative dei matematici. Il questionario, diviso in due parti, comprendeva le notizie riguardanti le caratteristiche dell’ambiente di lavoro e quelle sulle funzionalità richieste al sistema "one stop shopping" con domande relative alla struttura e all’utilizzo del sistema che il progetto Euler intendeva creare. Il primo momento di verifica sulla soddisfazione dell'utenza è stata la valutazione della versione alpha, sui giudizi raccolti nel secondo questionario si sono basate le modifiche alla versione Beta, anche quest'ultima oggetto di valutazione dell'utenza, ma stavolta i pareri degli utenti sono interpretati da due specialisti esterni al progetto: l'Università di Amburgo [2] che ha condotto una valutazione sulla "usabilità" del servizio Euler e l'Università di Colonia [3] che ha testato il prototipo sul recupero in termini quantitativi e qualitativi [RIEMAN]. 2. I metodi e le tecnicheL'idea di fondo del progetto fin dagli esordi è stata quella di integrare i diversi archivi di risorse già esistenti nel settore matematico preservandone la gestione autonoma locale, questo è il filo conduttore che ha guidato la scelta del modello distribuito e di un'architettura aperta e scalabile che permettesse un facile allargamento ad altri partecipanti.Tenuto conto che i record dei partner differivano notevolmente gli uni dagli altri come sintassi e semantica dei campi così come variavano i linguaggi di interrogazione e i protocolli di accesso, per seguire questo obbiettivo è stato scelto un approccio basato sull'adattamento delle risorse ("resource adaptation") [JOST], che ha portato alla conversione dei dati originali nel profilo EULER-DC (cfr. Appendice 1), una sorta di "linguaggio di commutazione", realizzando una "normalizzazione dei dati" che ha aumentato la qualità della ricerca e le potenzialità di recupero da parte dell'utenza. Sulla base di questa scelta lo sviluppo si è articolato secondo tre assi d'integrazione: risorse, accesso e servizi. 2.1 Integrazione delle risorse Le risorse dei diversi partner possono definirsi eterogenee per:
c) Schemi di classificazione (es. MSC, DDC, LCSH) e soggettazione; d) Uso o non uso delle parole chiave; e) Lingua.
È stata anche sperimentata con successo l'inclusione di dati resi disponibili da partner esterni al progetto quali MPRESS [MPRESS] e l'archivio e-Print arXiv.org [LANL]. Nel processo di mappatura i partner hanno convertito i propri elementi descrittivi nei 15 elementi della specifica Dublin Core [DC] integrati dei campi aggiuntivi che sono stati ritenuti necessari per descrivere alcune delle risorse presenti che non trovavano corrispondenza in nessuno degli elementi del DC. Vista la diversificazione dei dati, il processo di integrazione si è realizzato parzialmente nella mappatura nel profilo EULER-DC ed in altri casi, quali la mancata corrispondenza o assenza di schemi di classificazione, sono stati creati una serie di strumenti informativi che nei diversi momenti della ricerca offrono all'utente la risposta immediata su come sono stati ottenuti i suoi risultati. Dalle maschere è possibile conoscere la tipologia di dati del fornitore selezionato, statistiche sui risultati ottenuti. 2.2 Integrazione dell'accesso Il sistema propone un'interfaccia unica di accesso a tutte le risorse gestite con diverse modalità di consultazione:
2.3 Integrazione dei servizi Terzo momento del lavoro di integrazione portato avanti è stato fornire un servizio comune nel rispetto delle potenzialità di ognuno sotto un comune denominatore: il servizio EULER. I servizi si possono sintetizzare in quattro gruppi:
Il sistema Euler, dopo aver fornito la lista dei record risultato di una certa "query" la localizza negli archivi di origine abbandonando l'ambiente integrato per spostarsi in "locale" da dove si accede ai servizi offerti da diversi fornitori: accesso al full text, fornitura documenti e prestito interbibliotecario. Euler non interferisce con l'ambiente "locale" e l'integrazione si mantiene a livello di schede descrittive comuni. 2.4 Caratteristiche tecniche dell'interoperabilità 2.4.1 Architettura del sistema Il sistema [BERG] è costituito da un insieme di componenti interoperanti organizzati secondo un'architettura client/server che prevede tre livelli funzionali (cfr. Figura 2):
La EULER engine è l'unica componente visibile agli utenti finali verso i quali espone le interfacce di ricerca e visualizzazione dei dati, realizzate tramite maschere e pagine HTML generate dinamicamente, con un uso molto limitato di funzioni JavaScript. Ogni richiesta (interrogazione e browse) formulata da un utente viene "tradotta" dalla EULER engine nella sintassi Z39.50 e inviata simultaneamente a tutti i database server che ospitano le collezioni selezionate. Ottenuta la risposta da ciascun server remoto, questo gateway preleva dai result-set generati un certo numero di record che vengono fusi operando sulla chiave di de-duplicazione, ordinati in base al criterio scelto tra quelli previsti, convertiti in un elenco di riferimenti bibliografici codificati in HTML ed inviati come risposta all'utente. È responsabilità della EULER engine richiedere ulteriori record ai singoli database server in base al numero di "hits" visualizzabili richiesti dall'utente (per difetto 20) e ai duplicati riconosciuti. La pagina contenente la lista dei risultati mostra anche il numero totale dei record selezionati dall'interrogazione e la loro ripartizione per ciascun database interrogato. L'utente può proseguire chiedendo altri record o può scorrere avanti e indietro tra quelli proposti per visualizzarne il dettaglio (full record). La prospettazione analitica di un record comprende gli elementi definiti nello schema EULER-DC e realizza l'integrazione con i servizi supportati dai fornitori delle informazioni, infatti contiene i link (URL) per accedere alle risorse originali (es. record in un OPAC, pagina Web, testo pieno di un pre-print, etc.) e per richiedere servizi ai "proprietari" della risorsa (es. link alla maschera di richiesta di document delivery di un catalogo). Nel prototipo, operativo dal mese di agosto 2000, i componenti tecnologici che implementano l'architettura descritta sono:
Due aspetti rilevanti per fornire agli utenti una visione integrata e omogenea delle risorse sono: i) il trattamento dei caratteri speciali (diacritici, lettere accentate, simboli matematici) e ii) il riconoscimento dei duplicati esistenti tra i record forniti da uno o più database (duplicati locali e non-locali). Queste funzioni sono state in parte affidate al programma ISO-tool che opera sui record di metadata originali e genera un insieme opportunamente modificato che poi viene caricato ed indicizzato nel database locale (server Z39.50):
Il database locale per EULER viene periodicamente alimentato da un programma che esegue un'interrogazione sulla base dati dell'OPAC e converte ciascuno dei record selezionati secondo lo schema EULER-DC, in formato XML, usando gli elementi e i relativi tag mostrati nella tabella dell'Appendice 1. Si tratta di una query complessa che è stata predisposta dopo una fase di test e analisi al fine di selezionare i record bibliografici attinenti le scienze matematiche dall'OPAC che contiene i record bibliografici di tutte le biblioteche dell'Ateneo. Infatti, dato che solo il 50% dei record in catalogo ha un codice di classificazione, non è possibile selezionare questi record operando esclusivamente sui codici Dewey. Pertanto la query utilizza anche il macro-canale di ricerca (i.e. indice) parole-chiave, che combina titoli, soggetti e collane, per estrarre tutti i record che contengono almeno una parola tra quelle presenti in una lista di termini opportunamente selezionati. Dato che la struttura base del record dell'OPAC è di tipo UNIMARC, la conversione operata è indirettamente una mappatura da UNIMARC a Dublin Core. Successivamente il file generato viene processato dal programma ISO-tool per generare la chiave di de-duplicazione e per il trattamento dei diacritici (generazione degli elementi da indicizzare). In Appendice 3 è riportato un esempio di record convertito per alimentare il database EULER locale. 3. Riflessioni e valutazioni critiche di fine progetto3.1 Risultati raggiuntiIl progetto ha concluso la sua attività ottenendo un giudizio estremamente positivo sia per la sua gestione complessiva che per gli aspetti metodologici e tecnici [CONS]. I principali risultati conseguiti sono:
Alcune caratteristiche peculiari sono il "cross browsing", il "cross searching" e l'dentificatore di de-duplicazione che permettono di operare in modo uniforme e integrato sulle diverse collezioni di metadata. Attraverso l'interfaccia unificata l'utente può per esempio accedere ad un pre-print, trovare il testo dell'articolo pubblicato e consultarne una recensione. Come descritto nel par. 2.4 il modello definito si basa su un'architettura distribuita, sul pre-trattamento dei dati originali e sull'adozione di standard comuni a tutti i database dei fornitori d'informazione (schema dei metadata EULER-DC, formato di caricamento e indicizzazione XML, codifiche dei caratteri speciali, profilo EULER per Z39.50). In particolare, la specifica EULER-DC è un punto di riferimento per la descrizione omogena e l'interoperabilità di risorse eterogenee per tipologia e per i sistemi che le ospitano (OPAC, collezioni bibliografiche, cataloghi di pre-print, pagine web, etc.). L'adozione di standard compatibili con quelli internazionali e l'uso di strumenti software di dominio pubblico hanno facilitato la messa in opera del servizio. Queste scelte rendono possibile l'applicazione del medesimo approccio anche a discipline diverse dalla matematica. 3.2 Problemi aperti e limiti riscontrati Un altro risultato rilevante del progetto è stato il continuo confronto con le realtà esterne che si stavano sviluppando, attraverso lo studio analitico dei problemi tecnici, funzionali e organizzativi impliciti nella creazione di servizi con le caratteristiche di EULER. L'accurata analisi delle risorse compiuta nella prima metà del progetto e la prolungata fase di sperimentazione della EULER engine hanno infatti permesso di individuare alcuni aspetti critici indipendenti dall'area di applicazione: i limiti del modello distribuito, la semplicità dell'interfaccia di ricerca, maggiore integrazione dei servizi, ampliamento delle risorse disponibili e nuovi tipi di servizi.
Una delle aspettative più sentite dall'utenza verso un servizio come EULER è la capacità di fornire risposte alle interrogazioni degli utenti con un tempo di risposta basso. L'architettura distribuita su cui si basa il sistema può generare tempi di attesa lunghi quando uno dei database server è fuori servizio o il percorso di rete che lo collega al motore centrale risulta saturo [4]. Del resto il tempo di risposta tende ad aumentare con il crescere dei database server remoti da interrogare simultaneamente. Si tratta di un vincolo strutturale per la scalabiltà del sistema che può essere risolto abbandonando il modello decentralizzato.
Quella sviluppata si articola in una maschera di ricerca base, una avanzata e una per il browse. La scelta dei campi e la terminologia usata sono stati largamente discussi e revisionati. Tuttavia la sperimentazione da parte di ricercatori, studenti e bibliotecari e le valutazioni sulla "usability" [RIEMAN] condotte da un team di esperti della Università di Amburgo hanno evidenziato che gli utenti sono ormai abituati all'uso dei motori di ricerca Internet. Questo determina la preferenza per interfacce con poca informazione testuale e pochi campi, che consentano la formulazione di interrogazioni semplici, con la conseguente riduzione dei canali di ricerca previsti e quindi anche un minor numero di indici nei database server. Il disegno di una interfaccia utente più mirata e curata esteticamente sarà uno dei primi obbiettivi del passaggio dalla fase sperimentale alla costituzione di un servizio effettivo. I partner del progetto hanno deciso di fornire agli utenti solo i riferimenti (link) per accedere ai servizi locali (es. maschera per la richiesta di document delivery e prestito interbibliotecario, accesso al testo pieno di pre-print o riviste). Questa scelta è stata determinata dalla volontà di preservare un'autonomia locale dei fornitori di dati e servizi proprio per le comprensibili difficoltà di uniformare le tipologie di servizi dei fornitori d'informazione e di armonizzare le diverse normative esistenti presso le istituzioni coinvolte. D'altra parte è evidente che per gli utenti sarebbe di estrema utilità disporre di un'interfaccia unica anche per la richiesta dei servizi e per l'accesso alle informazioni primarie. Il raggiungimento di questo obiettivo dipende largamente dalla stipula di accordi tra le istituzioni coinvolte al fine di estendere il livello di cooperazione dalla condivisione/aggregazione dei metadata alla interoperabilità dei servizi per i rispettivi bacini di utenza. L'allargamento della cooperazione a partner commerciali (editori, "book store", fornitori di risorse secondarie) renderebbe più completo il servizio. In tal modo il servizio Euler potrebbe svolgere un ruolo di intermediazione tra gli utenti e i "venditori" delle informazioni implementando funzioni di accesso "pay per view" e di "alert" periodico degli utenti interessati a determinate tematiche o pubblicazioni. Dal punto di vista organizzativo questo scenario prefigura l'evoluzione verso un modello di servizio no-profit, gestito da un consorzio di istituzioni e organizzazioni, con funzioni di "information brokerage" e di negoziazione tra i fornitori commerciali e la comunità dei matematici. ConclusioniL'esperienza maturata con il progetto EULER dimostra la fattibilità di portali tematici capaci di fornire un accesso integrato a risorse eterogenee disponibili attraverso Internet.A tal fine sono determinanti aspetti di tipo tecnico e organizzativo. Rientrano nella prima categoria l'adozione di standard per la descrizione delle risorse (metadata) e per l'interoperabilità dei sistemi. La specifica EULER-DC, che estende parzialmente il set di metadata Dublin Core, può essere valutata come utile punto di partenza anche per altre iniziative simili, per esempio in contesti che includono discipline diverse. In futuro è ipotizzabile che sistemi di questo tipo adottino il set di elementi base Dublin Core per garantire l'interoperabiltà tra risorse eterogenee, demandando a insiemi specializzati di metadata l'aggiunta di informazioni specifiche per determinate risorse e aree tematiche. Il modello funzionale ormai consolidato prevede la distinzione tra il livello del fornitore di servizi e quello del fornitore di informazioni, affidando al primo compiti di intermediazione nei confronti degli utenti finali e al secondo la messa a disposizione dei metadata e delle risorse (cfr. anche DNER e OAI). Al contrario l'architettura tecnologica può essere di tipo più o meno distribuito, può utilizzare approcci di tipo "query distribuite" e "cross search" (sperimentato in EULER) o di tipo "harvesting" o anche un misto delle due, attraverso protocolli standard (Z39.50, HTTP, DIENST). La scelta dell'architettura tecnica è in parte influenzata da valutazioni legate alle prestazioni ed alla scalabilità del sistema da realizzare, ma anche da fattori organizzativi legati al livello di autonomia che si vuole garantire ai fornitori d'informazione e alla maggiore o minore complessità delle attività che essi devono svolgere e dei sistemi che devono gestire. Infine, dal punto di vista organizzativo è fondamentale la definizione di accordi cooperativi tra gli organismi, le istituzioni e i fornitori commerciali coinvolti per definire ruoli, compiti e responsabilità all'interno del nuovo modello funzionale della biblioteca digitale. Riferimenti[BERG] Berggren M. & Brümmer A., "D3.1 Design Considerations for the EULER project" (versione pubblica di un rapporto interno del progetto).[http://www.emis.de/projects/EULER/Reports/pD31.html] [CONS] "Consensus
Review Report".
[DC] "Dublin Core
Metadata Element Set, Version 1.1: Reference Description".
[DESIRE] Development
of a European Service for Information on Research and Education.
[DIENST] "Dienst
Architecture Summary Description".
[DNER] Distributed
National Electronic Resource, Resource Discovery Network.
[EULER] EULER
Project.
[EUROPAGATE]
Europagate.
[LANL] arXiv.org
e-Print archive.
[GILS] "Application
Profile for the Government Information Locator Service (GILS)". (ultimo
aggiornamento 24 Novembre 1997).
[JOST] Jost
M., "Resource Adaptation in EULER".
[MPRESS] MPRESS
database.
[OAI] Open Archives
Iniziative.
[RIEMAN] Rieman
J, Franzke M. et Redmiles D., "Usability Evaluation with Cognitive Walkthrough".
[ZEBRA] The
Zebra Server.
[Z39.50] Z39.50
Maintenance Agency.
Appendice 1. La specifica EULER-DC
Nota
Appendice 2. Esempio di trattamento dei caratteri speciali<CR>Br\"{ u} mmer, Anna<CR> Output: <CR>Brümmer, Anna<CR> <CRI>Brummer, Anna</CRI> <CRI>Brò mmer, Anna</CRI> <CRI>Bruemmer, Anna</CRI> Appendice 3. Record estratto dall'OPAC dell'Università di Firenze e covertito in formato EULER <REC>
<REC>
[1] FIZ Karlsruhe, Dept. Math & Comput.Sci, Berlin; The European Mathematical Society; Technische Universitat, Berlin; Netlab, University Library, Lund; Cellule de Coordination Documentaire Nationale pour les Mathematiques, Grenoble; Staats-und Universitatsbibliothek, Goettingen; Centrum voor Wiskunde en Informatica, Amsterdam; Università degli Studi di Firenze. [2] Department of Library and Information Studies [3] Department of Library and Information Studies [4] Nella EULER engine questi problemi sono stati aggirati introducendo delle soglie di attesa basse per dichiarare non operativa una connessione e rinunciare ad utilizzarla, comunque a discapito della completezza del risultato. |
| © ESB Forum | a cura di Riccardo Ridi | |