ESB Forum
ISSN: 2283-303X |
||
Indicizzazione semantica nell'era digitaledi Claudio Gnoli (in linea da dicembre 2002) Testo dell'intervento presentato alla tavola rotonda sul Progetto di rinnovamento del Soggettario, organizzata a Roma il 17 ottobre 2002 dal GRIS e dalla Biblioteca nazionale centrale di Firenze, nell'ambito del 49esimo congresso nazionale dell'AIB (Bibliocom 2002) Dal punto di vista teorico, è indubbio il valore di uno strumento di indicizzazione per soggetto rigoroso e coerente, rispetto alle applicazioni di information retrieval più brutali, basate sulla semplice corrispondenza tra parole cercate e parole presenti nei documenti. Ma nella pratica, possiamo sperare di applicare con successo un soggettario italiano all'indicizzazione di documenti digitali? Per esprimere la mia opinione di fondo vorrei riferirmi, come ho già fatto altrove, a queste parole scritte già trent'anni fa da Brian Vickery, del "Classification research group": "Vari meccanismi sono ora a nostra disposizione, come le schede perforate a selezione manuale ed a selezione meccanica. [...] I sistemi meccanici cambiano solamente il meccanismo di ricerca (cioè le operazioni materiali mediante le quali la ricerca viene effettuata), mentre non modificano i problemi di base dell'analisi a soggetto. La struttura di un campo specializzato, così come è definito dall'analisi a faccette, resta la stessa, e la stessa tabella di classificazione può essere adatta indifferentemente alla selezione meccanica ed al catalogo su schede." Nel contesto attuale, tuttavia, mi sembra che l'applicazione di un nuovo Soggettario ai documenti digitali si troverebbe a dover affrontare diversi problemi concreti: proverò quindi a considerarne brevemente qualcuno. (1) Forse il problema principale è quello del costo dell'indicizzazione. Come ben sappiamo, la mole dei documenti digitali, sia ad accesso locale che sulla rete Internet, sta crescendo spaventosamente. Di fronte a questa situazione, sono state sviluppate diverse forme di indicizzazione meno sofisticate di quelle della biblioteconomia tradizionale, che possiamo elencare in ordine crescente di quantità di lavoro umano necessario a produrle:
Confrontata con questi strumenti, l'indicizzazione per soggetto si presenta chiaramente come un procedimento costoso, in termini sia di tempo necessario per indicizzare un singolo documento che di personale competente nell'uso di uno strumento specialistico. Applicata a documenti digitali, essa quindi si troverebbe inevitabilmente in competizione con strumenti meno raffinati ma già diffusi ed economici, e difficilmente riuscirebbe a coprire quantità di documenti altrettando grandi: appare se mai più probabile una sua applicazione a insiemi limitati di documenti specifici. Tuttavia, la prospettiva dell'interoperabilità suggerisce un'alternativa: quella di allearsi ai "rivali", fornendo uno strumento più rigoroso che potrebbe affiancarsi ad altri per l'accesso agli stessi documenti. Un notevole esempio di questo approccio multiplo è offerto dal sottoprogetto di "CORC" dedicato all'applicazione della classificazione Dewey, denominato "Scorpion" <http://purl.oclc.org/scorpion/>. Anche l'indice per argomenti "Librarian's index to the Internet" <http://lii.org/advanced> offre tra le interfacce di ricerca una lista di soggetti LCSH. Inoltre, i termini preferiti e non preferiti raccolti dal Soggettario potrebbero essere sfruttati come un affidabile vocabolario di riferimento in singole fasi di processi di ricerca, o all'inverso di indicizzazione, applicati a testi in linguaggio naturale. Chiaramente quindi occorre assumere la prospettiva di una integrazione, piuttosto che contrapposizione, fra strumenti della tradizione bibliotecaria e tecnologie più recenti. (2) Un'altra questione da considerare è quella della lingua: possiamo chiederci se abbia senso indicizzare in italiano nel momento in cui ci muoviamo in un contesto interconnesso su scala globale. Tuttavia, anche in questo caso l'informatica potrebbe permetterci di utilizzare strumenti automatici per gestire l'equivalenza fra termini di diverse lingue, così come fra termini di diversi linguaggi: ad esempio, "CORC" applica agli stessi documenti soggetti LCSH, classi DDC e metadati Dublin Core, attraverso un apposito software che confronta le parole del testo del documento con le registrazioni degli archivi LCSH e DDC, e ne estrae automaticamente possibili stringhe di soggetto e di classe, che vengono poi vagliate e ritoccate dagli indicizzatori umani. In questo senso, è particolarmente interessante la previsione di inserire nelle voci del nuovo Soggettario un campo per il numero di classificazione corrispondente: infatti, uno schema internazionale e diffuso come la DDC potrebbe fungere da ponte fra il Soggettario, considerato come archivio semantico di riferimento per la lingua italiana, e cataloghi redatti in lingue e linguaggi diversi. (3) Un terzo aspetto possiamo definirlo come problema della precoordinazione. L'approccio precoordinato, tipico della indicizzazione per soggetto, viene indicato nello studio come quello da adottare. In apparenza questa idea è in contrasto con la situazione della ricerca in ambiente digitale, nella quale al contrario i risultati più efficaci sono dati dalla coordinazione a posteriori di una combinazione di diversi termini formulata sul momento dall'utente in base ai propri bisogni. Tuttavia, una struttura faccettata delle stringhe di soggetto, come quella che il nuovo Soggettario si propone di adottare sulla base delle esperienze di PRECIS e GRIS, può funzionare a questo scopo allo stesso modo di un'indicizzazione postcoordinata: infatti, l'information retrieval ci consente di recuperare parole poste indifferentemente all'inizio o all'interno delle stringhe di soggetto, purché la categorizzazione adottata in tutte le stringhe segua dei principi coerenti. Inoltre potrebbe qui rivelarsi molto preziosa l'idea, accennata nello studio, di una modularità del linguaggio, se davvero "le due strutture, quella semantica e quella sintattica, sono integrate nel sistema come strutture distinte e, all'occorrenza, separabili". A questo proposito, se da un lato è vero che le stringhe di soggetto precoordinate sono scarsamente e male sfruttate nei nostri opac, questo perlopiù non è dovuto a una scarsa efficacia dello strumento soggetto in sé; bensì a una sua scarsa considerazione da parte della grande maggioranza degli opacmaster, che schiacciano soggetti e classi in campi singoli, spesso neppure navigabili o ricercabili, relegandoli così a puro elemento informativo accessorio alla descrizione ISBD, e dimostrando di non averne affatto compreso la potenza espressiva. Ricordando l'opinione di Eugenio Gatto, secondo cui lo sfruttamento dei dati semantici negli opac è ancora oggi in una fase "preistorica", non posso quindi che approvare energicamente, auspicando che porti a qualche sviluppo, il seguente passaggio dello studio: "Questa, dunque, è una buona occasione per ripensare le modalità di gestione e di ricerca nei cataloghi. È quello che cerca di fare il "Progetto esecutivo", indicando alcuni requisiti informatici minimi, cosicché i software di catalogazione siano dotati di meccanismi di base coerenti con i principi generali del nuovo linguaggio." Insomma, se le tecniche avanzate di indicizzazione semantica sono ancora poco sfruttate dagli utenti, forse non è colpa dell'ottusità di questi, né dell'inadeguatezza dello strumento, bensì di bibliotecari e informatici che non lo prendono abbastanza sul serio, investendoci poco con la scusa che le più banali ricerche per parola sono maggiormente utilizzate. Può quindi valere la pena di tentare di rompere questo circolo vizioso, producendo qualche esempio dell'efficacia delle tecniche dell'indicizzazione semantica.
|
| © ESB Forum | a cura di Riccardo Ridi | |