Introduzione

1. Introduzione

Nel programma del prof. Riccardo Ridi si parla di ricerca e di ricerca a testo intero segnatamente in:

2.4 Banche dati
2.8 Servizi innovativi e Data mining
3.5 Interfaccia di ricerca

Scaletta e note della conferenza:

full-text vs ? "parziale"
ricerca parziale
strutturazione
attualità della ricerca a testo intero
motore di ricerca
indici
riferimenti a software per la ricerca a testo intero
ISYS: la suite
lista di prestazioni per i programmi di ricerca a testo intero e confronto con ISYS
Nuovi modi di recuperare informazioni (information retrieval)
"Allargamento": approssimazione, fuzzy
Gestione di ISYS

Full text search (FTS): Ricerca sull'intero testo (a testo pieno) non è affatto una novità, circa 30 anni fa in Italia già si usava lo STAIRS dell'IBM.
Relativamente poco comune nelle biblioteche, da sempre molto piu' nei Centri di documentazione (vexata quaestio sulla loro natura).

In cosa è diversa dall'altra? E qual è l'altra?
L'altra è una ricerca parziale (nessuno la definisce così, me ne assumo la responsabilità).
Non interroga il documento primario. Interroga il documento secondario che è strutturato in campi diversi, anche per funzione. E' strutturato dall'uomo e il contenuto dei campi è spesso normalizzato.
Non tutti i campi vengono resi ricercabili (quantunque sempre di piu' e mentre cio' sembra essere una regalìa tecnica, può anche essere un'alterazione dei principi del catalogo, cfr. principi di Parigi del 1961).
Gli strumenti software privilegiati per questo tipo di ricerca sono quelli che interrogano database, archivi strutturati: dagli IRS (information retrieval systems) applicati a database ad es. su CD (compact disk) (CDS/ISIS, Dataware) a SQL (structured query language), ai linguaggi propri dei vari IOLS (integrated online library systems) con cui si realizzano gli OPAC (online public access catalog)

Strutturazione
La strutturazione può fare parte anche dell'oggetto della FTS.
Lo era poco, lo è sempre di più con la marcatura derivata da SGML (standard generalized markup language): HTML, XML e sue DTD (document type definition), quando cioè i documenti nascono digitali pensando alla loro utilizzazione in ricerca avanzata, anche per un'analisi testuale.
Ce ne era e ce ne e' pochissima in documenti passati allo scanner, scritti con wp, trovati, ricevuti ...

Stutturazione intrinseca
In aggiunta, ogni documento ha una sua intrinseca organizzazione con partizione definita perché legata inscindibilmente alla struttura: nome del file, estensione, ubicazione, dimensione, data creazione, prima, ultima ... parola, prima ... ultima riga, idem per paragrafo, lettera ... quindi calcolabili anche le distanze fra lettere, parole, paragrafi.

Attualità della ricerca a testo intero
La FTS guadagna molto campo con il web, con collezioni digitali omogenee e magari da studio e coi documenti ibridi che si trovano già nel web e sulla nostra scrivania (e-mail, citazioni bibliografiche, passaggi presi da testi, appunti, segnalazioni di eventi, siti, libri, propri scritti in formati vari, file compressi, presentazioni, fogli elettronici .... cfr. Formati dei file)

Sono strumenti di FTS i motori di ricerca per Internet (search engines) che hanno versione pubblica e commerciale con varie declinazioni per siti o data warehouse privati.

Interfaccia di ricerca
La FTS influenza l'interfaccia di ricerca.
Un software di ricerca parziale, imperante nei nostri OPAC è basato su una ricerca per campi, offre quindi senz'altro una ricerca che tenga conto dei campi, che possa mostrare il contenuto dei campi in formato di lista (anche a causa del lavoro di normalizzazione che c'è alla base: lista di intestazioni controllate -authority file- al massimo livello), puo' poi offrire anche una ricerca più potente e 'cieca'.
Ciò ha molto meno senso in una FTS: spesso non c'è normalizzazione preventiva, campi ce ne sono pochi o nulla, la ricerca più comune è quella alla "cieca", sull'intero (appunto full-text).
Teniamo comunque presente quanto si è detto su SGML, e documenti ibridi.

Motore di ricerca
Gli strumenti di ricerca cambiano: si avvicinano molto di più a quelli dell'analisi testuale che usano più matematica per estrarre significato, pertinenza (prossimità fisica ...).
Oggi sono il terreno di applicazione dell'intelligenza artificale per il data mining, per la robotizzazione della ricerca.

Ma nell'una e nell'altra non si cercano i dati, si cercano gli indici.