Pagina precedente
2. L'indice  Ricerca a testo intero / Francesco Dell'Orso, Università di Perugia - 4 / 17   Pagina successiva
3. Full-text software packages Indietro
2. L'indice
      2. L'indice
 2.1. Interventi basilari nell'indicizzazione

Anche dietro una lista di parole estratta da un testo c'è un indice e dunque delle regole:

Come vengono trattati nei dati che vanno resi ricercabili (e nella stringa di ricerca formulata da chi interroga)

1.
minuscolo e maiuscolo
accenti
trattini
apostrofi
punteggiatura
numeri, cifre con punti e virgole
date (AAAA/MM/DD, MM/DD/YYYY ...)
cosa è una parola (e: cosa è una parola ma viene scartato: stopwords: in che modo viene scartato?)
parti escluse (ad es. se marcate, o esterne: nome file, doc summary) o viceversa incluse (le medesime)
ordinamento della lista:
albi notarili
albino

cfr. per il nostro caso specifico: Utilities: opzioni avanzate

e come vengono trattati
2.
plurale/singolare
maschile/femminile
sinonimi semantici
sinonimi fonetici
sinonimi lessicali
equivalenza in altre lingue
coniugazione verbale
desinenze

questa è un'esemplificazione di quanto c'è  (1.) comunque o ( 2.) talvolta in un indice "creato solo dalla macchina" cioè con istruzioni di programma, ma senza alcun intervento umano dentro al testo primario (come è invece il caso dei classici documenti secondari: le schede prodotte dai bibliotecari e da chi alimenta database: anagrafe, criminali etc.)

questi elementi vengono comunque in gioco nell'indice (anche, come già accennato, in un passo ad esso precedente che è l'intercettamento e il passaggio della richiesta, input manipulation):

 vengono trasformati ?

 contano, fanno differenza, quale?

 non contano: cioè sia scrivendo che non scrivendo valgono lo stesso e cosa valgono: nulla, blank altro ?

d'annunzio
dannunzio
annunzio
d annunzio

pèche
pêche
peché

e così per . , ; : _ -  etc. etc.

1.953
1,1953
1953
1 953
1 9 5 3


Indice generale

25/11/2004 11:43:48