Anche dietro una lista di parole estratta da un testo c'è un indice e dunque delle regole:
Come vengono trattati nei dati che vanno resi ricercabili (e nella stringa di ricerca formulata da chi interroga)
1.
minuscolo e maiuscolo
accenti
trattini
apostrofi
punteggiatura
numeri, cifre con punti e virgole
date (AAAA/MM/DD, MM/DD/YYYY ...)
cosa è una parola (e: cosa è una parola ma viene scartato: stopwords: in che modo viene scartato?)
parti escluse (ad es. se marcate, o esterne: nome file, doc summary) o viceversa incluse (le medesime)
ordinamento della lista:
albi notarili
albino
cfr. per il nostro caso specifico: Utilities: opzioni avanzate
e come vengono trattati
2.
plurale/singolare
maschile/femminile
sinonimi semantici
sinonimi fonetici
sinonimi lessicali
equivalenza in altre lingue
coniugazione verbale
desinenze
questa è un'esemplificazione di quanto c'è (1.) comunque o ( 2.) talvolta in un indice "creato solo dalla macchina" cioè con istruzioni di programma, ma senza alcun intervento umano dentro al testo primario (come è invece il caso dei classici documenti secondari: le schede prodotte dai bibliotecari e da chi alimenta database: anagrafe, criminali etc.)
questi elementi vengono comunque in gioco nell'indice (anche, come già accennato, in un passo ad esso precedente che è l'intercettamento e il passaggio della richiesta, input manipulation):
vengono trasformati ?
contano, fanno differenza, quale?
non contano: cioè sia scrivendo che non scrivendo valgono lo stesso e cosa valgono: nulla, blank altro ?
d'annunzio
dannunzio
annunzio
d annunzio
pèche
pêche
peché
e così per . , ; : _ - etc. etc.
1.953
1,1953
1953
1 953
1 9 5 3