Digital Humanities – Eleonora Luzi

Eleonora Luzi

Dottoranda del Corso in Studi linguistici, filologici, letterari, curriculum Memorie e Digital Humanities presso l’Università degli Studi di Macerata, nel 2015 consegue il diploma del Master FGCAD. Dal 2017 è cultore della materia negli insegnamenti di Informatica documentale, Gestione informatica dei documenti, Archiviazione e conservazione digitale all’interno dell’Ateneo maceratese e nell’anno accademico 2018-2019 riceve un incarico di docenza nell’ambito del Master FGCAD.

Contatti

Linee di ricerca

  • TOPIC Definizione concettuale e realizzazione di strumenti per l’accesso e la fruizione di informazioni e documenti contenuti nei sistemi di conservazione di archivi digitali mediante l’impiego di tecnologie informatiche innovative, metodologie di analisi semantica e algoritmi di intelligenza artificiale.

 L’avvento del documento informatico, sostitutivo a tutti gli effetti di quello analogico grazie alla capacità di mantenere inalterate nel tempo le caratteristiche di stabilità, autenticità, accessibilità e intellegibilità, con la conseguente necessità di ottemperare agli obblighi legislativi che si sono incessantemente susseguiti soprattutto nell’ambito della Pubblica Amministrazione, ha contribuito non solo alla genesi di numerosi sistemi di gestione documentale ma anche alla diffusione di archivi digitali

La graduale trasposizione a questa nuova dimensione spesso ha indotto a pensare – forse illegittimamente – che i principi e gli espedienti dell’archivistica classica per il recupero delle informazioni sedimentate, potessero essere applicabili e applicati anche al contesto digitale, generando di conseguenza non solo molta confusione e perplessità tra il personale preposto alle relative funzioni ma anche una lentezza e una macchinosità amministrativa contraria ai presupposti di snellimento burocratici originari. Ad oggi la situazione – che gode di un progressivo miglioramento – vede l’affermarsi di archivi ibridi, formati tanto da componenti analogiche quanto digitali con un inevitabile propensione all’affermarsi soprattutto della seconda tipologia.Partendo da questa consapevolezza e volgendo lo sguardo ad un futuro non troppo lontano, sorge spontaneo domandarsi come sarà possibile rendere i documenti informatici conservati in modo “permanente” ai fini della memoria storica del soggetto produttore all’interno degli archivi digitali accessibili e consultabili da parte dell’utenza generale. Quali strumenti avremo o dovremmo avere a disposizione per effettuare le ricerche d’archivio quando ci troveremo a confrontarci con la necessità di effettuare ricerche all’interno di un digital repository?

Per tentare di dare una risposta occorre partire da quello che è il modello di riferimento e gli standard che sono alla base della progettazione e realizzazione di un archivio digitale.

Lo schema concettuale su cui attualmente si sviluppano la maggior parte dei sistemi di long term digital preservation è l’OAIS (Open Archival Information System) che prevede l’esistenza di un’organizzazione di persone e sistemi che non solo si assuma la responsabilità della conservazione dell’informazione ma anche che si faccia garante di renderla disponibile ad una designed community, ossia un gruppo di utenti autenticati che possano accedervi ai fini della ricerca limitatamente a necessità giuridico-amministrative. Lo standard ISO 14721:2012 individua l’entità minima conservata nel pacchetto informativo, composto da due elementi: il content informationed i relativi metadati (PDI-Preservation Description Information [1]) includendo – quindi – nel processo di conservazione tanto i documenti informatici che le aggregazioni informatiche documentali quanto i metadati associati e permettendo, di conseguenza, una visione complessiva e organica dell’intero archivio.

I pacchetti informativi trasmessi da un soggetto produttore ad un sistema OAIS vengono denominati SIP (Submission Information Packages) e, una volta analizzati in base agli accordi presi preventivamente con l’ente e accettati nel sistema, vengono trasformati in pacchetti di archiviazione (AIP) destinati alla conservazione.

Gli Archival Information Packages sono a loro volta valorizzati sia al livello di packaging information sia al livello di package description. Questi ultimi in connessione alle content informations e alle Preservation Description Informations da cui spesso derivano, realizzano tutti i punti di accesso possibili al pacchetto informativo considerato tanto come un’entità indivisibile quanto come insieme di parti reperibili separatamente.

Il modello OAIS prevede due tipi di pacchetti informativi di archiviazione: leAIC (Archival Information Collection) e l’AIU (Archival Information Unit); il primo è formato da un insieme di AIP collegati da relazioni e per tanto può essere usato per rappresentare un fascicolo informatico o un’aggregazione documentale informatica; il secondo corrisponde invece ad un oggetto informativo autonomo. Al fine di rendere  i vari canali di accesso attualizzabili è necessario che le fasi di creazione, gestione e conservazione dei contenuti digitali siano progettate in modo tale da poter garantire la valorizzazione di un set di metadati sufficientemente dettagliato ed omogeneo adatto alle esigenze della comunità designata. Gli standard internazionali di riferimento in questo contesto sono: il Dublin Core per i metadati descrittivi, il METS per i metadati amministrativi e gestionali, e PREMIS per i metadati di conservazione.

Alla luce di quanto esposto finora, il primo modello concettuale di accesso ai documenti digitali conservati che si vuole proporre si inserisce ad un livello base di information retrievalsysteme prevede la realizzazione di un applicativo informatico all’interno dell’archivio OAIS dove i destinatari possano interrogare il sistema tramite queries nelle due modalità generalmente previste: keywords e full text. Per ottenere risposte pertinenti e precise, deve essere preventivamente predisposto almeno un vocabolario controllato in cui inserire non solo tutti i marcatori propri dei metadati di descrizione degli AIP e delle AIC (in base agli standard Dublin Core e METS) ma anche i termini standardizzati utilizzati nella creazione dei documenti informatici. Sarebbe opportuno includere tra i lemmi indicizzati anche una lista di sinonimi e di termini equivalenti utilizzati per facilitare la ricerca delle informazioni e quindi scegliendo parole che vengono adoperate comunemente per la consultazione dei documenti. In questo modo quando il sistema verrà interrogato dall’utente restituirà non solo il termine cercato ma anche le eventuali parole analoghe allargando la potenzialità della sua indagine e affinando la rispondenza. Oltre ai vocabolari controllati sarebbe opportuno pensare anche alla redazione di un Thesaurus in cui stabilire le relazioni associative dei concetti, al fine di evitare la ridondanza del linguaggio e di aumentare il richiamo dei documenti rilevanti tra i risultati della ricerca. Questo prezioso ausilio infatti permette di evidenziare tre tipi di relazioni: la sinonimica, la gerarchica e l’associativa. Il controllo terminologico garantito dall’adozione di simili strumenti garantisce il fine di attribuire a ciascun termine il significato peculiare in un dominio specialistico evitando ambiguità e polisemie. In questo modo l’utente potrà trovare non soltanto il documento che cercava ma anche, ad esempio, altri AIP ad esso associato o affini AIU (o AIC) allargando il raggio della propria ricerca in modo attinente; l’interfaccia da implementare all’interno del modulo Access di un attuale modello OAIS, restituirà un elenco di documenti indicizzati tramite cui poter accedere direttamente al relativo contenuto. Inoltre per garantire l’interoperabilità dei sistemi – seguendo ad esempio la struttura del federated archives – sarebbe auspicabile realizzare un collegamento unico per più strutture OAIS così da permettere ad una comunità globale di consumatori di aderire a più depositi digitali con le medesime modalità. In questo caso sarà necessario costituire un catalogo unico del patrimonio informativo e documentario digitale partendo sempre dalla realizzazione di vocabolari controllati e Thesauri.

Estendendo l’analisi a un livello superiore e più generale di information retrievalsystemarriviamo al world wide web, quotidianamente analizzato dai vari motori di ricerca per individuare le pagine contenenti le frasi/parole chiave immesse dagli utenti per le loro indagini. Ma i search engines presentano numerosi limiti e difficoltà che spesso impediscono ai fruitori di ottenere ciò che desiderano (come ad esempio l’accesso controllato alle informazioni o l’impossibilità di interpretare il contenuto dei documenti e di creare collegamenti). Da ciò si è concretizzata la consapevolezza di associare la semantica alle informazioni e dare vita al cosiddetto Web Semantico: un insieme di tecnologie standard che collegano semanticamente fra loro i dati rendendoli interpretabili da specifiche applicazioni. A tal fine e nell’ottica dell’accesso dei contenuti conservati in archivi digitali occorre affrontare i seguenti passaggi funzionali: descrizione dei dati, interpretazione dei dati e inferenza delle informazioni.Partendo dal presupposto che il livello sintattico del web semantico è rappresentato dalla URI e dal linguaggio di marcatura XML arriviamo alla definizione del modello peculiare di applicazione, ovvero l’RDF: uno schema di specifiche per la descrizione e la modellazione di informazioni relative a una risorsa accompagnato dall’OWL (Web Ontology Language) che descrive la conoscenza di un peculiare dominio informativo attraverso la definizione e la realizzazione di ontologie. Utilizzando il modello dell’OWL – estrazione delRDF(Resource Description Framework) – potremmo creare un’ontologia specifica per gli AIP (AIU e/o AIC) che sia in grado di rendere accessibili i documenti digitali conservati nei repositories e di farli diventare disponibili all’interno di un sistema più amplio del federated system e che allo stesso tempo permetta a più tipologie di utenti di fare interrogazioni semplici sulla base delle loro conoscenze e avere comunque risposte pertinenti grazie all’estrazione della conoscenza che questo considerevole strumento è in grado di fornire. Sarà necessario modellare le triple soggetto – predicato – oggetto sulla base dei dati e dei metadati propri di ogni AIP e AIC e memorizzarli in un database specifico in modo tale da essere poi estraibili in informazioni comprensibili dall’utente finale. Tutto ciò potrebbe portare alla realizzazione di un portale informativo semantico come altro strumento di consultabilità dei documenti conservati nei depositi digitali.

Un ulteriore potenziale mezzo per l’accesso ai digital repositories che vada oltre le applicazioni del retrieval information system e del web semantico, prevede l’impiego di uno degli applicativi dell’intelligenza artificiale, nello specifico la ricerca vocale. Questo particolare tipo di interazione uomo-macchina analizza stringhe di parole e utilizza risposte che emulino il linguaggio naturale affidandosi alla semantica, andando oltre le parole chiave e spingendosi ad approfondire il significato contestuale della ricerca. In aggiunta all’immediatezza delle risposte, avvalendosi di questo tipo di tecnologia si ha la certezza di ricevere risultati sempre pertinenti poiché vengono coinvolte informazioni relative al contesto se be formulate rendono migliore sarà la rintracciabilità dei dati che la reperibilità delle parole.I vocabolari controllati e le ontologie di riferimento dovranno essere strettamente pertinenti allo specifico ambito di applicazione così come la struttura semantica, per permettere di creare collegamenti e relazioni tra gli elementi e di formulare queries che partendo dal linguaggio utilizzato dal fruitore vengano poi tradotte in quello tipico dei database, così da restituire risposte attinenti.

Un successivo sviluppo della ricerca vocale è indubbiamente la PASO (Personal Assistant SearchOptimization) che prevede l’utilizzo di tecniche Search Engine Optimization allo scopo di indicizzare i contenuti come fonte delle risposte elargite agli utenti da parte degli Assistenti Digitali. Non apparirà perciò azzardata l’idea di trovarci, in un futuro forse meno remoto di quello che si può immaginare, ad interagire con degli avatar specializzati, personaggi virtuali creati a immagine e somiglianza umana, frutto di un’alta forma di intelligenza artificiale, con opportune e specifiche conoscenze in base alle diverse sezioni di applicazione. Nel nostro ambito di riferimento si potrebbero progettare degli “avatar – archivisti”, programmati in base ai peculiari linguaggi di settore e sulla base degli strumenti di ricerca linguistica e semantica attinenti, creati per la specifica comunità di riferimento in grado di recepire, comprendere e rielaborare i quesiti che vengono avanzati dagli utenti e riformularli nel linguaggio consono per cui sono stati concepiti, con particolare riferimento ai contenuti digitali conservati e ai loro metadati ma anche, grazie all’utilizzo di ontologie, tassonomie e vocabolari controllati, dando espressione al processo tipico della macchina intelligente del “pensare umanamente”, quello cioè che porta il sistema a risolvere un problema ricalcando il pensiero umano.

La rassegna qui sommariamente e superficialmente esposta è una semplice carrellata di potenziali strumenti di ricerca e accesso ai documenti digitali conservati nei repositories da approfondire e sviluppare con applicazioni e applicativi che abbraccino vari livelli delle ICT tenendo sempre in considerazione, due fattori essenziali al fine di un buon risultato finale: 1) la necessità di un corretto e cospicuo uso di metadati all’interno dei pacchetti informativi dei documenti digitali sin dalla fase di formazione (oggi forse presenti in una quantità troppo esigua); 2) l’analisi attenta dei diritti di accesso e di consultabilità dei documenti digitali in ottemperanza alla normativa vigente in materia.

[1]All’interno delle PDI vengono distinte cinque diverse tipologie di metadati: reference information, context information, provenance information, fixity information e access right information.