Venerdì, 19 Febbraio 2016 19:59

ICT ADO. L'informatica a servizio dell'archivio

Potenzialità e limiti, opportunità e problemi

Attenzione: testo in fase in aggiornamento

L'informatica, tra i tanti partner di vita, da un certo tempo vive un forte sodalizio anche con l'archivistica.

 

Entrata, come in molti altri ambiti, in modo spontaneo e silente negli archivi a tratti sembra essere una risorsa, ma a tratti sembra essere un problema e un costo.

In queste pagine proviamo a vedere più da vicino questa moderna coppia, per capire se è un matrimonio che ha futuro oppure no. Obiettivo è evidenziare quegli aspetti normalmente taciuti o sottovalutati che, invece, sono fondamentali.

In particolare vedremo gli aspetti informatici (natura del bit, i limiti delle soluzioni informatiche e l'argomento degli standard), ma anche quelli archivistici nel segmento di sovrapposizione delle due aree.

In fine un accenno alla nuova frontiera dei big data che potrebbe, con le sue tecnologie, offrire soluzioni altrimenti impossibili.

Un piccolo viaggio che vorrebbe essere un mini vademecum informatico per gli archivisti non informatici.

1. Introduzione

Informatica e archivistica sono un matrimonio di fatto consolidato, ma ad una attenta considerazione è più corretto descriverlo come una difficile convivenza.

Sovente è difficile per l'inadeguata conoscenza dell'informatica da parte dei (responsabili) archivisti. Dall'altra parte (troppo) facilmente si incontrano informatici che considerano l'informatica per l'archivio come un'automazione di un ufficio qualsiasi.

Peccato! Perché l'informatica, anche se tuttora infante, ha raggiunto traguardi che permettono risultati semplicemente eccezionali (si pensi all'acceso ai documenti senza toccarli, piuttosto che l'elaborazione linguistica).

In questo saggio proviamo a mettere un po' di luce sui limiti e sulle opportunità offerte dall'informatica all'archivistica. Obiettivo ultimo è quello di dare una maggiore (adeguata?) consapevolezza dei limiti e delle opportunità che derivano dal connubio.

Iniziamo indagando le proprietà fondamentali dell'informatica (il bit e gli standard) per passare alle conseguenze immediate per l'archivio. Quindi una essenziale presentazione degli standard informatici che bisogna conoscere (almeno come concetto). Infine una rassegna dei limiti e delle potenzialità offerti dai computer e dalla digitalizzazione.

Il nostro archivio di riferimento è l'archivio storico.

Chissà se una difficile convivenza può diventare un felice matrimonio.

2. Risorsa “bit”: problemi e limiti

Iniziamo con una inconsueta panoramica dell'informatica. Obiettivo è mettere in luce i limiti ed i problemi che affliggono l'informatica e che nel matrimonio con l'archivistica né causano la ridotta compatibilità.

Presupponendo la conoscenza base dell'informatica affrontiamo l'argomento in modo limitato e semplificato. Alcuni concetti tecnici, comunque, vanno espressi, compresi ed appresi.

Iniziamo dal mattoncino base, il bit, descrivendo come diventa usabile solo grazie agli standard. Quindi passeremo a vedere gli aspetti informatici specifici dell'archivistica per passare, poi, ad illustrare i limiti dell'hardware. Infine ci sarà una piccola considerazione sulle conseguenze archivistiche.

2.1. La base dell'informatica

L'informatica evoca idee di macchine assolutamente precise e forme di intelligenza artificiale che non sbaglia mai.

Probabilmente riconduciamo queste virtù dell'informatica al suo mattone base: il bit! Infatti la caratteristica base del bit è di essere bi-univoco: o è “1” o è “0” e non esistono altri valori possibili. Per semplificare la trattazione consideriamolo univoco.

Questa proprietà binaria del bit, però, non si propaga nell'uso reale. Anzi l'impiego crea uno scenario di confusione totale. Per capire questo concetto bisogna spiegare un paio di altre idee. Pertanto chiedo un po' di pazienza per seguire l'argomentazione.

  • Il bit viene usato dai computer in blocchi, normalmente, di 8

  • i blocchi di 8 bit, detti “byte”, hanno un significato arbitrario

  • “significato arbitrario” vuol dire che c'è un accordo internazionale.

    Ad esempio, nello standard ASCII, il byte “1000001” significa “A” solo perché si è deciso così, ma potrebbe significare “B” o qualsiasi altra lettera

  • sopra questo primo strato di organizzazione dei bit si pongono altri standard, come, ad esempio, l'HTML o il Java Script (normalmente abbreviato con JS).

    Ecco due esempi, che partendo dalla codifica dei bit in lettere, si usano le lettere per comporre parole in linguaggio HTML ed JS:

 

Titolo

Primo esempio di HTML


 

/* esempio JS */

document.write("

Titolo

");

document.write("

Primo esempio di JS

");

Gli standard sono moltissimi e, normalmente, si usano come strati reciprocamente sovrapposti. Continuando l'immagine si potrebbe assomigliare il lavoro dell'informatico ad un pasticciere che sovrapponendo correttamente strati di ingredienti diversi crea dolci.

Da questa esemplificazione si può intuire la grande complessità che nasce dal bit: partendo da una origine semplice e univoca si arriva ad una realtà articolazione e del tutto arbitraria.

Ma lo scenario si complica ulteriormente. Nella nostra esperienza quotidiana conosciamo svariate realizzazioni informatiche: computer, tablet, cellulari, televisori, ecc...

Due esempi per capire l'incompatibilità tra i diversi dispositivi:

  • se prendiamo il microprocessore del computer e lo mettiamo nel tablet, il nostro tablet non funziona

  • se prendiamo l'app che gira sul cellulare e la mettiamo nel PC, questa app non funziona.

Al contrario, soprattutto negli ultimi tempi, assistiamo ad una convergenza che permette intercomunicazione ed interazione tra i diversi dispositivi. Pertanto possiamo con il cellulare controllare la TV, vedere le trasmissioni televisive con il computer, ecc...

Perché questa presentazione e che cosa significa? L'informatica funziona bene, le strumentazioni dialogano reciprocamente solo perché si sono stabili degli standard e tutti gli informatici li rispettano diligentemente.

Inoltre l'apparente semplicità e intuitività degli apparecchi (soprattutto quelli più recenti) nasconde un'enorme complessità.

Un buon prodotto di informatica (ed un bravo informatico) è buono non se funziona, ma se è in grado di parlare-comprendere molti standard.

2.2. L'informatica archivistica

L'argomentazione del capitolo precedente si propaga anche in domini non informatici come il settore linguistico ed archivistico.

Cosa comporta per l'archivistica?

Tralascio volutamente gli aspetti strettamente archivistici e focalizziamoci sull'asset informatico.

Come in molti settori anche nell'archivista l'informatica ha fatto il suo ingresso in modo spontaneo e destrutturato. Quindi, spesso, nella prima fase il computer e il supporto elettronico è entrato guidato dal solo criterio “funziona”. Solo successivamente si è spostato il fuoco dell'attenzione sugli standard.

Altro argomento da approfondire è il concetto di “standard”. Probabilmente per molti, ad esempio, parlare dei file Word può essere sinonimo di standard. Questo abbinamento, però, è parzialmente improprio. Anche in questo caso chiedo la collaborazione per seguire l'argomentazione.

Gli standard possiamo raggrupparli in tre grandi famiglie: custum, industriali e open.

Approfondiamo:

  • custum: ovvero “personali”. Un esempio può essere la classificazione degli scritti di Don Orione per volume, piuttosto che per natura. Nella trasposizione elettronica di questa regola abbiamo le etichette “V001”, “V002”, ecc...

  • industriali: un buon esempio sono i file Word. Per semplificare l'esposizione pensiamo ai vecchi file DOC.

    In primo luogo “industriale” significa che il proprietario dello standard è l'industria che lo ha registrato. Ciò ha una serie di conseguenze:

    • normalmente lo standard risponde a bisogni considerati di rilievo da parte dell'azienda (pertanto i requisiti scientifici sono, di norma, non presi in considerazione)

    • lo standard proprietario incorpora avversative economiche e di riservatezza (per conoscere le specifiche tecniche bisogna comprarle, l'acquisto prevede la firma di un accordo di riservatezza, l'uso di questi segreti prevede il pagamento sulla distribuzione come royalty)

    • il proprietario modifica lo standard a suo piacimento e non è tenuto a garantire la retro-compatibilità.

    Un esempio eloquente è proprio il formato Word che ha tutte le caratteristiche sopra descritte. In primo luogo il formato precedente al 2007 (il tradizionale DOC) è un formato binario. Ciò significa che può essere usato solo da programmi (cioè non è possibile guardare dentro il file e vedere le parole) e se il file è corrotto o non si conoscono i segreti dello standard non è possibile ricostruire le parole contenute.

    I formati precedenti al 1997 da tempo non sono più mantenuti. Ciò significa che è improbabile riuscire a decodificarli. Inoltre la decodifica non garantisce di preservare l'impostazione tipografica.

    Ultima, ma non ultima, considerazione da fare è che le diverse versioni dello standard DOC non sono reciprocamente compatibili. Pertanto a seconda della versione del file DOC serve un algoritmo (completamente) diverso per poterlo decodificare.

    Normalmente restiamo soddisfatti dal fatto che i file funzionano (cioè riusciamo a leggerli e stamparli), ma la soluzione proprietaria va in senso opposto ai requisiti archivistici: non è adatto alla conservazione, non adotta standard universalmente accessibili ed è difficile la promozione dell'utilizzo/consultazione per i limiti d'uso imposti dalle licenze (e dalla tecnologia).

  • Open: si tratta di formati mantenuti da comunità scientifiche o da istituti internazionali (come IEEE, ISO, W3C, TEI, ecc...). Le caratteristiche principali sono:

    • le specifiche nascono da bisogni scientifici e tecnici

    • gli aspetti tecnici dello standard sono di pubblico dominio. L'apprendimento e l'uso non ha avversative di riservatezza, né di costi, né di altre restrizioni

    • le specifiche sono stabili nel tempo, di lunga duratura e cercano di mantenere la (retro-)compatibilità

    • cambi e aggiornamenti avvengono con grande consenso delle comunità che li supporta.

    Un superbo esempio di questo approccio è l'HTML. Uno standard nato alla fine degli anni 80, diffusissimo anche oggi e usato da moltissimi strumenti (computer, cellulari, tablet, ecc...). I documenti creati allora sono completamente leggibili anche dai moderni programmi.

2.3. Limiti hardware

Fino a questo punto ho descritto aspetti software (cioè i bit ed i programmi). L'informatica, però, ha altri limiti da conoscere. I principali sono:

  • dipendenza elettrica: ciò significa che senza corrente elettrica le dotazioni IT non funzionano. Anche le informazioni diventano totalmente inerti e inaccessibili.

    Altro aspetto, non secondario, è necessaria una corrente con precise caratteristiche. Ad esempio se colleghiamo la batteria dell'auto al computer non funziona

  • obsolescenza: si tratta dell'invecchiamento. Nel campo dell'elettronica ci sono quattro declinazioni:

    • commerciale: è l'invecchiamento e superamento dei modelli (e degli standard commerciali) per meccanismi commerciali che rimpiazzano componenti e dispositivi al fine di tenere vivace il mercato e causano la non reperibilità dei modelli precedenti e, quindi, l'impossibilità di accedere alle informazioni e funzioni.

      Un esempio sono i dischi Zip di pochi anni fa. Scomparsi dal mercato in poco tempo tutte le informazioni archiviate su questi dischi sono inaccessibili e non è più possibile trovare i device di lettura

    • tecnologica: è causata dalle nuove tecnologie. Ciò si articola nella componentistica elettronica (pertanto i dispositivi non sono più riparabili), nei device finiti (pertanto i dispositivi, come le parti meccaniche, diventano introvabili e non sostituibili), nei media (pertanto dischetti, dischi, CD, SD card, ecc...) diventano introvabili ed i modelli più recenti non funzionano sui lettori più datati) e nei consumabili (pertanto i nuovi inchiostri, piuttosto che i nuovi ricambi per le parti che si consumano, non sono compatibili con i dispositivi precedenti)

    • usura: è causata dal consumo delle parti. Esiste una usura meccanica (come quello dei gommini, dei perni, delle ventole, ecc...) ed una usura dei componenti elettronici causata dai flussi di energia (elettrica, luminosa, magnetica, ecc...) e dal tempo (le proprietà elettroniche e fisiche dei materiali si degradano nel tempo)

    • architettura: è causata dall'avanzamento delle conoscenze e dall'invenzione di nuove soluzioni che rendono incompatibili le diverse soluzioni. Per semplificare l'assunto è come voler infilare un cilindro in un foro quadrato.

      Tornando nel dominio dell'informatica gli attuali PC hanno un'architettura elettronica diversa dai precedenti. Installare una vecchia CPU, piuttosto che una vecchia memoria, in un moderno PC non funziona. Inoltre anche i sistemi operativi ed i programmi smettono di funzionare se l'architettura che suppongono non è compatibile.

      La conclusione è sempre che il vecchio non funziona e non è né riutilizzabile né recuperabile

  • durata delle registrazioni: è la permanenza delle informazioni sui media come dischi, CD, DVD, SD card, pen drive, ecc... Ogni dispositivo sfrutta delle proprietà fisiche per registrare le informazioni. La proprietà più usata è il magnetismo. Ma tutte le tecnologie inventate fino ad oggi sono afflitte dalla limitata durevolezza (poche decine di anni). Le “vecchie” tecnologie (come la carta, le incisioni, ecc...) hanno invece una comprovata durevolezza di migliaia di anni (tra le testimonianze più antiche ci sono i cocci di Ebla che hanno oltre 4000 anni).

Al termine di questa piccola rassegna è evidente che tutte le soluzioni IT, nel campo dell'archivistica, hanno limiti che le squalificano. Anticipando che ci sono elementi che superano la somma dei limiti, va almeno altrettanto evidenziato che è necessaria una piena consapevolezza e avvertenza dei limiti e delle implicazioni che ne derivano.

2.4. Conseguenze archivistiche

Quanto sopra esposto ha delle dirette conseguente sul matrimonio tra IT ed archivistica. Vediamo le principali:

  • adozione esclusiva di standard (scientifici) aperti: l'archivistica e la linguistica computazionale, fin dall'introduzione dei calcolatori, ha introdotto degli standard specifici. In particolare

    • per i file: l'archiviazione dei dati deve rispondere a criteri diversi dalle sole conoscenze personali e dal criterio pragmatico (cioè: funziona).

      Il minimo insindacabile è l'adozione e l'osservanza del Dublin core e del TEI

    • per le acquisizioni: da intendersi sia come digitalizzazione ex novo, sia come riversamento del pregresso.

      Anche in questo caso possono non essere adeguate le conoscenze personali e, normalmente, non sono adeguate le strumentazioni popolari.

      Scanner e fotocopiatrici hanno lampade che danneggiano gli originali. Inoltre presuppongono che gli originali siano su un piano orizzontale e appiattiti. Se immaginiamo l'acquisizione di una pagina miniata di un codice è facile intuire che il piano di un fotocopiare è dannoso.

      All'aspetto fisico vanno aggiunti aspetti squisitamente software. Diversi dispositivi hanno limitate qualità di acquisizione (scarsi DPI) o raggiungono (finte) qualità di rilievo con dei trucchi. Inoltre nell'ordinario riproducono i colori in modo non fedele. Da aggiungere, non per ultimo come criticità, i formati e gli standard scelti per il salvataggio dei file. Ad esempio, per le foto, il popolare formato JPG causa la perdita irrecuperabile di parte dell'informazione. Per una buona archiviazione è indiscutibilmente migliore un formato TIF anche se meno popolare. Per il campo audio il formato MP3 causa, come con il JPG, la perdita irrecuperabile di parte del suono. In questo caso un formato decisamente più opportuno è il WAV.

      JPG, MP3, TIF e WAV sono solo alcuni esempi non certo esaustivi

    • per il software: tool molto conosciuti, come MS Office, possono esser poco adeguati o totalmente inadeguati.

      Per documenti testuali, in questo momento, il miglio supporto Open Document è dato da tool come OpenOffice e LibreOffice. In ogni caso è necessaria una certa personalizzazione per introdurre ritocchi al fine di inserire i meta-dati archivistici.
      Ugualmente per l'archiviazione una modellazione del database Access è molto poco opportuna. Non di rado si assiste anche all'adozione di applicazioni server che offrono qualità oggettivamente migliori, ma normalmente soddisfano standard industriali e non gli standard scientifici od open.

      Qualche parola va spesa anche in merito a programmi per la trattazione delle immagini, degli audio, dei video ecc... Spesso per un adeguato trattamento bisogna ricorrere a software proprietari che permette la gestione corretta dei colori, della qualità, delle dimensioni, ecc...

      Un accenno va fatto anche in merito ai file PDF. Si tratta di uno standard e dell'unica via per la conservazione digitale a lungo termine. Ma esiste un nutrito numero di diverse specie di PDF. L'unica che risponde ai requisiti di conservazione è il formato PDF/A, normalmente non usato.

    Il discorso è molto più ampio e articolato di quanto accennato. Il concetto fondamentale è che l'informatica nel dominio archivistico, filologico e letterario ha bisogno di standard, software e attrezzature che non sono né popolari, né di larga diffusione, né di uso immediato

  • adeguata formazione e competenza: quanto sopra accennato rende evidente che l'archivista di oggi non può non avere delle adeguate conoscenze informatiche, essere competente sugli standard fondamentali ed avere una formazione adeguata per poter essere operativo.

    In realtà questa affermazione, anche se radicale, è insufficiente. Infatti per il dominio IT bisogna prendere atto che è necessario un aggiornamento continuo perché c'è una evoluzione costante. Inoltre in queste pagine si accenna quasi solamente all'IT tralasciando tutti gli aspetti fisici, archivistici, ecc...

  • introduzione del life-cycle dei dati: probabilmente i paragrafi precedenti possono aver indotto l'idea che la gestione e conservazione digitale non permette né l'interpretabilità futura dei dati, né la conservazione a lungo termine (o a tempo indefinito).

    Se il primo problema lo si risolve con l'adozione degli standard corretti per il secondo non c'è una tecnologia valida. L'unico modo per garantire la conservazione è l'adozione di un insieme di accorgimenti noto come “life-cycle dei dati”.

    L'idea base è che i dati vengono ciclicamente copiati su dei supporti nuovi ed i vecchi vengono dismessi. Eadem anche i computer vengono periodicamente sostituiti senza attendere che si guastino.

    Questo approccio funziona solo se nello staff vengono introdotte pratiche di intervento umano che monitorano gli apparati, sostituiscono i dischi, ecc...

    In conclusione il life-cycle dei dati è il combinato di un insieme di elementi e pratiche

  • spesa continua: probabilmente si è già capito. L'introduzione dell'IT comporta una spesa constante, non piccola. In particolare c'è da tener presente:

    • corrente: l'energia consumata non è poca. Oltre al consumo dovuto dai computer c'è da considerare l'elettricità consumata per il condizionamento. Da non sottovalutare gli altri piccoli carichi (lo standby dei PC, router, telefoni, scanner, fotocopiatore, antincendio, ecc...). Sommati sono un consumo di rilievo.

      Sommando il tutto e immaginando una piccola installazione il mantenimento elettrico è uguale ad un appartamento abitato da 2 persone

    • consumabili: oltre agli inchiostri delle stampanti c'è da pensare a quelle parti che si consumano e vanno periodicamente sostituite. Si pensi agli hard-disk (soprattutto quelli dello storage) e alle batterie dei gruppi di continuità

    • manutenzioni obbligatorie: sospendendo considerazioni di tipo legale, alcuni contratti di manutenzioni sono obbligatori per il corretto e buon mantenimento del parco IT

    • aggiornamenti hardware: i computer si usurano e vanno sostituiti. Le dotazioni server hanno un arco di vita decisamente superiore a quella dei PC, ma è meglio cambiarli prima che si rompano. La sostituzione dopo il guasto, oltre a comportare tempi non brevi per la fornitura, possono comportare anche la perdita di tutti i dati nei casi più gravi.

    NB: si può immaginare di fare consistenti risparmi, fino ad arrivare al quasi azzeramento, scegliendo dotazioni diverse o non facendo (alcune) sottoscrizioni. Da tenere presente che queste apparenti economie sono ad altissimo rischio. In primo luogo si rischia di perdere tutte le informazioni. Se si pensa di risparmiare su manutenzioni, sottoscrizioni, ecc... significa avere del personale ingegneristico (oltre a quello archivistico). E comunque non può sostituire completamente tutti i contratti di manutenzione e le sottoscrizioni. Infine si potrebbe immaginare di sostituire le dotazioni di classe server con le dotazioni di tipo home (un server può costare €6.000, un buon PC può costare €1.000). Il problema è che le architetture PC non permettono sostituzioni delle parti e potenziamenti senza la perdita di dati. In casi di guasto si perde tutto. Se non si vogliono questi limiti si rientra in spese del tutto analoghe a quelle del server.

  • Un(ico) responsabile tecnologico: la complessità sopra descritta richiede un responsabile (IT) competente. Il compito principale è il mantenimento della linea di sviluppo/implementazione ed il coordinamento efficace dell'IT con le altre parti. Inoltre dovrebbe godere di alcune fondamentali caratteristiche:

    • fiducia: la complessità dell'informatica odierna comporta che ci sia fiducia in quanto indica. Le scelte sono complesse, normalmente non si deve scegliere tra giusto e sbagliato, ma tra giusto e migliore

    • leadership reale: accanto alla fiducia è necessario che sia una guida efficace. È facile, partendo dalla relazione di fiducia, passare ad un rapporto di consulenza invece che di leadership

    • incarico a lungo termine: l'incarico ed l'apporto professionale deve essere per un prolungato arco di tempo. La rapidissima evoluzione informatica può far pensare che un breve intervento sia sufficiente. Per un buon lavoro, solido e di qualità, invece sono necessari tempi (molto) lunghi. Prima di tutto per mantenere la coerenza tecnologica ed il mantenimento della direzione (di sviluppo).


 

3. Standard di riferimento

Dopo una prima esplorazione del dominio IT nel campo dell'archivistica passiamo a vede nomi e tecnologie utili da conoscere.

Il criterio di scelta e quello della strategicità nella relazione archivio-tecnologia.

  • Cross-platform e platform-independent: significa programmi e/o servizi che funzionano su ogni tipo di device e di sistema operativo (PC, Mac, Smartphone, tablet, Windows, Linux, OS, ecc...). Questo obiettivo è fondamentale. Avere l'archivio che gira su PC, ma non su Mac, o su tablet, ecc... è come avere un'auto che può correre solo nel cortile di casa.

    L'obiettivo si raggiunge adottando gli standard non commerciali e non accettando le soluzioni solo perché funzionano (con Windows)

  • server-client: si tratta di un'architettura. In questa soluzione i programmi ed i dati sono in un computer centrale. Le postazioni di lavoro dell'operatore si collegano al server per vedere, manutenere e inserire i dati. In questo modo cambiando il computer i programmi ed i dati restano. Inoltre con questa architettura molti utenti possono operare contemporaneamente usando l'unica installazione presente nel server

  • cloud: anche in questo caso si tratta di un'architettura. In questa soluzione tutto risiede su dei server. I server sono sparsi per il mondo. Quando con il nostro computer, oppure con lo smartphone, accediamo ai dati e ai servizi (=programmi) ci colleghiamo a un server. In caso di problemi o guasti il cloud automaticamente ci connette ad un altro server in modo totalmente automatico e invisibile all'utente. Se abbiamo bisogno di ingrandire il server, aumentare i server, ingrandire lo spazio disco, ecc... lo si fa operando sul monitor come se fosse un programma

  • framework: anche in questo caso si tratta di un'architettura, però software. I framework sono programmi speciali. Sono totalmente invisibili e servono per far funzionare altri programmi con cui l'operatore lavora. Un paio di esempi:

    • .NET: una soluzione usata dentro Windows per far funzionare moltissimi programmi (tra cui anche delle parti di Office)

    • Symphony: una soluzione per i server con tecnologia PHP. AtoM, ad esempio, usa questo framework per funzionare

  • Java: si tratta di un linguaggio. La caratteristica più interessante è che funziona su ogni apparato informatico. Inoltre implementa tutta una serie di standard che lo rendono particolarmente robusto, estendibile ed integrabile

  • xml: si tratta di uno standard base per strutturare le informazioni. Stabilisce una serie di regole comuni con cui si costruisce, ad esempio, l'XHTML, il TEI, l'Open Document ed il noto DOCX. Semplificando la spiegazione si può dire che quanto scritto in XML è interpretabile da ogni apparato informatico (ed in ogni tempo!)

  • Dublin Core: abbreviato con DCMI (Dublin Core Metadata Initiative) è uno standard per riportare all'interno del file tutti i dati della pubblicazione (Titolo, Autore, Soggetto, ecc...). Si tratta di una forma scientifica dei moderni ebook come ePub, Kindle, ecc...

  • TEI: acronimo di “Text Encoding Initiative” è uno standard per la rappresentazione dei testi in forma digitale in alta qualità e con un completo apparato scientifico (corpus, fondo, documento, ecc...)

  • PDF: acronimo di “ Portable Document Format” si tratta di un formato per rappresentare i documenti in modo indipendente dall'hardware e dal software utilizzato per generarlo o per visualizzarlo.

    Il formato è standardizzato in una serie di sotto formati (PDF/A, PDF/X, PDF/E, PDF/H, PDF/UA). Il PDF/A è esplicitamente progettato per la massima portabilità e stabilità ed è l'unico adatto per l'archiviazione e la conservazione sostitutiva

  • big data: si tratta di un concetto generale che raggruppa un vasto insieme di tecnologie e standard che permettono di gestire enormi raccolte di dati, in tempo reale, da fondi diverse e attingendo contemporaneamente da server situati in luoghi diversi del pianeta.

    La parte di interesse in queste tecnologie riguarda la capacità di elaborare dati da fonti diverse (parole, immagini, bit, ecc...), di elaborare i dati linguistici (cioè capire il significato dei testi), di elaborare i dati in tempo reale, l'implementazione su standard aperti e consolidati e di essere open source.

4. Opportunità e problemi per l'archivio e gli studiosi

Dopo una presentazione delle tecnologie IT vediamo gli elementi più significati che qualificano l'informatica, negli archivi, come risorsa o come limite.

4.1. Aspetti positivi

  • Reperimento: i cataloghi informatici offrono un insieme di vantaggi:

    • velocità di reperimento: sia in termini di offrire la risposta, sia nel senso di richieste complesse (domande condizionate e articolate)

    • reperimenti complessi: probabilmente l'aspetto più interessante in questo momento è l'estensione dell'indagine su tutto il materiale. In combinazione con sistemi arricchiti da meta-dati, da ricerca semantica a da intelligenza artificiale è possibile cercare anche direttamente dentro i documenti.

      La combinazione di queste tecnologie configura la ricerca come uno strumento nuovo e diverso, meglio definito come “data mining”

    • ricerche distribuite: tramite le reti (in particolare internet) è possibile procedere a consultazioni contemporanee su molti archivi. Naturalmente questo è possibile a patto che ogni archivio permetta la consultazione e che ognuno abbia adottato gli standard internazionali

    • meta risultati: accanto ai meta-dati, associati ai record originali, è possibile ottenere meta-dati sui dati ottenuti dalla ricerca o dall'elaborazione.

      A titolo di esempio si pensi, per documenti testuali, la produzione automatica di dizionari, thesaurus, glossari, fino ad arrivare ad analisi più sofisticate come quelle di frequenza, grafo, ecc...

  • unico per federazione: la combinata IT e reti permette di avere un unico archivio virtuale per quelle realtà distribuite sul territorio o con fondi geograficamente dislocati. L'opportunità è interessante anche nelle situazioni di archivi condivisi.

    Da tener presente anche il beneficio collaterale che in questi casi di federazione è possibile avere copie geograficamente distribuite dei dati rendendo intrinsecamente sicura la conservazione digitale (ipotizzando un server a Roma e uno a Milano. È improbabile che un evento distruttivo avvenga contemporaneamente in tutti e due i siti)

  • conservazione sostitutiva: la digitalizzazione dei documenti offre diversi vantaggi:

    • migliore conservazione degli originali: una volta digitalizzato il documento sarà possibile consultarlo solamente accedendo alla copia elettronica. Non dover toccare più l'originale significa ottimizzare la conservazione e ridurre al minimo le possibilità di incidenti

    • consultazione moltiplicata: l'accesso alle copie elettroniche è possibile a molte persone contemporaneamente

    • copia conforme agli originali: le acquisizioni digitali riproducono con altissima fedeltà tutti gli aspetti degli originali. Alcune tecnologie permettono anche di rendere percepibili aspetti nascosti degli originali (come testi precedenti su pergamene, testi nascosti nei dorsi dei libri, ecc...). Anche le semplici acquisizioni fotografiche digitali offrono definizioni superiori alla capacità di discriminazione dell'occhio

    • apparato critico: la digitalizzazione permette di unire alla riproduzione elettronica informazioni aggiuntive. Con “apparato critico” pensiamo ai processi ecdotici, all'apparato scientifico, alle informazioni aggiuntive, alla correlazione con altri documenti, ecc...

  • riproduzione: da intendersi sia come riproduzione 2D (cioè fotografica) sia 3D (cioè tridimensionale). Per completezza bisogna accennare alla riproduzione virtuale (cioè poter vedere e toccare l'originale tramite tecniche di realtà virtuale). Senza entrare nei dettagli i prodotti di copia, fattibili anche con macchine di costo modesto, sono in grado di essere completamente fedeli agli originali oltre a quanto percepibile dai sensi umani

  • smaterializzazione e delocalizzazione: tramite la digitalizzazione è possibile consultare i documenti senza dover recarsi fisicamente nell'archivio (immaginiamo uno studioso che dall'Argentina vuole consultare un archivio a Roma). Inoltre è possibile dissociare il luogo fisico del fondo, dagli ambienti di gestione-lavoro degli operatori dell'archivio con il pregevole risultato di poter mantenere il sito di stoccaggio nelle condizioni migliori possibili per la conservazione

  • cloud: digitalizzando attenendosi agli standard e usando protocolli e programmi non custum è possibile sfruttare trasparentemente i cloud commerciali (Amazon, Rackspace, Aruba, ecc...). Ciò significa la possibilità di aumentare lo spazio disco, piuttosto che i server, senza dover comprare e installare nuovi computer; significa poter fare copie sicure senza dover comprare soluzioni di backup; significa poter usare il cloud come amplificatore per accelerare gli accessi da internet; ecc...

    Le possibilità sono molte di più. Senza entrare in (stucchevoli) dettagli informatici il cloud può essere una grande opportunità fruibile con investimenti modesti.

4.2. Aspetti non positivi

  • Costi: è la dimensione più evidente e costante. Anche per realtà di piccole dimensioni una buona informatizzazione ha costi significativi. Le principali voci di costo sono:

    • costi degli apparati (decisamente superiori ai €300,00 degli apparati personali rivenduti dalle catene dell'elettronica)

    • personale specializzato. A questa voce possiamo unire anche la formazione straordinaria e ordinaria necessaria sia che il personale specializzato sia proprio o in outsourcing

    • assistenze e manutenzioni specialistiche obbligatorie

    • energia elettrica. Oltre a non essere più un costo trascurabile diventa una fonte primaria

    • infrastrutture specializzate. Da intendersi come adeguamenti edili, armati rack, UPS e adeguamenti dell'impianto elettrico, adeguamento dell'antincendio, ecc...

  • manutenzione continua: l'informatizzazione richiede uno sforzo aggiuntivo specialistico e continuo. La manutenzione si può distinguere in:

    • manutenzione ordinaria: comporta le attività di sostituzioni dei media di backup, monitoring degli apparati, sostituzione dei consumabili, gestione delle account, cambi delle password, ecc... Una aggiunta di attività non archivistiche che richiede anche una adeguata competenza informatica

    • manutenzione a medio termine: si tratta degli interventi di sostituzione degli hard-disk, delle batterie degli UPS, ecc... Interventi necessari con una frequenza compresa trai 2 ed i 4 anni. Con apparati di classe server è sufficiente una buona manualità e qualche conoscenza. Con apparati non server può essere necessaria, ogni volta, la sostituzione completa dell'apparato. In questi interventi, comunque, molto spesso si preferisce ricorrere ad operatori specializzati esterni

    • manutenzione a lungo termine: si tratta della sostituzione di server, storage, UPS, ecc... L'intervento è necessario tipicamente con una frequenza non inferiore ai 6 anni. La degradazione degli apparati non è uguale per tutti i dispositivi. Inoltre c'è da preventivare i cambi dovuti agli avanzamenti tecnologici.

      Questo significa sostenere i costi dell'hardware ed i costi dell'intervento del personale specializzato

    • manutenzione evolutiva: si tratta di aggiungere funzionalità, programmi e, in generale, cose non esistenti.

      Questo intervento non ha una frequenza prevedibile e ogni intervento evolutivo va trattato a se, come un progetto ex-novo

  • assistenze e sottoscrizioni (obbligatorie): l'introduzione dell'IT comporta l'obbligo di aggiungere contratti e sottoscrizioni specifiche. Ciò si traduce in costi aggiunti, ma anche competenze commerciali e informatiche estranee all'archivio fino a poco tempo fa

  • necessità di un esperto: la complessità informatica e l'articolazione del matrimonio IT-archivio rende necessarie alte e specifiche competenze in informatica e in telecomunicazione.

    Le soluzioni possibili sono tre:

    • personale dedicato: diversi hanno scelto di aggiungere una persona fissa con le competenze adeguate

    • persona ibrida: in alternativa è possibile formare una persona già in forza all'archivio

    • outsourcing: l'ultima alternativa è di affidarsi completamente ad una società esterna.

    NB: parlando di informatica e IT si accenna ad una realtà molto estesa e complessa. Nel dominio archivistico è necessaria un'informatica non completamente convenzionale. Accanto alle regole base, è necessaria conoscenza in materia di conservazione digitale, di standard specifici, di apparati server, ecc...

    In ultima analisi l'informatico di archivio è un profilo professione specifico (e inedito?)

  • acquisizione dei documenti: per la digitalizzazione degli originali è necessario essere consapevoli:

    • tempi lunghi: il lavoro necessita di adeguato tempo. Ne consegue il significativo impiego di persone (sia nel senso di aggiungere dipendenti a tempo determina e/o a progetto, sia come riservare parte del tempo del personale in forza)

    • strumenti adeguati: per un lavoro adeguato, che non rovini gli originali, né produca file inadeguati, sono necessari strumenti specializzati

    • competenze adeguate: sia per avere un lavoro di qualità, sia per l'uso corretto degli strumenti, sia per un corretto salvataggio come file è necessaria una formazione specifica

  • conoscenza informatica: per gli archivisti non è sufficiente la solo conoscenza archivistica. È necessario il possesso di specifici saperi informatici

  • bisogno energetico: oltre al consumo (che si traduce in costi diretti) la corrente è un requisito irrinunciabile per poter accedere alle informazioni. Per rende più tangibile il problema si può affermare che senza corrente l'archivio non esiste.

5. Conclusione

Al termine di questo piccolo lavoro va evidenziata una carenza: non si è trattato dei video!

La fruizione dei filmati attraverso computer, tablet, ecc... è una pratica ormai comune, ma avere dei file video compatibili con l'archivio è un problema complesso. Le questioni sono in gran parte tecniche e, attualmente, ancora insuperate. Pertanto non si è volutamente affrontata la questione.

Per l'aspetto di matrimonio tra informatica e archivistica si potrebbe risolvere la questine portando l'attenzione su 3 opportunità offerte dalla tecnologia digitale:

  1. conservazione sostitutiva offerta dai computer

  2. ricerca, soprattutto nei suoi aspetti di ricerca full-text e ricerca incrociata/condizionata

  3. delocalizzazione degli archivi e delle informazioni.

Questi opportunità potrebbero uguagliare e superare tutti gli altri limiti e aggravanti introdotti dall'ingresso del computer nell'archivio.

A completamento è opportuno sottolineare le potenzialità introdotte dalle recenti tecnologie di big data e di intelligenza artificiale. Nate per risolvere problemi di natura completamente estranea all'archivio possono essere una risorsa senza paragoni.

Forse le vere difficoltà (attualmente insolute) sono da cercare:

  • nella nuova formazione necessaria agli archivisti e agli informatici per l'archivio

  • nel modello di business per il mantenimento economico dell'archivio

  • l'accesso ai bit in assenza di corrente.

 6. Bibliografia

Archivio, http://www.treccani.it/enciclopedia/archivio

Archivio, http://www.treccani.it/enciclopedia/archivio-e-archivistica_(Enciclopedia-Italiana)

Direzione Generale Archivi, http://www.archivi.beniculturali.it

Dublin Core Metadata Element Set - versione 1.1, http://www.iccu.sbn.it/opencms/opencms/it/main/standard/metadati/pagina_116.html

Dublin Core® Metadata Initiative (DCMI), http://dublincore.org

ICA - International Council on Archives, http://www.ica.org

ICCU | Istituto Centrale per il Catalogo Unico, http://www.iccu.sbn.it

LOU BURNARD, TEI Lite: introduzione alla codifica dei testi, http://www.tei-c.org/Vault/P4/Lite/teiu5_it.html

LRMI Metadata Terms (RDF), http://dublincore.org/dcx/lrmi-terms

TEI: Text Encoding Initiative, http://www.tei-c.org/index.xml


 

Altro in questa categoria: « Elementi del sistema paterno-cristiano

Questo sito utilizza cookie, anche di terze parti, per migliorare la tua esperienza e offrire servizi in linea con le tue preferenze. Chiudendo questo banner, scorrendo questa pagina o cliccando qualunque suo elemento acconsenti all’uso dei cookie. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie vai alla sezione Cookie Policy.