PEC: ic-a@pec.cultura.gov.it  e-mail: ic-a@cultura.gov.it   tel: (+39) 06 5190976

Istituto Centrale per gli Archivi - ICAR

La scelta del sistema di visualizzazione e navigazione

La seconda fase del progetto è stata finalizzata a sperimentare due tool software, scelti fra le opzioni disponibili. Sono stati testati i software Open WayBack Machine e Pywb 0.33.0, e che permettono la gestione dei file in formato WARC, anche compresso.
La Open WayBack Machine è una completa web application in Java che permette di organizzare e leggere i contenuti dei file .warc e riprodurli come un sito web. E' utilizzata nell'ambito dell'Internet Archive ed è continuamente aggiornata e migliorata ad opera di una ampia comunità di utenti, nel contesto di iniziative e progetti sparsi un po' in in tutto il mondo.
Pywb (Python WayBack for web archive replay and live web proxy) è una implementazione in linguaggio Python di una WayBack Machine e permette la navigazione di siti web archiviati in formato ARC e WARC. Il software permette di replicare anche siti dinamici con javascript complessi e contenuti audio/video.
L'analisi comparativa delle due soluzioni ha portato alla scelta di Pywb come software più adatto allo scenario di nostro riferimento.
La Open Wayback Machine è certamente un prodotto maturo ed evoluto per gestire collezioni di siti web archivati, compresi i vari snapshot compiuti nel corso del tempo. Pywb, a sua volta, è un prodotto di più semplice utilizzazione che appare più idoneo a gestire un archivio composto di un unico sito web, come nel caso dell'ICAR.
Per la realizzazione della soluzione prescelta si è proceduto all'installazione di Pyweb sul server www.icar.beniculturali.it e alla sua configurazione, per poter lavorare in parallelo con il web content management system TYPO3, adottato per lo sviluppo del nuovo sito web dell'ICAR. Sul server Apache è stato inoltre  attivato il modulo proxy che redirige al software Pyweb le chiamate alla url www.icar.beniculturali.it/wayback. Le pagine di restituzione del precedente sito web dell'ICAR sono state personalizzate nei colori dei nuovi loghi e dell'aspetto grafico del corrente sito web dell'Istituto.

Alcuni problemi rimangono aperti e saranno oggetto di approfondimenti e studi ulteriori. In particolare:

   -  l'analisi completa dei link harvestati;
   -  la correzione dei broken link segnalati dall'errore "404 page not found”;
   -  la gestione dei link esterni al dominio originale. 

L'esperienza compiuta sul sito dell'Istituto costituirà la base per l'elaborazione di ulteriori progetti che l'ICAR intende promuovere nell'ambito dell'archiviazione del web.



Ultimo aggiornamento: 30/11/2022