PEC: mbac-ic-a[at]mailcert.beniculturali.it   e-mail: ic-a[at]beniculturali.it   tel: (+39) 06 5196.0286

Istituto Centrale per gli Archivi - ICAR

La scelta del software per l'harvesting

Nella prima fase del progetto, si è condotta preliminarmente una analisi dei prodotti disponibili, nella quale sono stati individuati due tool di harvesting e memorizzazione dei siti web, Heritrix e WinHTTrack, che sono stati messi a  confronto per individuare lo strumento più idoneo nel contesto di riferimento Heritrix è un web crawler progettato per il web archiving e sviluppato a partire dal 2003 dall'Internet Archive, in  collaborazione con le biblioteche nazionali di alcuni paesi. Dal 2008, l'Internet Archive ha utilizzato in maniera esclusiva Heritrix per le sue scansioni del web. E' distribuito con un licenza open source ed e scritto in linguaggio Java. L'interfaccia principale è accessibile tramite un browser web ma è possibile farne uso a riga di comando per l'automazione delle scansioni periodiche.
HTTrack è un'applicazione open source per il mirroring di siti web e la loro navigazione offline. Oltre al programma principale, a riga di comando, disponibile per gli ambienti Linux, Windows e Mac, esiste un'interfaccia grafica per Windows (WinHTTrack) e per Linux (WebHTTrack). Vengono supportati i protocolli HTTP e FTP.
Il programma consente di riprodurre in locale il contenuto di uno o più siti web. Sono disponibili numerose opzioni per limitare o estendere il mirroring, ed è anche disponibile un sistema di filtri per controllare ulteriormente il tipo e le caratteristiche dei file da scaricare in locale. All'interno delle pagine scaricate, i link sono riorganizzati, in modo da consentire l'accesso offline di tutti i file riprodotti e l'accesso online dei file non riprodotti.
Ai fini della comparazione dei due tool, su di una macchina virtuale VirtualBox 5.0.26, è stato installato ex-novo un sistema operativo Ubuntu 10.04 LTS e su di esso è stata compilata e configurata una istanza di Heritrix versione 3.2.0. Il software HTTrack è stato invece utilizzato su di una macchina fisica con sistema operativo Windows 10.
L'analisi comparativa delle due soluzioni ha portato alla scelta di Heritrix come il software più adatto a realizzare l'archiviazione del sito web dell'ICAR nella configurazione che aveva al momento della sua messa fuori linea.
Infatti, ad una maggiore semplicità d'uso e di configurazione di HTTrack, si è contrapposta l'indubbia efficacia del processo di harvesting e di controllo dei collegamenti e la capacità di gestire più harvesting in contemporanea. Ulteriore elemento di vantaggio discriminante è la possibilità offerta da Heretrix di conservare l'intero sito web nel  formato WARC (Web ARChive).
Il processo di harvesting del sito web www.icar.beniculturali.it., è stato articolato in appositi “job”, la cui esecuzione produce una serie di file di log che sono essenziali per la documentazione del processo di raccolta delle componenti del sito web. Esso è durato un giorno, ventidue ore e quarantadue minuti, un tempo senz'altro non breve, in quanto il processo è stato compiuto a bassa priorità su di una installazione di test.  
Sono state processate 5114 url contenute nel sito di cui 4887 con successo, 22 con errori e 267 ignorati. Sono stati anche censiti link a 267 host esterni al sito.
Il processo di harvesting ha permesso di archiviare la stragrande maggioranza dei contenuti del sito, anche se in alcuni casi non è andato a buon fine il download di file pdf raggiungibili da link interni al sito.
La dimensione totale del file .warc, prodotto nel processo di harvesting, è di 3.6 GiB, suddiviso in quattro file secondo le regole del formato che prevedono una dimensione massima di ogni singolo file di 1 GiB.



Ultimo aggiornamento: 07/11/2020