PADICAT

El PADICAT (acrónimo de Patrimonio Digital de Cataluña) es el archivo web de Cataluña.^[1]

Creado el 2005^[2] por la Biblioteca de Cataluña, la institución pública responsable de compilar, conservar y difundir el patrimonio bibliográfico de Cataluña, y por extensión el patrimonio digital. Cuenta con la colaboración tecnológica del Centro de Servicios Científicos y Académicos de Cataluña (CESCA) para preservar y dar acceso a versiones antiguas de páginas web publicadas en Internet. La Biblioteca de Cataluña, como responsable del PADICAT, está asociada al International Internet Preservation Consortium (IIPC).^[3]

El PADICAT nació el 2005 siguiendo la tendencia de otras bibliotecas nacionales en la creación de archivos web, y como respuesta a la publicación por parte de la UNESCO de las Directrices para la preservación del patrimonio digital.^[4]

Hay numerosos archivos web en funcionamiento.^[5] Los más conocidos son también los que hicieron los primeros pasos el año 1996: el sueco Kulturarw3;^[6] el australiano Pandora,^[7] y el conocido repositorio web de alcance internacional, Internet Archive.^[8]

El análisis de estas experiencias pioneras y de posteriores, dan paso a la planificación del proyecto PADICAT siguiendo la tendencia generalizada en todo el mundo de un modelo híbrido de funcionamiento, complementando la captura periódica de un dominio geográfico entero (en este caso el .cat), con acciones selectivas, y ampliando esta cobertura a diversos acontecimientos de interés social que generan una actividad intensa en la red (procesos electorales, por ejemplo) o con paquetes web agrupados por una misma temática (museos de Cataluña, música folk rock catalana en la red, etc.). En el caso de PADICAT, esto se complementa con las aportaciones ciudadanas a través de las páginas web recomendadas.

En junio de 2005 la Biblioteca de Catalunya inició la fase preliminar, de planificación, en la cual se realizó el análisis de los proyectos y recursos existentes, los agentes implicados en la producción de páginas web en Cataluña y los aspectos legales que condicionan las prácticas que se quieren llevar a cabo.

Sobre la base de unos parámetros definidos por la Biblioteca de Catalunya, el 21 de julio de 2006 se empezaron a recopilar de manera automatizada las webs susceptibles de formar parte del patrimonio digital de Cataluña. El 11 de septiembre de 2006, coincidiendo con la celebración de la Diada Nacional de Catalunya, el portal web de PADICAT se abrió al público, con una treintena de webs almacenadas.

El período 2006-08 representa la fase de producción, del plan piloto del proyecto, la fase de explotación de PADICAT: la captura sistemática de las páginas web de Cataluña.

El período 2009-2011 ha permitido a la BC contar con un escenario óptimo en el cual este sistema, que es pionero en España y de referencia en Europa, funciona a pleno rendimiento. Paralelamente, se han cerrado acuerdos de cooperación con más de 450 instituciones de todo tipo, y se ha garantizado el acceso en abierto, en línea, a toda la colección.

El 11 de septiembre de 2011, coincidiendo de nuevo con la Diada Nacional de Catalunya y con el quinto aniversario de la puesta en funcionamiento de su web, se ha inaugurado una nueva versión del portal web de acceso a los contenidos depositados en PADICAT.

En fecha de noviembre de 2012, PADICAT ya tiene conservadas 58.122 webs, 249.609 capturas, 349 millones de ficheros y 13 TB de espacio que son consultables de forma libre y gratuita.^[9]

La misión de PADICAT es capturar, conservar y difundir el patrimonio digital de Cataluña nacido en Internet. Sus objetivos son:

Después de unas etapas de nacimiento (2005-2006), crecimiento (2007-2008) y consolidación (2009-2011), a partir del 2012 se persigue sistematizar la capacidad de crecimiento con la meta de incorporar anualmente unas 75.700 versiones de aproximadamente 32.000 páginas web, procedentes de:

A estas metas concretas se añaden cuatro ejes permanentes de trabajo:

El sistema se basa en la aplicación de una serie de programas informáticos que permiten la captura, el almacenamiento, la organización y el acceso permanente a las páginas web publicadas en Internet. Posteriormente a la fase de análisis y test de software se determinó que se utilizaría el programa informático Heritrix,^[12] empleado en la mayor parte de proyectos de captura de recursos digitales. Este es el programa encargado de compilar las páginas web tal y como las ve el usuario que navega por Internet y almacenarlas en archivos comprimidos en formato .arc o WARC.^[13] A continuación, el programa Heritrix se complementa con NutchWax,^[14] o bien la combinación de Haddoop^[15] y Wayback,^[16] que llevan a cabo unos procesos de indexación de la información compilada que permiten, ulteriormente, utilizar estos índices para localizar los recursos dentro de la colección mediante sus respectivas interfaces de consulta: Wera,^[17] que permite la búsqueda por palabras clave a través de los índices generados por NutchWax; y Wayback, que permite la consulta directa por URL en los índices generados por Hadoop y el mismo Wayback.

Se ha aprovechado el programa Web Curator Tool,^[18] desarrollado por la National Library of New Zealand^[19] y la Biblioteca Británica, como sistema de gestión documental que permite la asignación de metadatos a una parte significativa de la colección, con la intención de poder integrar, en el futuro, el fondo del depósito a la búsqueda en otros catálogos, tanto de la Biblioteca de Cataluña, como de otras instituciones. Actualmente, ya se realiza la catalogación de las páginas web utilizando el software CAT^[20] realizado por los técnicos del CESCA expresamente para el proyecto.

Respecto al hardware que sostiene el sistema, se cuenta con seis nodos HP ProLiant DL360 G4p, encargados de las tareas de recolección e indexación de las páginas web. De la búsqueda y la visualización de resultados en la interface web, se encarga de ello un clúster Linux de alta disponibilidad con características de equilibrado de carga de peticiones y de tolerancia de errores en caso de desastre técnico de nódulos que integran la plataforma. Una cabina NetApp FAS3170 presenta un espacio de 19TB de disco vía NFS a estos nodos.

Los nodos están conectados mediante fibra a una Storage Area Network (SAN) y el sistema se completa con un robot donde se guardan, en cinta, copias de seguridad de los datos.

Está prevista la inclusión paralela de los contenidos depositados en PADICAT al sistema COFRE^[21] (COnservem per al Futur Recursos Electrònics), un instrumento de preservación en alta seguridad creado a partir de la propia experiencia de la Biblioteca de Catalunya.

Escribe un comentario o lo que quieras sobre PADICAT (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!