x
1

HathiTrust



HathiTrust es una asociación de instituciones académicas y de investigación que ofrece una colección de millones de documentos digitalizados provenientes de bibliotecas de todo el mundo, y trabaja para asegurar la accesibilidad y preservación a largo plazo de los sus registros culturales.

«Hathi» significa «elefante»[1]​ en hindi y urdu, un animal célebre por su gran memoria. Su preservación es uno de los grandes activos de HathiTrust.

HathiTrust surgió en 2008 como una colaboración de las universidades del Comité sobre Cooperación Institucional (Committee on Institutional Cooperation, CIC) y el sistema universitario público de la Universidad de California (University of California, UC), con el fin de crear un repositorio para archivar y compartir sus respectivas colecciones digitalizadas. HathiTrust se ha expandido con rapidez, incluyendo nuevos socios y proporcionándoles una manera simple de archivar su contenido digital.

El propósito original de la asociación fue preservar y proporcionar acceso al contenido digitalizado de libros y revistas pertenecientes a las colecciones de sus socios, incluido material con derechos de autor y de dominio público digitalizado por Google, el Internet Archive, Microsoft y otras iniciativas privadas. Los socios pretenden construir un archivo que abarque documentación publicada en todo el mundo, y establecer estrategias comunes para la gestión y el desarrollo colaborativo de su material digital e impreso.

La principal comunidad a la que HathiTrust presta servicio es la formada por los miembros (profesorado, estudiantes y usuarios) de sus bibliotecas asociadas, aunque su material es considerado un bien público a disposición de usuarios de todo el mundo, siempre y cuando la normativa contenida en leyes y contratos lo permita.

HathiTrust es una comunidad internacional de bibliotecas académicas y de investigación consagradas al acceso y preservación a largo plazo de sus fondos culturales digitalizados. Mediante un esfuerzo común y haciendo gala de un profundo compromiso con el bien público, las bibliotecas respaldan actividades de enseñanza y aprendizaje del profesorado, los estudiantes o los investigadores en sus respectivas instituciones, así como las necesidades académicas del público en general.

En la actualidad HathiTrust cuenta con 116 socios,[2]​ de los cuales 4 son consorcios o sistemas estatales estadounidenses (el Comité de Cooperación Institucional, el Sistema Universitario Estatal de Florida, la Universidad de California y el Sistema Universitario de Texas), y el resto son instituciones individuales, incluida la Biblioteca del Congreso de Estados Unidos (Library of Congress, LoC).

En noviembre de 2010, la Universidad Complutense de Madrid pasó a ser socio de HathiTrust, y se convirtió en la primera universidad europea en formar parte de la comunidad.[3]

La misión de HathiTrust es contribuir a la investigación, el estudio y el bien común recogiendo, organizando, preservando, comunicando y compartiendo de forma colaborativa la memoria del conocimiento humano.

Más específicamente, HathiTrust se encarga de:

La biblioteca digital de HathiTrust es un almacén de preservación digital y una plataforma de acceso altamente funcional. Proporciona servicios de preservación y acceso a largo plazo para contenido de dominio público y con derechos de autor de diversidad de fuentes, incluidos Google, el Internet Archive, Microsoft e iniciativas propias de instituciones asociadas.

Los socios garantizan la fiabilidad y eficiencia de la biblioteca digital apoyándose en los estándares y mejores prácticas de la comunidad, desarrollando políticas y procedimientos para la gestión de contenidos y servicios escalados, y manteniendo una infraestructura modular y abierta.

En la actualidad, hay digitalizados más de 14 millones de volúmenes, que representan aproximadamente unos 5000 millones de páginas y 636 terabytes. De todos ellos, aproximadamente el 39% son de dominio público.

HathiTrust proporciona una referencia para la implantación de herramientas de acceso al contenido del almacén, y trabaja con las bibliotecas participantes para definir, priorizar y desarrollar otras herramientas y servicios. También ha elaborado definiciones de servicio abierto (API) para hacer posible la participación de las bibliotecas asociadas en el desarrollo de otros mecanismos de acceso seguro:

HathiTrust es una iniciativa bibliotecaria colaborativa. Se anima a los usuarios a citar e incorporar vínculos a su contenido digital, y pueden hacerlo sin necesidad de pedir permiso. Dependiendo del origen del material digitalizado, las licencias y otros aspectos contractuales, se puede restringir su distribución a otros usuarios.

Se asume que la gestión de los metadatos bibliográficos que definen los registros bibliográficos de HathiTrust es asumida por los colaboradores de los diferentes catálogos. Por lo tanto, la política general consiste en no corregir o actualizar el contenido de los registros de los colaboradores, salvo cuando sea necesario a fin de garantizar la coordinación de las funciones del sistema de gestión de metadatos.

Siempre que sea posible, HathiTrust aboga por el dominio público. Sin embargo, hay muchos trabajos de sus colecciones que están protegidas por leyes de derechos de autor, de manera que no se puede mostrar grandes porciones de estas obras sin el permiso del detentor de los derechos de autor. Mientras no se pueda determinar el estatus de una obra, el acceso a la misma queda restringido.

En muy raras ocasiones se producen eliminaciones en HathiTrust, y sólo ocurre cuando:

HathiTrust se rige por los principios de fiabilidad, transparencia y gestión responsable. Proporciona una conservación garantizada a largo plazo del contenido digitalizado, así como un acceso abierto en la medida de lo legalmente posible, con el fin de maximizar las contribuciones de las instituciones asociadas y hacer un uso lo más eficiente posible de los recursos disponibles.

HathiTrust se compromete a preservar el contenido intelectual, y en muchos casos también el aspecto exacto de los materiales que han sido digitalizados para su depósito. Esto incluye:

HathiTrust hace uso de diversas estrategias para asegurar la integridad a largo plazo de los materiales depositados, incluidas:

Así pues, la preservación en HathiTrust abarca características de contenido, metadatos y procesos que permiten mantener la integridad a nivel de bit del contenido a lo largo del tiempo, y migrar el contenido a nuevos formatos conforme lo requieran las necesidades en la comunidad bibliotecaria en cuestiones tecnológicas, estándares y mejores prácticas.

HathiTrust se esfuerza en garantizar que el contenido digital que preserva sea preciso, completo y adecuado para la conservación a largo plazo, además de útil para una gran diversidad de propósitos de acceso. Para ello presta atención a la calidad, y tiene en cuenta los formatos de los archivos de contenido, los metadatos de preservación y descriptivos y las rutinas de validación. HathiTrust mantiene un alto nivel de conformidad con los estándares de toda la comunidad de almacenes digitales, incluyendo el almacenamiento redundante de los materiales en puntos separados geográficamente.

El almacén de HathiTrust se diseñó de acuerdo con el marco para OAIS (Open Archival Information Systems), y ha sido implementado dentro del contexto de estándares y criterios ampliamente difundidos para repositorios digitales confiables (Trustworthy Digital Repositories). La logística de operación de un almacén de preservación de la dimensión de HathiTrust ha dado lugar a soluciones de implementación que favorecen la consistencia y estandarización frente a los cambios, la simplicidad frente a la complejidad (en diseño, no funcionalmente), y el aspecto práctico frente al conceptual. La funcionalidad de HathiTrust se consagra por encima de todo a la satisfacción de las necesidades de preservación y acceso de sus socios. Aunque HathiTrust sirva por extensión a un público más amplio, son estas necesidades específicas las que guían el desarrollo de los servicios y capacidades de HathiTrust.

Por otra parte, hay dos componentes para la incorporación y procesamiento en HathiTrust: metadatos bibliográficos y contenido.

En todo caso, el material de HathiTrust está sujeto a revisiones de calidad, como parte integral y paso fundamental dentro del proceso de digitalización. El material digitalizado está sometido a procesos formales de revisión de la calidad, previamente a su entrada a formar parte del contenido digital de HathiTrust.

HathiTrust respeta la privacidad de todos los visitantes y usuarios de sus servicios.

HathiTrust proporciona almacenamiento persistente y con alta disponibilidad para los archivos depositados en su repositorio. Con el fin de facilitar esto, los socios emplean una arquitectura de almacenamiento con amplio abanico de funcionalidades diseñada para hacer frente a la tolerancia frente a fallos y la retención de datos a largo plazo.

La necesidad de una comprobación continua de la integridad es fundamental para la estrategia de gestión de datos de HathiTrust, y remarca la necesidad de elección de un medio principal en línea (discos magnéticos) La sustitución del material es un proceso que se contempla anualmente, y asume que el equipamiento tiene una vida útil de entre 3 y 4 años. El sistema de almacenamiento es modular y virtualizado, con archivos que se dividen en bloques distribuidos a través de los nodos de un clúster y redistribuidos de forma automática para realizar el equilibrado de carga.

HathiTrust presenta un perfil de repositorio basado en la Evaluación de Sistemas de Publicación Electrónica de Origen Abierto[5]​ (Evaluation of Open-Source Electronic Publishing Systems) y un marco desarrollado específicamente ad hoc.

HathiTrust está comprometido con la transparencia en todas sus operaciones, incluido su trabajo para cumplir con los estándares de preservación digital y los procesos de revisión. Representantes del Centro de Conservación Digital británico (Digital Curation Centre, DCC) y Preservación Digital en Europa (Digital Preservation Europe, DPE) revisaron el almacén usando el marco DRAMBORA a finales de 2008.

Además, HathiTrust cumple con otros estándares aceptados para la preservación digital, como los mostrados a continuación:

El almacén de HathiTrust fue creado de acuerdo con el marco de Sistemas de Información Archivística Abiertos (Open Archival Information Systems, OAIS).

La información de Procedencia, Referencia y Continuidad se almacena en HathiTrust en uno o más archivos que cumplen con el Estándar de Codificación y Transmisión de Metadatos (Metadata Encoding and Transmission Standard, METS). Los objetos digitales de los Paquetes de Información Archivística de todas las fuentes digitalizadas incluyen un archivo METS. Los que provienen del Internet Archive y de Google tienen un archivo METS «origen» adicional. Estos dos archivos se conforman de la siguiente manera:

La información de preservación incluida en el archivo METS se registra utilizando las Estrategias de Implementación de Metadatos de Preservación (Preservation Metadata Implementation Strategies, PREMIS).

HathiTrust ha definido un perfil METS para el contenido digitalizado de Google almacenado en el archivo, y había definido una política general y un marco de especificaciones para contenido de libros y revistas (incluyendo los metadatos de encabezado de imagen, resolución, identificadores, etc.).

El Centro de Investigación de HathiTrust[6]​ (HathiTrust Research Center, HTRC) permite que usuarios de entidades educativas y organizaciones sin ánimo de lucro tengan acceso electrónico a trabajos publicados de dominio público disponibles en HathiTrust. Este acceso se extenderá en condiciones de uso restringido a trabajos con derechos de autor.

Se trata de un centro de investigación colaborativo que se lanzó con el fin de satisfacer los desafíos técnicos a los que los investigadores se enfrentan al tratar con grandes cantidades de texto digital, mediante el desarrollo de herramientas de software de última generación y una infraestructura que permita el acceso electrónico avanzado al creciente archivo digital que abarca el conocimiento humano.

Así pues, el HTRC proporciona una infraestructura destinada a investigadores de entidades educativas y organizaciones sin ánimo de lucro para buscar, obtener, analizar y visualizar el texto completo a millones de obras de dominio público.

HTRC oculta la complejidad de la investigación computacional del corpus masivo de HathiTrust. Un investigador interacciona con HTRC a través de una interfaz que encapsula la funcionalidad y oculta la complejidad de su implementación.

La interfaz proporciona un portal Web y una interfaz de programación. HTRC reúne varias herramientas de minería de texto, el corpus de HathiTrust, información agregada y estadística sobre el corpus y otros orígenes de datos necesarios para la minería de texto.

HathiTrust permite a los académicos acceder a un vasto abanico de materiales, producir búsquedas personalizadas, y descubrir nueva información que con anterioridad era difícilmente accesible. HathiTrust realza el valor de estos recursos garantizando el acceso a largo plazo, creando herramientas académicas y mejorando la calidad del contenido digital a lo largo del tiempo. Los investigadores se benefician así de la orientación de expertos y el acceso consistente del que siempre han hecho gala las bibliotecas de investigación, pero con la diferencia de que, en vez de tener que buscar uno a uno en los repositorios de cada institución, se benefician de una colección compartida. El todo es más que la suma de las partes.



Escribe un comentario o lo que quieras sobre HathiTrust (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!