x
1

Digitalización de documentos



La digitalización de documentos es un proceso tecnológico que permite, mediante la aplicación de técnicas fotoeléctricas o de escáner, convertir la imagen contenida en un documento en papel en una imagen digital.[1]

La digitalización de documentos es una forma de capturar y almacenar imágenes utilizando la tecnología computacional.[2]​ Una cámara digital o un escáner sacan una fotografía electrónica, que convierte la imagen del documento en códigos numéricos para que sean tratados por el ordenador mediante un software de captura.[1]​ La información digitalizada queda posteriormente almacenada en diversos soportes que permiten guardar grandes cantidades de datos en poco espacio.

La digitalización de documentos forma parte esencial de la preservación digital encargándose de la conservación de la información de los documentos.

El objetivo básico de la digitalización de documentos es la transferencia de la información a otro soporte distinto del original. El documento pasa de un estado analógico a uno digital o informático.[1]​ Los documentos en formato informático, es aquella digitalizada con almacenamiento en soporte magnético u óptico.[2]​ La información queda registrada por señales binarias; la calidad de las copias siempre es idéntica. La digitalización de documentos permite:

La tecnología digital permite capturar los valores de cualquier imagen al margen de su soporte, polaridad, dimensiones, etc. Cualquier imagen o conjunto de ellas puede ser estructurada en bases de datos y ser recuperada en nuevos formatos.

El comienzo de la digitalización se dio debido a la necesidad del ser humano por almacenar y transmitir la información necesaria en distintos soportes. Antes de realizarse la digitalización tal y como la conocemos hoy en día, se crearon una serie de instrumentos modificados con el paso del tiempo explicados a continuación.

En 1895 el instrumento utilizado se denominaba Telediágrafo, permitía transmitir las imágenes al formato digital por medio de métodos eléctricos. Su uso consistía en dibujar la imagen en una lámina de estaño empleando una tinta no conductora de goma-laca con alcohol, para posteriormente ser fijada en un rodillo que trabajaba como transmisor. Entretanto el receptor utilizaba un lápiz óptico sincronizado con el Telediágrafo, por lo que enviaba y recibía línea a línea la imagen que pretendía digitalizarse. Este proceso de digitalización podía costar hasta media hora.[3]

Posteriormente, con la llegada del Belinógrafo en 1913 la técnica utilizada mejoró notablemente, ya que se utilizaba una fotocelda para traspasar la imagen a través de la línea telefónico conocido como FAX. En los años 40 al construirse las primeras computadoras, simplemente se agregaban números para realizar múltiples cálculos. Ya en la década de los 80 se realizaban los primeros escáneres digitales, lo que en lugar de enviarse la imagen a fax se almacenaba en un PC.[3]

Estos primeros aparatos mencionados al capturar los documentos que pretendían digitalizarse contenían una deficiente resolución, pero con el avance de la tecnología y el paso del tiempo han mejorado notablemente hasta la actualidad, utilizando para el proceso de digitalización sistemas mucho más innovadores y eficaces.

Los diferentes tipos de documentos que podemos encontrar son materiales de soporte magnético y de soporte óptico de caracteres.

Soporte óptico de caracteres (Optical Character Recognition) significa Reconocimiento Óptico de Caracteres (OCR). Es la tecnología que permite convertir imágenes de caracteres en letra de máquina, en caracteres capaces de ser interpretados o reconocidos por un ordenador.[2]​ Obtiene como resultado final un archivo en un formato de texto editable, cuyos formatos de salida en los que se presentan estos archivos pueden ser variados (pdf, txt, etc.).

Este procedimiento es utilizado en la informática como procedimiento para digitalizar un texto a través de un escáner.

Para poder realizar un reconocimiento de los caracteres, el software debe inspeccionar la imagen pixel a pixel buscando formas que coincidan con los rasgos de los caracteres.[4]

El soporte óptico permite analizar elementos del documento como (imágenes, tablas, texto, etc.) para su posterior digitalización.

Este sistema revolucionó en su momento el mundo digital pudiendo evitar la introducción manual de los datos a un ordenador y reconociéndolos automáticamente. Con el paso del tiempo la técnica se ha ido perfeccionando con la evolución y mejora de su efectividad. En la actualidad el soporte óptico además de permitir mantener la estructura de los documentos originales en el archivo de salida, reconoce caracteres contenidos en documentos manuscritos, diagramas, partituras, etc. A pesar de ello, debemos destacar que dispone de una efectividad limitada, debido a que deben realizarse posteriores revisiones y correcciones manualmente del texto escaneado.[4]

En la actualidad existe un sistema de reconocimiento óptico más avanzado denominado de ABBYY FineReader, basado en tres principios fundamentales IPA (Integridad, Intencionalidad y Adaptabilidad). [5]

Respecto a la utilización del OCR es aplicable en diversos ámbitos y sectores (Actividad Jurisdiccional, Centros de Documentación, etc.) para la digitalización de formularios, informes, documentos administrativos, etc. En el sector cultural, en la preservación del patrimonio el OCR digitaliza principalmente documentos históricos en soporte microfilm o papel.[4]

Entre las ventajas que presenta el soporte óptico de caracteres encontramos:[4]

Los inconvenientes que muestra son los siguientes:[4]

Las recomendaciones técnicas que deben plantearse para una mayor resolución de los documentos digitalizados con el soporte óptico de caracteres, es establecer una resolución mínima de 300 ppp en documentos de textos con tipos de letra claros y 600 ppp para documentos con letras pequeñas u originales de poca calidad (prensa).[4]

Soporte magnético. Esta categoría hace referencia los materiales audiovisuales, entre los materiales que pueden digitalizarse encontramos (Cintas de vídeo VHS, Beta, Vinilos, Casetes, etc.). El proceso de digitalización consiste en la transcripción de señales analógicas en señales digitales cuyo objetivo es facilitar su procesamiento (comprensión, codificación, etc.), haciendo la señal derivada (digital) con menos ruidos e interferencias a las señales analógicas.[6]

El proceso de digitalización analógica está formado de cuatro procesos:

Entre las ventajas que presenta el soporte magnético encontramos: [6]

Los inconvenientes que muestra son los siguientes: [6]

La digitalización de documentos es un proceso el cual está muy normalizado y el cual debe hacerse bajo unas condiciones determinados y unos requerimientos básicos para una correcta digitalización, es por eso que necesita unas características técnicas determinadas, las cuales pueden depender del formato de origen del documento y la finalidad que se le vaya a dar a la copia digitalizada.[7][8]​ Principalmente las características técnicas de los documentos digitalizados son:

A diferencia de las fotografías ordinarias, las digitales están formadas por cadenas de bits, interpretadas por un ordenador, y que presenta una reproducción de la imagen en pantalla.[7]

La imagen digital, es dividida en una matriz de puntos a modo de cuadrícula. Cada uno de estos puntos recibe el nombre de píxel, que toma el valor binario 1 o 0 dependiendo de la luminosidad y el tono lumínico leído por el escáner. A cada píxel se le asigna un valor tonal que está representado por un código binario.[8]

La resolución de la imagen viene dada por el número de pixeles que tiene la imagen. Cuanto mayor sea este número mayor será la resolución. La medida de la resolución se determina por el número de píxeles leídos en una distancia lineal de una pulgada (2,54 cm) en el documento digitalizado.[8]

Las resoluciones de escaneado más frecuentemente utilizadas en documentos blanco y negro son 200, 300 y 400 puntos por pulgada. En la digitalización de imágenes color de alta calidad, son típicas resoluciones de 1200 a 2400 puntos por pulgada.

La profundidad de bits especifica la cantidad de información de color que está disponible para cada píxel de una imagen. Cuantos más bits de información por píxel haya, más colores disponibles existirán y se podrá apreciar una mayor precisión en la representación del color.[8]

Las imágenes digitales se pueden digitalizar en blanco y negro, a escala de grises o a color.

El tamaño del fichero se calcula multiplicando el área de superficie (ancho por alto) del documento a digitalizar (en pulgadas), por la profundidad en bits (en bits/píxel) y por el cuadrado de la resolución. Dado que el tamaño del archivo se representa en Bytes (8 bits), dividiremos el resultado por 8.[8]

La compresión se utiliza para reducir el tamaño del fichero de imagen para su almacenamiento, su procesamiento y transmisión. El tamaño del fichero para las imágenes digitales puede ser muy grande, lo que requiere mayores recursos informáticos para su almacenamiento, procesamiento y transmisión.[7]

Existen dos sistemas de compresión: los sistemas de compresión sin pérdidas y los sistemas de compresión con pérdidas. Los sistemas de compresión sin pérdidas, reducen el código binario pero sin desechar o suprimir ninguna información, los sistemas de compresión con pérdidas sacrifican parte de la información original con el objetivo de conseguir una mayor compresión y, por tanto, un archivo final de tamaño más reducido.[8]

Existen diferentes formatos de ficheros de imágenes en el mercado. Cada uno con sus características específicas, sus ventajas e inconvenientes,[8]​ algunos ejemplos son:

La clave del proceso de digitalización es el compromiso entre el dispositivo de captura y el reproductor para que el resultado represente la fuente original con la mayor fidelidad posible.

La digitalización suele ocurrir en dos partes: Discretización y Cuantificación, estos pueden ocurrir al mismo tiempo, aunque son conceptualmente distintos.[cita requerida] Todo proyecto de digitalización, en general, debe contemplar tres aspectos fundamentales:

También deben de tenerse en cuenta tres fases diferente, pero estrechamente ligadas en tres sí:[9]

En el caso específico de digitalizar documentos con origen en formato papel el proceso tiene que realizar:[10]

Antes de empezar a digitlizar, se debería realizar un documento donde se plasmen los criterios que vamos a emplear para la digitalización, de gran utilidad si cambian los equipos que lo desarrollan.[11]

En el proceso de digitalización de documentos se deben de tener en cuenta ciertas pautas para normalizar dicho proceso en los archivos:

Eliminando todos los elementos que no sean el documento en sí mismo.

Seguidamente a la selección de los documentos y previamente a la digitalización, se deben comparar y actualizar las descripciones archivísticas del material objeto de la digitalización. Para poder identificar la documentación digitalizada se deberá registrar como mínimo la información de los elementos obligatorios de ISAD (G). Sin embargo, si se observa algún deterioro físico en el documento original, se hará constar en el área, no obligatoria de “Condiciones de acceso y uso”. Igualmente se hará constar las cuestiones relativas a las restricciones de acceso cuando sea preciso.[8]​ A los elementos obligarios, se le suman, para su inclusión como metadatos, los elementos:[11]

También previamente a la digitalización se comprobará que no existan documentos duplicados, que estén libres de elementos que puedan obstaculizar la digitalización (grapas, gomas, etc) y de que estén convenientemente ordenadas. Si el documento a digitalizar es una unidad documental compuesta,[12]​ se recomienda foliar el original a lápiz previamente a la digitalización.[8]

Es necesario controlar el entorno de visualización, teniendo en cuenta que el monitor (mejor con poca luz) y el documento original (mejor con mucha luz) requieren condiciones de visualización diferentes. También se deben considerar las “condiciones humanas”, ya que seria conveniente que las imágenes se evaluaran bajo las mismas circunstancias. Hay que tener en cuenta también la calibración del monitor],[13]​ ya que las imágenes pueden verse diferentes en distintos monitores. El método ideal es utilizar hardware de calibración de monitor y el software adjunto.[8]

Es necesario determinar el dispositivo de captura de la imagen más adecuado a la documentación para así garantizar la integridad y la calidad de las imágenes digitales. Por último, se comprobará que el número de páginas digitalizadas sea igual al de imágenes digitales resultantes del proceso de digitalización.[8]

Para el control tonal y de color se recomienda incluir en los ficheros maestros escalas o cartas de colores, que sirven para conseguir un mayor control sobre los resultados de un proceso fotográfico, normalmente se incluyen dentro de la propia imagen que se va a reproducir.

Para el control de la resolución y estar dentro de las normas del índice de calidad (QI), se emplea la carta MIRA TEST ISO CHART Nº2, utilizada en la microfilmación. En el caso de usar cámaras digitales tenemos que saber cuál es la resolución óptica de partida que ofrece el sensor de nuestra cámara. Para ello deberíamos conocer los píxeles que ofrece.[8]

Además hay que tener en cuenta las siguientes consideraciones:[11]

Una vez escaneados los documentos, se deberá verificar que las imágenes digitales estén correctamente alineadas, que no tengan imágenes añadidos, que sean una representación exacta de la unidad documental, que sean visibles y legibles y que tengan un índice de calidad. Si estas premisas no se cumplen se deberá realizar el tratamiento de optimización de las imágenes.

Una vez realizada la digitalización se revisará cada una de las imágenes de cada fichero, subsanando las deficiencias detectadas.Una vez revisado se deberá conservar un “fichero maestro” o Copia de conservación (Son reproducciones digitales de alta calidad realizadas con fines de preservación, en formatos RAW o TIFF sin compresión agresiva que afecte a la calidad de la imagen) de todos los documentos digitales y una copia de consulta.[8]

A partir de cada fichero maestro deberá crearse un fichero de consulta en formato PDF (documentación encuadernada), JPG o PNG (documentación suelta). Estos ficheros de consulta se pueden hacer bien por defecto o bien por demanda.[8]

Las copias digitales obtenidas deberán ir convenientemente provistas de una marca de agua visible, que identifique el Archivo de procedencia/la institución que custodia los documentos originales.[11]​ Los ficheros maestros (TIFF/PDF) no llevarán inserta en ningún caso marca de agua.

Se debe tener en cuenta que, la marca de agua es un elemento inserto en la imagen que puede ser fácilmente eliminado si se dispone de los medios necesarios. Por tanto, más confiable resulta, la información registrada en el metadato “responsable de la digitalización” ya que en dicho elemento se consignará la persona e institución responsables de dicha digitalización.[8]

Se deben elegir como soportes de almacenamiento de las imágenes digitales aquellos que ofrezcan una mayor garantía para la conservación y preservación inalterable de la información. Las imágenes estarán archivadas en una estructura jerárquica de carpetas, reflejando el esquema de organización de los fondos dentro del Archivo de procedencia. Esta estructura aparecerá duplicada, una de ellas destinada a las imágenes de conservación y otra para las de consulta.

Los responsables de la custodia de las copias comprobarán periódicamente la legibilidad de todos los soportes en los que se han alojado las copias digitales.



Escribe un comentario o lo que quieras sobre Digitalización de documentos (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!