Indización automática

La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea.

Los antecedentes más remotos de la indización se encuentran en la antigua Mesopotamia cuando, en el exterior de las cestas de mimbre en las que guardaban las tablillas de barro, colocaban una frase que servía para conocer de qué trataban las tabillas allí depositadas sin necesidad de abrir dichas cestas. Con este sistema tan simple, se conseguía almacenar de manera más o menos organizada las tablillas (almacenamiento de datos) y además, ese sistema ayudaba, posteriormente, a localizar información (recuperación de información). La indización es por tanto, un proceso intelectual o automático, llevado a cabo generalmente por profesionales de la Información y Documentación (bibliotecarios, documentalistas y archiveros) por el cual se analiza el contenido de un documento para seleccionar un conjunto de conceptos que representan el contenido íntegro de dicho documento, y normalmente, dichas palabras seleccionadas del documento en lenguaje natural (esto es, palabras clave), se convierten en lenguaje controlado (descriptores y encabezamientos de materia) una vez que se buscan y encuentran sus equivalentes en los lenguajes de indización (tesauro, listas de encabezamientos de materia o listado alfabético de descriptores). De este modo, esos descriptores o encabezamientos de materia sirven para el almacenamiento de esos documentos en bases de datos o catálogos y recuperación también para su posterior recuperación. Por tanto, el objetivo general de la indización es el almacenamiento y recuperación de información.

Los primeros pasos para la automatización de la indización se dieron a finales de 1950 en la disciplina de Ciencias de la Información (Biblioteconomía y Documentación), y dentro de ésta, en el área de Procesos técnicos. Después de la Segunda Guerra Mundial se produjo un crecimiento exponencial de la información. Debido a este incremento fue preciso ir incorporando a las unidades documentales (bibliotecas y centros de documentación) formas de trabajo más ágiles, es decir, intentar automatizar algunos de las tareas que tradicionalmente se venían realizando intelectualmente y que requieren mucho esfuerzo y tiempo.

El pionero en trabajar en esto fue Hans Peter Luhn (1957) toma la Ley de Zipf para aplicarla en automatizar esta tarea. Desde entonces en la numerosa literatura científica producida sobre este asunto se le ha denominado de diferentes maneras. Así, podemos encontrar denominaciones como 'Indización asistida por computador', 'Indización automatizada', 'Indización computerizada', 'Indización por computador', 'Indización mecanizada', 'Indización semiautomática' o la misma Indización automática, entre otras [Gil Leiva, 2008]. Según este autor, estas distintas denominaciones hacen referencia a tres conceptos diferentes:

Algunas de las herramientas que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes (Gil Leiva, 2008):

Los avances en la indización automática se han ido utilizando en determinadas unidades documentales que manejan gran cantidad de información. De este modo, han surgido prototipos como Shapire desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos;^[1] en el centro de documentación de la NASA;^[2] en el Laboratorio Europeo de Física de Partículas (CERN) de Ginebra^[3] o SISA,^[4] entre otros.

Escribe un comentario o lo que quieras sobre Indización automática (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!