x
1

Base de datos biológica



Una base de datos biológica es una colección de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional.[1]​ Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.[2]​ La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes y efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas.

En los últimos años, debido a la rápida evolución de las técnicas experimentales de alto rendimiento (Secuenciación del ADN, Cristalografía de rayos X, Microarreglo de ADN) se generó un crecimiento exponencial en la cantidad de datos biológicos (secuencias genómicas y de proteínas, estructuras de proteínas, expresión génica, mutaciones, etc) que generaron la necesidad de contar con formas eficientes de almacenar la información.

Las bases de datos biológicas constituyen una herramienta esencial para almacenar, estructurar, organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su rápido crecimiento, hacen a las bases de datos una herramienta clave. Se han convertido en un instrumento indispensable para los científicos experimentales del campo de la biología, como para aquellos científicos del área de la bioinformática que desarrollan experimentos in silico.

Las bases de datos biológicas surgen a partir de los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su gestión a largo plazo, forman un área nuclear dentro de la bioinformática.[3]​ El contenido de los datos incluye secuencias génicas, descripciones textuales, atributos y clasificaciones ontológicas, estructuras de proteínas, anotaciones, entre otras. Estos son descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves y estructuras XML. Son comunes las referencias cruzadas entre las diferentes bases de datos biológicas usando los números de acceso (identificadores únicos de los registros en una base de datos, o también conocidos como Clave primaria).

Las bases de datos para ayudan a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular de una proteína y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la evolución de las especies.

Un recurso importante para la búsqueda de bases de datos biológicos es la edición anual de la revista Nucleic Acids Research (NAR). Una edición de bases de datos en NAR está disponible gratuitamente todos los años, donde se publican nuevas base de datos y algunas actualizaciones de las ya conocidas. Se encuentran clasificadas de acuerdo a su temática y están en línea a disposición de toda la comunidad científica.

Las bases de datos biológicas se han desarrollado para diversos propósitos, almacenan varios tipos de datos heterogéneos y son curadas a distintos niveles con diferentes métodos, por lo tanto hay diferentes criterios para su clasificación.[4][5]

Según este criterio, las bases de datos pueden clasificarse en exhaustivas o especializadas:

De acuerdo a este criterio, las bases de datos pueden clasificarse como primarias, secundarias y combinadas:

De acuerdo al nivel de curación, pueden clasificarse en bases de datos primarias, secundarias o derivadas:

El crecimiento explosivo de la cantidad de datos disponibles requiere de curación, integración y anotación, que se logra mediante la colaboración colectiva. Desde este punto de vista, las bases de datos biológicas pueden clasificarse como:

De acuerdo al tipo de datos almacenados en cada base de datos, las bases de datos biológicas pueden clasificarse de forma genérica en alguna de las siguientes categorías (se listan algunos ejemplos de bases de datos):

Bases de datos de EMBL en el European Bioinformatics Institute (EMBL-EBI). Enlace externo base de datos de nucleótidos de EMBL-EBI

DNA Data Bank of Japan (DDJB). Enlace externo DDJB

GenBank en el National Center for Biological Information (NCBI). Enlace externo GenBank

Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas secuencias, aunque normalmente los europeos utilizan EMBL y los americanos GenBank.

UniProtKB/Swiss-Prot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y enlazada a otras bases de datos. Enlaces externos UniProtKB, Swissprot en el EBI UniProtKB/TrEMBL por Translation of EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL) y que todavía no han podido ser anotadas en Swiss-Prot. Enlaces externos TrEMBL, UniProtKB 'PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación decreciente. Enlace externo PIR

'ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swiss-Prot. Enlace externo ENZYME

'PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc. Enlace externo PROSITE

'InterPro integra la información de diversas bases de datos de estructura secundaria como PROSITE, proporcionando enlaces a otras bases de datos e información más extensa. Enlace externo INTERPRO

'Protein Data Bank (PDB) es la base de datos de estructura terciaria 3D de proteínas que han sido cristalizadas. Enlace externo PDB

El portal de EMBL-EBI ofrece una variedad de bases de datos de expresión génica. Enlace externo a bases de datos de expresión de EMBL-EBI

Reactome es una base de datos curada y revisada de EMBL-EBI de rutas de interacción y reacción de proteínas y enzimas. Enlace externo a Reactome

APID[6]​ es una base de datos de interacciones proteína-proteína que incluye interactomas completos para múltiples especies. Enlace externo a APID

dbSNP de NCBI, ofrece un repositorio central de variaciones genéticas que comprenden sustituciones simples de nucleótidos y polimorfismos de inserciones y deleciones cortas. Enlace a dbSNP

COSMIC es un catálogo de mutaciones somáticas en cáncer, mantenida por el Wellcome Trust Sanger Institute. Enlace externo a COSMIC

'OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con desórdenes genéticos. Enlace externo OMIM

Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con enlaces a artículos completos. Enlace externo PubMed

El proyecto de Ontología Génica (GO) es un esfuerzo colaborativo que surgió de la necesidad de tener descriptores consistentes de los productos de genes depositados en distintas bases de datos. Enlace externo a Gene Ontology Consortium

Ensembl integra genomas eucariotas grandes, por el momento contiene genoma humano, ratón, rata, fugu, zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae. Enlace externo Ensembl

Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos. Enlace externo Genome Server, enlace externo TIGR

Wormbase es el portal del genoma de gusano C. elegans. Enlace externo Wormbase

Flybase es el portal de la mosca de la fruta Drosophila melanogaster. Enlace externo Flybase

Taxonomy es el portal de clasificación taxonómica de organismos. Enlace externo Taxonomy Browser

Xenobase es el portal del organismo modelo Xenopus laevis. Enlace externo: Xenbase

TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana. Enlace externo Arabidopsis

GYPSY, base de datos de elementos genéticos móviles. Enlace externo The GYPSY Database of Mobile Genetic Elements

Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individuales hasta grandes centros de secuenciación. Como resultado, las secuencias mismas y principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de datos.

Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos arreglada por un humano.



Escribe un comentario o lo que quieras sobre Base de datos biológica (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!