x
1

FASTA



FASTA es un paquete de software para el alineamiento de secuencias de ADN y proteínas inicialmente descrito como FASTP por David J. Lipman y William R. Pearson en 1985.[1]​ Su legado es el Formato FASTA el cual es ahora muy popular en Bioinformática.

El programa original FASTP fue diseñado para búsquedas de similitud en proteínas. Debido al crecimiento exponencial de la información genética, y a la velocidad y memoria limitada de los años 80, métodos heurísticos fueron introducidos para el alineamiento de secuencias y bases de datos completas. FASTA (desarrollado en 1988) añadió la habilidad de hacer búsquedas ADN:ADN, proteína traducida:busquédas de ADN, y también proveyó un programa para evaluar significancia estadística.[2]​ Hay algunos programas en este paquete que permite el alineamiento de secuencias de proteínas y secuencias de ADN. Hoy en día la continua mejora en el rendimiento de las computadoras ha hecho posible búsquedas para alineamiento de secuencias local en bases de datos mediante el uso del Algoritmo Smith-Waterman.

FASTA es pronunciado "fast A", que significa "FAST-All", porque trabaja con cualquier alfabeto, una extensiones son "FAST-P" (proteínas) y "FAST-N" (nucleótidos) para alineamiento.

El actual paquete FASTA contiene programas para proteína:proteína, ADN:ADN, proteína:ADN traducido, y búsquedas ordenadas o no ordenadas de péptidos. Versiones recientes del paquete FASTA incluye algoritmos de búsquedas especialmente traducidos que manejan correctamente los errores frameshift cuando se compara la data de secuencias de nucleótido a proteína.

Adicionalmente a rápidos métodos de búsqueda heurísticos, el paquete FASTA provee SSEARCH, una implementación óptima del Algoritmo Smith-Waterman.

Un mayor enfoque del paquete está en el cálculo de similitud estadística pecisa, de manera que los biólogos puedan juzgar si un alineamiento tiene probabilidad de haber ocurrido por casualidad, o puede ser usado para inferir homología. El paquete FASTA está disponible en fasta.bioch.virginia.edu.[notas 1]

La interfaz web[notas 2]​ para enviar secuencias para búsquedas en las bases de datos en línea del Instituto Europeo de Bioinformática está también disponible usando programas FASTA.

El formato fasta, usado como entrada para este programa, es ahora usado por otras herramientas de búsqueda de bases de datos de secuencias (tales como BLAST) y programas de alineamiento de secuencias (Clustal, T-Coffee, etc.).

FASTA toma un determinado nucleótido o aminoácido y busca una correspondiente base de datos de secuencias usando alineamiento de secuencias locales para encontrar coincidencias en secuencias similares.

El programa FASTA sigue un método heurístico el cual contribuye a la alta velocidad de su ejecución. Este inicialmente observa el patrón de aciertos, coincidencias de palabra a palabra dada una longitud, y marca coincidencias potenciales antes de ejecutar una búsqueda optimizada más demandante de tiempo usando un tipo de algoritmo Smith-Waterman.

El tamaño tomado para una palabra, dado por el parámetro kmer, controla la sensibilidad y velocidad del programa. Incrementar el valor kmer decrementa el número de aciertos de background que son encontrados. De los aciertos que son retornados, el programa busca segmentos que contengan un clúster cerca de los aciertos. Este luego investiga dichos segmentos por una posible coincidencia.


Hay algunas diferencias entre fastn y fastp con relación al tipo de secuencias usadas, pero ambos usan cuatro pasos y calculan tres resultados para describir y formatear los resultados de similitud de secuencias. Estos son:

FASTA no puede remover regiones de baja complejidad antes de alinear las secuencias, como sí es posible con BLAST. Esto podría ser problemático como cuando la secuencia de consulta contiene tales regiones, por ejemplo mini o micro-satélites que repiten la misma corta secuencia frecuentes veces, esto incrementa el puntaje de secuencias no familiares en la base de datos en la cual coincide en esta repetición, lo cual ocurre frecuentemente. Consecuentemente el programa PRSS es añadido en el paquete de distribución FASTA. PRSS revuelve las secuencias coincidentes en la base de datos ya sea del nivel de una letra o segmentos cortos cuya longitud el usuario pueda determinar. Las secuencias revueltas están ahora alineadas otra vez y si el puntaje es aún más alto de lo esperado, es causado por las regiones de baja complejidad siendo mezcladas y mapeadas a la consulta. Por la cantidad del puntaje de las secuencias revueltas aún conseguidas. PRSS ahora puede predecir la significancia del puntaje de las secuencias originales. Mientras sea más alto el puntaje de las secuencias revueltas menos significantes son las coincidencias encontradas entre la base de datos original y la secuencia de consulta.[3]

Los programas FASTA encuentra regiones de similitud local o global entre secuencias de proteínas y ADN, ya sea mediante una búsqueda en bases de datos de proteínas o ADN, o identificando duplicados locales dentro de una secuencia. Otros programas proveen información en la significancia estadística de un alineamiento. Como BLAST, FASTA puede ser usado para inferir relaciones funcionales y evolutivas entre secuencias así como ayudar a identificar miembros de familias de genes.

Proteína

Nucleótidos

Traducidos

Significancia estadística

Duplicaciones locales

Las versiones más recientes de Fasta son la 3.4, 3.5 y 3,6, a continuación se describen los cambios más significativos



Escribe un comentario o lo que quieras sobre FASTA (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!