Fundamentos de Bioinformática: Bases de Datos, Alineamientos y Genómica

Recursos Bioinformáticos

NAR (Nucleic Acids Research) publica anualmente un catálogo de bases de datos con criterios estrictos de contenido, calidad y acceso.

Características clave de las bases de datos:

Estructuradas
Sencillas
Actualizadas
Con hipervínculos

Bases de datos primarias y secundarias

Las primarias obtienen sus datos experimentalmente (ej. secuencias de ADN). Las secundarias deducen su información a partir de las primarias (ej. secuencias de proteínas derivadas de ácidos nucleicos).

Información contenida: Ácidos nucleicos, proteínas, rutas metabólicas y función.

Proveedores principales

EBI: EMBL (ácidos nucleicos), UniProt (secuencias de proteínas; combina Swiss-Prot, TrEMBL y PIR), EntrezGene (genes, RefSeq).
NCBI: GenBank (ácidos nucleicos), PubMed (artículos), NCBI Protein (GenPept).
DDBJ: Genomes (ácidos nucleicos).
SIB (Expasy): Swiss-Prot (base de datos de proteínas altamente depurada).
Georgetown University: PIR (base de datos de secuencias de proteínas).
RCSB: PDB (base de datos de estructuras de proteínas).
INSDC: Base de datos generalista con alta redundancia y menor control de calidad.

Nota: RefSeq es la secuencia de referencia curada en el NCBI.

Secuencias Biológicas

Una secuencia es la sucesión de nucleótidos o aminoácidos. El formato es la codificación necesaria para el procesamiento computacional. La redundancia ocurre al encontrar la misma secuencia repetida en una base de datos.

Formatos de secuencias

Los formatos varían según el uso (almacenaje vs. análisis) y el software. Se pueden convertir mediante herramientas como Readseq.

GenBank: Campos con nombres completos. Solo para nucleótidos (para proteínas se usa GenPept). Incluye anotaciones detalladas.
EMBL: Campos abreviados. Solo para nucleótidos (para proteínas se usa Swiss-Prot/UniProtKB).
FASTA/Pearson: Formato universal para nucleótidos o aminoácidos. Optimizado para el análisis (ahorro de memoria). Las líneas de comentario inician con >.
PIR (NBRF): Formato específico para aminoácidos, similar a FASTA.

Comparación de Secuencias y Alineamientos

El alineamiento consiste en emparejar secuencias para identificar correspondencias. La similitud es un valor porcentual, mientras que la homología implica un ancestro común y una función conservada.

Los alineamientos reflejan la evolución: los mismatches son sustituciones, los gaps representan inserciones o deleciones (indels), y los matches son coincidencias.

Tipos de alineamientos

Por número de secuencias: Por pares o múltiples (útil en filogenia).
Por extensión: Local (regiones de alta similitud) o global (secuencia completa).

Métodos de alineamiento

Dot Plot: Método gráfico cualitativo. Programas: Dotmatcher (ventana/astringencia), Dottup (tamaño de palabra), Polydot.
Programación dinámica: Busca el score máximo. Smith & Waterman (local) y Needleman & Wunsch (global).
Matrices de sustitución: PAM (alineamiento global, proteínas divergentes) y BLOSUM (alineamiento local, proteínas conservadas).

FASTA y BLAST

Programas para búsqueda en bases de datos. BLAST es más rápido y sensible para aminoácidos, mientras que FASTA es más sensible para ácidos nucleicos. Se utilizan estadísticas de Karlin-Altschul (Valor E y Valor P) para determinar la significancia.

CCNt0ZoEMQcEdriIT4NADOwU0oAS8AFAARAA1yCo

Filogenia y Evolución

La filogenia clasifica organismos basándose en relaciones evolutivas. Los árboles filogenéticos pueden ser fenéticos (similitud) o cladísticos (relaciones evolutivas).

Programas de alineamiento múltiple

MSA: Alineamiento óptimo pero lento.
Clustal W: Alineamiento progresivo heurístico, más rápido.

Métodos de construcción de árboles

Máxima Parsimonia: Minimiza el número de cambios evolutivos.
Métodos de distancia: Basados en el número de diferencias (ej. UPGMA, Neighbor-Joining).
Máxima Similitud: Basado en modelos probabilísticos de evolución.

Bioinformática del RNA

El RNA forma estructuras secundarias críticas para su función (mRNA, tRNA, rRNA, ncRNA, miRNA, etc.).

Predicción de estructura secundaria: Mfold, Sfold (basados en energía libre mínima – MFE).
Predicción de estructura terciaria: MC-SYM, RFAM, SCOR, RNABASE.

Búsqueda de Genes y Anotación

La predicción de genes utiliza métodos Ab Initio (basados en señales o contenido) y métodos basados en similitud (alineamiento con ESTs o proteínas).

Herramientas: Genscan, Geneid, ORF Finder, RepeatMasker, VECSCREEN.
Navegadores de genoma: UCSC Genome Browser, NCBI Map Viewer, ENSEMBL.

Secuencias de Proteínas y Bases de Datos

Conceptos: Dominio, motivo, perfil, HMM y familia.

Herramientas Expasy: ProtParam, PeptideCutter, ProtScale, ScanProsite.
Bases de datos: InterPro, CATH, SCOP, PDB.
Visualizadores: RasMol, CHIME, MAGE.

Quimioinformática

Aplicaciones en cribado de alto rendimiento (High-Throughput Screening) y diseño de fármacos.

Formatos: SMILES (el más utilizado), CML, GROMACS.
Recursos: PubChem, ChEBI, Molinspiration.

9k=

OC(=O)C(N)CC1=CC=C(O)C=C1

Otras herramientas: Primer-BLAST (diseño de primers), NEBcutter (enzimas de restricción).