En biología computacional, la predicción de la estructura de una proteína de novo se refiere a un proceso algorítmico mediante el cual se predice la estructura terciaria de una proteína a partir de su secuencia primaria de aminoácidos. En la actualidad, algunos de los métodos más exitosos tienen una probabilidad razonable de predecir los pliegues de proteínas pequeñas de un solo dominio dentro de 1,5 Ángstroms sobre toda la estructura[1]
La predicción de la estructura de una proteína de novo ha recibido diferentes nombres como modelado ab initio,[2] modelado basado en física,[3] modelado libre[4] o también llamado modelado de novo,[5] es útil cuando no se dispone de homólogos estructurales en bases de datos, lo que obliga a generar estructuras desde cero a través de búsquedas conformacionales y funciones de energía diseñadas específicamente para encontrar conformación de menor energía.[6]
El diseño de novo se apoya en principios físicos y computacionales con la finalidad de generar proteínas que adopten estructuras estables y específicas.
Métodos como Rosetta,[7] I-Tasser[8] y FragFold [9]hacen uso de fragmentos de varios tamaños de estructuras proteicas homólogas o no, para predecir la estructura de una proteína. El programa Rosetta desarrollado por el grupo Baker es el más exitoso en esta área. Sin embargo, solo un pequeño subconjunto de proteínas podría modelarse con alguna precisión, es decir, no es útil para predicciones generales de la estructura de proteínas.[10]

Antecedentes
editarActualmente, existe una gran brecha entre las secuencias de proteínas conocidas y las estructuras de proteínas confirmadas. En 2008, solo el 1% de las secuencias en la base de datos UniProtKB tenían una estructura en el Protein Data Bank (PDB), dejando una brecha de aproximadamente cinco millones.[11] Las técnicas experimentales, como la cristalografía de rayos X con éxito en la cristalización de aproximadamente 80,000 proteínas citosólicas, han tenido éxito limitado, especialmente con las proteínas de membrana.[12] Ante estas limitaciones, el desarrollo de programas informáticos eficientes es considerado como la única opción viable para cerrar esta brecha entre secuencia y estructura.
Los métodos de predicción de estructura de proteínas de novo buscan predecir estructuras terciarias a partir de secuencias, basándose en principios de energía de plegamiento y/o en valores probabilísticos a partir de sus conformaciones. Aunque el modelado de novo originalmente implicaba crear estructuras sin plantillas, en las últimas dos décadas esta definición se ha ampliado mediante el uso de fragmentos, modificando estructuras proteicas existentes para conferir nuevas funciones o mayor estabilidad.[7]
La investigación en esta área se centra en tres aspectos: representaciones simplificadas de proteínas, funciones de energía precisas y métodos eficientes de muestreo. Se muestrea el espacio de conformación para generar estructuras candidatas, guiado por funciones de puntuación y sesgos de secuencia. Luego, se seleccionan las conformaciones más similares a las nativas mediante puntuación y agrupamiento, y, en ocasiones, se ajustan con refinamiento de alta resolución. Existen dos tipos principales de funciones de puntuación: las basadas en la física, que usan modelos matemáticos de interacción molecular, y las basadas en conocimiento, que emplean modelos estadísticos de propiedades de conformaciones nativas.[13]
Back-rub
editarEl término “Back-rub” se refiere al movimiento o mecanismo de flexibilidad conformacional en la estructura proteica mediante la rotación interna de los átomos de carbono alfa de los aminoácidos adyacentes, alterando los ángulos de enlace. Por medio de este ajuste se pueden realizar cambios sutiles en la orientación de los residuos sin causar efectos en la estructura general de la proteína.[14] La versatilidad del “back-rub” también es utilizada en el diseño de secuencias proteicas, donde se exploran diferentes configuraciones del esqueleto buscando optimizar funciones y/o mejorar estabilidad de la proteína. Por lo que se ha empleado en el análisis de la especificidad de reconocimiento molecular, prediciendo la afinidad entre proteínas y ligandos mediante el ajuste dinámico de sus estructuras en función de la interacción.[15]
Aunque el “Back-rub” representa una herramienta importante en el diseño de proteínas, presenta limitaciones, donde la flexibilidad estructural podría complicar la simulación en proteínas de gran tamaño o cuando existan mutaciones múltiples. Ante tal situación, existen otras restricciones para generar modelos precisos y no comprometer a la proteína.[16]
Haces helicoidales
editarLos haces helicoidales son un motivo estructural fundamental en el diseño de novo de proteínas debido a su estabilidad y capacidad para ensamblarse en configuraciones predictivas. Estas estructuras, formadas por hélices alfa empaquetadas, ofrecen versatilidad para funciones específicas, desde la unión de ligandos hasta la catálisis. Al diseñar proteínas de novo, se emplean principios de empaquetamiento y patrones de interacción de residuos para crear haces helicoidales con topologías únicas y estables, optimizando la función deseada en aplicaciones biomédicas y biotecnológicas [10]
Optimización de secuencias
editarLa optimización de secuencias es un paso crucial en el diseño de novo de proteínas, ya que se enfoca en identificar combinaciones de aminoácidos que aseguran la estabilidad estructural y la funcionalidad de las proteínas diseñadas. Este proceso utiliza métodos computacionales avanzados y algoritmos de optimización, como Monte Carlo y dinámica molecular, para evaluar y refinar secuencias de aminoácidos en función de su energía libre.[17]
Es por ello, que el diseño computacional de proteínas puede definirse como un problema de optimización, ya que el usuario busca determinar una o varias secuencias de aminoácidos de baja energía que se adapten a la estructura deseada de manera estable manteniendo la función objetivo de la misma.[17]
Estos algoritmos exploran un amplio rango de secuencias, realizando ajustes en las cadenas laterales y las interacciones específicas para minimizar la energía total de la proteína, asegurando así su plegamiento correcto y estabilidad en condiciones experimentales.[18]
Posterior al diseño del esqueleto se selecciona los tipos de cadenas laterales de aminoácidos y conformaciones para estabilizar el esqueleto y adoptar geometrías específicas del sitio activo. El diseño de cadenas laterales puede formularse como un problema de optimización discreta al requerir una combinación de rotámeros que minimice la energía de una estructura.[10]
Ensamblaje de proteínas
editarEl ensamblaje de secuencias en el diseño de novo de proteínas permite construir estructuras complejas a partir de módulos estructurales predefinidos, conocidos como bloques de construcción o fragmentos de proteínas. Estos bloques se ensamblan de manera específica para crear configuraciones novedosas y funcionales que mantienen estabilidad y versatilidad. En este proceso, los investigadores emplean enfoques basados en modelos computacionales que optimizan la posición y orientación de cada segmento, logrando configuraciones deseadas a nivel atómico. Este método de ensamblaje permite aprovechar combinaciones de hélices, láminas beta y bucles flexibles, ajustados para propósitos específicos, como la unión de moléculas pequeñas o la activación en cascadas de señalización celular.[6]
El proceso de ensamblaje y optimización de estos segmentos también implica ajustar las interacciones de aminoácidos clave para asegurar un correcto plegamiento y minimizar la energía libre de la estructura final, lo que aumenta la viabilidad y la efectividad de las proteínas diseñadas.[19][20][21]
La secuencia de aminoácidos determina la estructura terciaria de la proteína
editarExisten varias evidencias de que la secuencia primaria de una proteína contiene toda la información necesaria para su estructura tridimensional, sustentando la posibilidad de predicción de estructuras de novo. Primero, las proteínas con funciones distintas tienen secuencias de aminoácidos diferentes. Segundo, mutaciones en un solo aminoácido pueden llevar a enfermedades, como la distrofia muscular de Duchenne en humanos. Tercero, proteínas con funciones similares en distintas especies, como la ubiquitina, tienen secuencias similares como en Drosophila melanogaster y Homo sapiens. Finalmente, la velocidad del plegamiento sugiere que este proceso no es aleatorio y debe estar determinado por la secuencia, lo que permite su modelado.
Christian Anfinsen demostró una de las evidencias más sólidas en la década de 1950, donde la información para modelar la estructura terciaria de una proteína está en su secuencia de aminoácidos. En su experimento, desnaturalizó ribonucleasa A usando urea y un agente reductor. Al retirar estos compuestos, la proteína se replegó espontáneamente, recuperando su función, lo cual confirma que la estructura terciaria está codificada en la secuencia primaria. Sin embargo, en la célula, muchas proteínas necesitan chaperonas moleculares para plegarse correctamente, mostrando que, aunque la forma general está en la secuencia, el plegamiento adecuado puede requerir asistencia.[22]
Requisitos de modelado de novo exitosos
editarLos predictores del modelado de novo funcionan generando conformaciones candidatas y luego eligiendo en función de la estabilidad termodinámica y su estado energético. Los predictores exitosos toman en cuenta los siguientes factores:
- 1) Una función energética precisa correspondiente al estado termodinámico más estable.
- 2) Un método de búsqueda eficiente capaz de identificar estados de baja energía por medio de la búsqueda conformacional.
- 3) La capacidad de seleccionar modelos similares a los nativos a partir de estructuras señuelo[23]
Los programas de modelación realizarán una búsqueda en el espacio tridimensional y producirán conformaciones de proteínas candidatas. Cuando una proteína se acerque a su estado nativo correctamente plegado, la entropía y la energía libre disminuirán. Los programas de novo seleccionaran las posibles candidatas con energías libres bajas, las cuales tienen más probabilidad de ser correctas que aquellas estructuras con energías libres más altas.[1]
Sin embargo, algunos métodos de novo funcionan enumerando primero todo el espacio conformacional utilizando una representación simplificada de la estructura de una proteína y luego seleccionando las que tienen más probabilidades de ser similares a las nativas. Un ejemplo de este enfoque es el basado en la representación de pliegues de proteínas utilizando redes tetraédricas y la construcción de todos los modelos de átomos sobre todas las conformaciones posibles obtenidas utilizando la representación tetraédrica. Este enfoque se utilizó con éxito en CASP3 para predecir un plegamiento de proteína.[13]

Estrategias de predicción
editarSi una proteína de estructura terciaria conocida comparte al menos el 30% de su secuencia con un homólogo potencial de estructura indeterminada, se pueden utilizar métodos comparativos que superponen la supuesta estructura desconocida con la conocida para predecir la estructura probable de la desconocida. Sin embargo, por debajo de este umbral se utilizan otras tres clases de estrategias para determinar la posible estructura a partir de un modelo inicial: predicción de proteínas ab initio, reconocimiento de pliegues y enhebrado.
- Métodos ab initio: En los métodos ab initio, se realiza un esfuerzo inicial para dilucidar las estructuras secundarias (hélice alfa, lámina beta, giro beta, etc.) a partir de la estructura primaria mediante la utilización de parámetros fisicoquímicos y algoritmos de redes neuronales. A partir de ese punto, los algoritmos predicen el plegamiento terciario. Una desventaja de esta estrategia es que todavía no es capaz de incorporar las ubicaciones y la orientación de las cadenas laterales de los aminoácidos.[6]
- Predicción de pliegues: en las estrategias de reconocimiento de pliegues, primero se realiza una predicción de la estructura secundaria y luego se compara con una biblioteca de pliegues de proteínas conocidos, como CATH o SCOP, o lo que se conoce como una "tabla periódica" de posibles formas de estructura secundaria. Luego se asigna un puntaje de confianza a las coincidencias probables.
- Enhebrado: En las estrategias de enhebrado, la técnica de reconocimiento de pliegues se amplía aún más. En este proceso, se utilizan funciones de energía basadas empíricamente para la interacción de pares de residuos para colocar la proteína desconocida en una posible cadena principal que se ajuste mejor, acomodando los espacios donde sea apropiado. Luego se acentúan las mejores interacciones para discriminar entre posibles señuelos y predecir la conformación más probable.
El objetivo de las estrategias de pliegue y enhebrado es determinar si un pliegue de una proteína desconocida es similar a un dominio de una proteína conocida depositada en una base de datos, como el banco de datos de proteínas (PDB). Esto contrasta con los métodos de novo (ab initio), donde la estructura se determina utilizando un enfoque basado en la física en lugar de comparar los pliegues de la proteína con las estructuras en una base de datos.[24]
Funciones de energía
editarLas funciones de energía para el modelado ab initio se clasifican en 2 grupos: a) funciones de energía basada en física y b) funciones de energía basadas en conocimiento, dependiendo de si se hace uso o no de estadísticas de las estructuras 3D de proteínas en el PDB. A continuación, se muestran algoritmos de minimización de energía:[6]
| Algoritmos | Tipo de campo de fuerza | Método de búsqueda | Selección de modelo |
|---|---|---|---|
| AMBER/CHARMM/OPLS | Basado en física | Dinámica molecular (MD) | Energía más baja |
| UNRES | Basado en física | Templado en el espacio conformacional (CSA) | Clustering/energía libre |
| ASTRO-FOLD | Basado en física | aBB/CSA/MD | Energía más baja |
| ROSETTA | Basado en física y conocimiento | Monte Carlo (MC) | Clustering/energía libre |
| TASSER/Chunk-TASSER | Basado en conocimiento | Monte Carlo (MC) | Clustering/energía libre |
| I-TASSER | Basado en conocimiento | Monte Carlo (MC) | Clustering/energía libre |
| QUARK | Basado en conocimiento | Monte Carlo (MC) | Clustering/energía libre |
Dinámica Molecular (MD)
editarLa dinámica molecular es útil para observar la estabilidad de las proteínas y las interacciones a nivel atómico. Se utiliza también en refinamiento de modelos cuando las estructuras iniciales están cerca del estado nativo, permitiendo ajustes precisos en las cadenas laterales y estructuras secundarias.[6]
Monte Carlo (MC)
editarEl Método de Montecarlo utiliza simulaciones aleatorias para explorar diferentes configuraciones de proteínas y encontrar la conformación de menor energía. Estas técnicas suelen ser más rápidas que la dinámica molecular, ya que, permiten realizar una especie de “saltos” más amplios en la configuración, en lugar de calcular las iteraciones en cada paso.[6]
Algoritmo genético
editarCorresponde a un enfoque heurístico basado en la selección natural para problemas de optimización, y modifica una población de soluciones individuales para encontrar estructuras óptimas.
Uno de los algoritmos genéticos más exitosos desarrollados para la búsqueda conformacional proteína es el templado en el espacio conformacional (CSA Conformational space annealing, por sus siglas en inglés).[6] Este algoritmo explora ampliamente el espacio conformacional de mínimos locales al inicio y luego enfoca la búsqueda en regiones de baja energía. Para ello, emplea un límite de distancia, que actúa como "temperatura" en el templado simulado y controla la diversidad conformacional, comenzando con un valor alto para asegurar diversidad y reduciéndose progresivamente.
Servidores web para la predicción de la estructura de proteínas sin plantillas
editarActualmente existen servidores web para la predicción de la estructura proteica con plantillas. A continuación se muestran algunos:[25]
| Servidor | URL | Métodos subyacentes | Evaluación | Máximo de modelos entregados | Estimación de calidad | Producción |
| QUARK C | https://zhanglab.ccmb.med.umich.edu/C-QUARK/ | Predicción de contacto asistida por ML | CASP13 | 5 | Puntuación C propia (similar a QUARK) más puntuación TM estimada y RMSD | Modelos y mapa de contacto |
| CITASSER | https://zhanglab.ccmb.med.umich.edu/CI-TASSER/ | Predicción de contacto asistida por ML | CASP13 | 5 | Puntuación C propia (similar a I-TASSER) más puntuación TM estimada y RMSD | Modelos, mapa de contactos predichos y análisis extendido tipo I-TASSER (coincidencias estructurales de PDB, predicciones de ontología genética, ligandos predichos, etc.) |
| RaptorX-Contacto | http://raptorx.uchicago.edu/ContactMap/ | Predicción de contacto asistida por ML | CASP13 | 5 | Puntuación propia más puntuación por residuo estimada a partir de violaciones de restricción del SNC | Modelos y mapa de contactos previstos |
| RaptorX-DeepModeller | http://raptorx.uchicago.edu/StructPredV2/predict/ | Predicción de distancia y contacto asistida por ML | CASP13 | 5 | Puntuación propia más puntuaciones por residuo estimadas a partir de violaciones de restricción del SNC | Modelos y mapas de predicción de contactos y distancias |
| Robetta | https://robetta.bakerlab.org/ | Rosetta asistida por predicciones de contacto y modelado de homología utilizando PDB y el conjunto de datos Gremlin/Rosetta | CASP13 | 5 | GDTTS estimado para calidad global (relacionado linealmente con la puntuación TM), más estimaciones de calidad por residuo | Modelos, predicciones intermedias, gráficos de estimación de calidad |
| trRosetta | https://yanglab.nankai.edu.cn/trRosetta/ | Predicción de contacto, distancia y orientación | No disponible; presumiblemente similar a AlphaFold | 5 | Puntuación TM estimada y RMSD | Modelos, contactos previstos, distancias y orientaciones |
Métricas para la validación de predicciones computacionales
editar| Métrica | Descripción | Representación | Interpretación | Referencia |
| Gráfico de Ramachandran | Representación de los ángulos diedros φ (phi) y ψ (psi) de los enlaces peptídicos en proteínas. | ![]() |
Las combinaciones de ángulos φ y ψ deben de estar dentro de las regiones permitidas. Con excepción de G y P. | [26] |
| RMSD | Cuantifica la diferencia promedio entre átomos equivalentes en 2 estructuras tridimensionales (una experimental y un modelo). | RMSD bajo: alta similitud y precisión del modelo (entre la estructura predicha y la experimental). | [27] | |
| GDT-TS | Mide la similitud de 2 estructuras a partir de la superposición de sus átomos de carbono a diferentes umbrales de distancia. | Valor de 100 de GDT-TS: superposición perfecta.
Valor decreciente: refleja discrepancias entre el modelo y la estructura nativa. |
[28] | |
| Puntuación TM | Evalúa la similitud estructural según la ponderación de residuos en función de la distancia. | Valor de 0.8-1: alta similitud estructural.
Valor inferior a 0.2: sugieren poca o nula semejanza entre estructuras. |
[29] | |
| lDDT | Mide qué tan bien se reproduce el entorno en una estructura de referencia en un modelo de proteína. | La puntuación lDDT no cumple con los criterios matemáticos para ser una métrica. | La puntuación varía de 0 a 1, y los valores más altos indican una mejor concordancia entre el modelo y la referencia. | [30] |
| Puntuación CAD | Es una evaluación que cuantifica las diferencias entre contactos físicos en un modelo y una estructura de referencia. |
|
Valor de 1: identidad entre el modelo con el objetivo.
Valor de 0: si un contacto no se produce con precisión. |
[31] |
| Rama-Z score | Describe qué tan “normal” es un modelo en comparación con un conjunto de estructuras de alta resolución de referencia | Valores "sospechosos" de Rama-Z (2 < |Rama-Z| < 3) | [32] |
Paquetes de software para la validación de estructuras proteicas
editarActualmente se cuentan con paquetes de software que realizan el cálculo de las métricas para la validación
| Software | Descripción | Métricas | Acceso | Referencia |
| Procheck | Proporciona una verificación detallada de la estereoquímica de una estructura proteica. Sus salidas incluyen gráficos en formato PostScript y un listado completo de cada residuo. Estos proporcionan una evaluación de la calidad general de la estructura en comparación con estructuras bien refinadas de la misma resolución y también resaltan las regiones que pueden requerir una investigación adicional. Los programas PROCHECK son útiles para evaluar la calidad no solo de estructuras de proteínas en proceso de resolución, sino también de estructuras existentes y de aquellas modeladas sobre estructuras conocidas. | 1. Gráfico de Ramachandran
2. Gráficos Ramachandran de Gly y Pro 3. Gráficos de Chi1-Chi2 4. Parámetros de la cadena principal 5. Parámetros de la cadena lateral 6. Propiedades de los residuos 7. Distribuciones de longitud de enlace de la cadena principal 8. Distribuciones de ángulo de enlace de la cadena principal 9. Distancias RMS desde la planaridad 10. Gráficos de geometría distorsionada |
Descarga
https://www.ebi.ac.uk/thorntonsrv/software/PROCHECK/ Web |
[33] |
| Molprobity | MolProbity es un servicio web de validación de estructuras que proporciona una evaluación sólida y de amplio espectro de la calidad de los modelos tanto a nivel global como local para proteínas y ácidos nucleicos. | Choques, Enlaces de hidrógeno, Contactos de van der Walls, Evaluación de geometría, Evaluación de Ramachandran, Evaluación de rotámeros, Desviaciones de C-beta, Evaluación de péptidos cis, Evaluación de la cadena principal de CaBLAM | http://molprobity.biochem.duke.edu/ | [34] |
| WHAT IF | Útil para visualizar, manipular y analizar pequeñas moléculas, proteínas, ácidos nucleicos y sus interacciones. Incluye una base de datos relacional de estructuras de proteínas. El programa es adecuado para la mayoría de los trabajos cristalográficos comunes. La operación basada en menús de WHAT IF, junto con el uso de valores predeterminados cuando se requiere la entrada del usuario, facilita su uso, manteniendo la flexibilidad para estudios más avanzados. | Construir/verificar/reparar modelo, Validación de estructura, Análisis de un residuo, Análisis de proteínas, Gráficos 2D, Gráficos 3D, Hidrógeno (enlaces), Accesibilidad, Contactos atómicos, Manipulación de coordenadas, Relacionado con rotámeros, Relacionado con cisteína, agua, iones, Simetría de cristales, Predicción de mutaciones | https://swift.cmbi.umcn.nl/servers/html/index.html | [35] |
| Verify3D | Determina la compatibilidad de un modelo atómico (3D) con su propia secuencia de aminoácidos (1D) asignando una clase estructural según su ubicación y entorno (alfa, beta, bucle, polar, no polar, etc.) y comparando los resultados con estructuras de buena calidad. | Puntaje 3D-1D | https://www.doe-mbi.ucla.edu/verify3d/ | [36] |
| ProsaII | Es una herramienta que se emplea en el refinamiento y validación de estructuras proteicas experimentales y en la predicción y modelado de estructuras. Es una extensión sencilla y fácil de usar del programa ProSA que explota las ventajas de las aplicaciones web para la visualización de puntuaciones y gráficos de energía que resaltan los problemas potenciales detectados en las estructuras. | Puntuación Z:
Calidad del modelo local |
Descargar | [37] |
| Protein Structure Validation Software suite (PSVS) | Proporciona análisis de restricciones estándar, estadísticas sobre la bondad de ajuste entre estructuras y datos experimentales, y puntuaciones de calidad de estructura basadas en el conocimiento en un formato estandarizado adecuado para la integración de bases de datos. El análisis proporciona medidas globales y específicas del sitio de la calidad de la estructura de las proteínas. Las medidas de calidad global se informan como puntuaciones Z, basadas en la calibración con un conjunto de estructuras cristalinas de rayos X de alta resolución. | Integra en una única interfaz los análisis de varias herramientas de evaluación de la calidad de la estructura ampliamente utilizadas. | https://bio.tools/psvs | [38] |
Limitaciones de los métodos de predicción de novo
editarUna limitación importante de los métodos de predicción de proteínas de novo es la extraordinaria cantidad de tiempo de computadora que se requiere para resolver con éxito la conformación nativa de una proteína. Los métodos distribuidos, como Rosetta@home, han intentado mejorar esto reclutando individuos que luego ofrecen sus servicios voluntariamente para usar el tiempo libre que tienen en la computadora en casa para procesar datos. Sin embargo, incluso estos métodos enfrentan desafíos. Por ejemplo, un equipo de investigadores de la Universidad de Washington y el Instituto Médico Howard Hughes utilizó un método distribuido para predecir la estructura terciaria de la proteína T0283 a partir de su secuencia de aminoácidos. En una prueba a ciegas que comparó la precisión de esta técnica distribuida con la estructura confirmada experimentalmente depositada en el Banco de Datos de Proteínas (PDB), el predictor produjo una excelente concordancia con la estructura depositada. Sin embargo, el tiempo y la cantidad de computadoras necesarias para esta hazaña fueron enormes: casi dos años y aproximadamente 70.000 computadoras hogareñas, respectivamente.[39]
Un método propuesto para superar tales limitaciones implica el uso de modelos de Markov (véase Monte Carlo de cadenas de Markov ). Una posibilidad es que dichos modelos se puedan construir para ayudar con el cálculo de energía libre y la predicción de la estructura de las proteínas, quizás refinando las simulaciones computacionales.[40] Otra forma de sortear las limitaciones de potencia computacional es utilizar modelos de grano grueso . Los modelos de proteínas de grano grueso permiten la predicción de la estructura de novo de proteínas pequeñas o fragmentos de proteínas grandes en un tiempo computacional corto. [41]
Predicción de la estructura de proteínas de novo
editarOtra limitación del software de predicción de la estructura de proteínas afecta a una clase específica de proteínas: las proteínas de novo . El software de predicción de estructuras como AlphaFold se basa en datos coevolutivos derivados de la alineación de secuencias múltiples (MSA) y secuencias de proteínas homólogas para predecir las estructuras de las proteínas. Sin embargo, por definición, las proteínas de novo carecen de secuencias homólogas, ya que son evolutivamente nuevas. [42] Por lo tanto, se puede esperar que el software de predicción de estructura que se basa en dicha homología tenga un desempeño deficiente en la predicción de estructuras de proteínas de novo . [43] Para mejorar la precisión de la predicción de la estructura de las proteínas de novo, se han desarrollado nuevos programas. Es decir, ESMFold es un modelo de lenguaje grande (LLM) recientemente desarrollado para la predicción de estructuras de proteínas basándose únicamente en sus secuencias de aminoácidos. Puede predecir una estructura 3D de una proteína con resolución a nivel atómico con una entrada de una sola secuencia de aminoácidos. [44]
Evaluación crítica de la predicción de la estructura de las proteínas
editar“El progreso de todas las variantes de los métodos computacionales de predicción de la estructura de las proteínas se evalúa en los experimentos de Evaluación crítica de la predicción de la estructura de las proteínas ( CASP ) que se realizan cada dos años en toda la comunidad. En los experimentos CASP, se invita a los grupos de investigación a aplicar sus métodos de predicción a secuencias de aminoácidos cuya estructura nativa no se conoce, pero que está por determinar y publicarse pronto. Aunque el número de secuencias de aminoácidos proporcionadas por los experimentos CASP es pequeño, estas competiciones proporcionan una buena medida para comparar los métodos y el progreso en el campo de una manera que podría decirse que es imparcial[45]”.
Notas
editar- Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Predicción ab initio de la estructura de proteínas utilizando un enfoque jerárquico combinado. (1999). Proteínas Supl 3: 194-198.
- J. Skolnick, Y. Zhang y A. Kolinski. Modelado ab initio. Genómica estructural y biología estructural de alto rendimiento. M. Sundsrom, M. Norin y A. Edwards, eds. 2006: 137-162.
- J Lee, S Wu, Y Zhang. Predicción de la estructura de proteínas ab initio. De la estructura de las proteínas a la función con bioinformática, Capítulo 1, Editado por DJ Rigden, (Springer-Londres, 2009), P. 1-26.
Véase también
editar- Predicción de la estructura de las proteínas
- Software de predicción de la estructura de proteínas
- Diseño de proteínas
Referencias
editar- ↑ a b Dill, Ken A; Ozkan, S Banu; Weikl, Thomas R; Chodera, John D; Voelz, Vincent A (1 de junio de 2007). «The protein folding problem: when will it be solved?». Current Opinion in Structural Biology. Nucleic acids / Sequences and topology 17 (3): 342-346. ISSN 0959-440X. doi:10.1016/j.sbi.2007.06.001. Consultado el 13 de noviembre de 2024.
- ↑ Klepeis, John L.; Wei, Yinan; Hecht, Michael H.; Floudas, Christodoulos A. (15 de febrero de 2005). «Ab initio prediction of the three‐dimensional structure of a de novo designed protein: A double‐blind case study». Proteins: Structure, Function, and Bioinformatics (en inglés) 58 (3): 560-570. ISSN 0887-3585. doi:10.1002/prot.20338. Consultado el 13 de noviembre de 2024.
- ↑ Ołdziej, S.; Czaplewski, C.; Liwo, A.; Chinchio, M.; Nanias, M.; Vila, J. A.; Khalili, M.; Arnautova, Y. A. et al. (24 de mayo de 2005). «Physics-based protein-structure prediction using a hierarchical protocol based on the UNRES force field: Assessment in two blind tests». Proceedings of the National Academy of Sciences (en inglés) 102 (21): 7547-7552. ISSN 0027-8424. PMC 1140449. PMID 15894609. doi:10.1073/pnas.0502655102. Consultado el 13 de noviembre de 2024.
- ↑ Jauch, Ralf; Yeo, Hock Chuan; Kolatkar, Prasanna R.; Clarke, Neil D. (2007). «Assessment of CASP7 structure predictions for template free targets». Proteins: Structure, Function, and Bioinformatics (en inglés) 69 (S8): 57-67. doi:10.1002/prot.21771. Consultado el 13 de noviembre de 2024.
- ↑ Bradley, Philip; Misura, Kira M. S.; Baker, David (16 de septiembre de 2005). «Toward High-Resolution de Novo Structure Prediction for Small Proteins». Science (en inglés) 309 (5742): 1868-1871. ISSN 0036-8075. doi:10.1126/science.1113801. Consultado el 13 de noviembre de 2024.
- ↑ a b c d e f g Lee, Jooyoung; Freddolino, Peter L.; Zhang, Yang (2017). J. Rigden, Daniel, ed. Ab Initio Protein Structure Prediction (en inglés). Springer Netherlands. pp. 3-35. ISBN 978-94-024-1069-3. doi:10.1007/978-94-024-1069-3_1. Consultado el 13 de noviembre de 2024.
- ↑ a b Elofsson, Arne (1 de junio de 2023). «Progress at protein structure prediction, as seen in CASP15». Current Opinion in Structural Biology 80: 102594. ISSN 0959-440X. doi:10.1016/j.sbi.2023.102594. Consultado el 13 de noviembre de 2024.
- ↑ Zhang, Yang (2009-01). «I‐TASSER: Fully automated protein structure prediction in CASP8». Proteins: Structure, Function, and Bioinformatics (en inglés) 77 (S9): 100-113. ISSN 0887-3585. PMC 2782770. PMID 19768687. doi:10.1002/prot.22588. Consultado el 13 de noviembre de 2024.
- ↑ Jones, David T. (2001). «Predicting novel protein folds by using FRAGFOLD». Proteins: Structure, Function, and Genetics (en inglés) 45 (S5): 127-132. ISSN 0887-3585. doi:10.1002/prot.1171. Consultado el 13 de noviembre de 2024.
- ↑ a b c Pan, Xingjie; Kortemme, Tanja (2021-01). «Recent advances in de novo protein design: Principles, methods, and applications». Journal of Biological Chemistry 296: 100558. ISSN 0021-9258. PMC 8065224. PMID 33744284. doi:10.1016/j.jbc.2021.100558. Consultado el 13 de noviembre de 2024.
- ↑ From Protein Structure to Function with Bioinformatics (en inglés). doi:10.1007/978-1-4020-9058-5. Consultado el 13 de noviembre de 2024.
- ↑ Yonath, Ada (1 de octubre de 2011). «X-ray crystallography at the heart of life science». Current Opinion in Structural Biology. Carbohydrates and glycoconjugates/Biophysical methods 21 (5): 622-626. ISSN 0959-440X. doi:10.1016/j.sbi.2011.07.005. Consultado el 13 de noviembre de 2024.
- ↑ a b Samudrala, Ram; Moult, John (6 de febrero de 1998). «An all-atom distance-dependent conditional probability discriminatory function for protein structure prediction1». Journal of Molecular Biology 275 (5): 895-916. ISSN 0022-2836. doi:10.1006/jmbi.1997.1479. Consultado el 13 de noviembre de 2024.
- ↑ academic.oup.com. doi:10.1093/bioinformatics/btn169 https://academic.oup.com/bioinformatics/article/24/13/i196/233217
|url=sin título (ayuda). Consultado el 13 de noviembre de 2024. - ↑ Bouchiba, Younes; Cortés, Juan; Schiex, Thomas; Barbe, Sophie (2021). «Molecular flexibility in computational protein design: an algorithmic perspective». Protein Engineering, Design and Selection 34. ISSN 1741-0126. doi:10.1093/protein/gzab011. Consultado el 13 de noviembre de 2024.
- ↑ Gainza, Pablo; Nisonoff, Hunter M; Donald, Bruce R (1 de agosto de 2016). «Algorithms for protein design». Current Opinion in Structural Biology. Engineering and design • Membranes 39: 16-26. ISSN 0959-440X. PMC 5065368. PMID 27086078. doi:10.1016/j.sbi.2016.03.006. Consultado el 13 de noviembre de 2024.
- ↑ a b Rocklin, Gabriel J.; Chidyausiku, Tamuka M.; Goreshnik, Inna; Ford, Alex; Houliston, Scott; Lemak, Alexander; Carter, Lauren; Ravichandran, Rashmi et al. (14 de julio de 2017). «Global analysis of protein folding using massively parallel design, synthesis, and testing». Science (en inglés) 357 (6347): 168-175. ISSN 0036-8075. PMC 5568797. PMID 28706065. doi:10.1126/science.aan0693. Consultado el 13 de noviembre de 2024.
- ↑ D’Souza, Areetha; Bhattacharjya, Surajit (16 de febrero de 2021). «De Novo -Designed β-Sheet Heme Proteins». Biochemistry (en inglés) 60 (6): 431-439. ISSN 0006-2960. doi:10.1021/acs.biochem.0c00662. Consultado el 13 de noviembre de 2024.
- ↑ Chen, Zibo; Boyken, Scott E.; Jia, Mengxuan; Busch, Florian; Flores-Solis, David; Bick, Matthew J.; Lu, Peilong; VanAernum, Zachary L. et al. (2019-01). «Programmable design of orthogonal protein heterodimers». Nature (en inglés) 565 (7737): 106-111. ISSN 1476-4687. PMC 6537907. PMID 30568301. doi:10.1038/s41586-018-0802-y. Consultado el 13 de noviembre de 2024.
- ↑ Fallas, Jorge A.; Ueda, George; Sheffler, William; Nguyen, Vanessa; McNamara, Dan E.; Sankaran, Banumathi; Pereira, Jose Henrique; Parmeggiani, Fabio et al. (2017-04). «Computational design of self-assembling cyclic protein homo-oligomers». Nature Chemistry (en inglés) 9 (4): 353-360. ISSN 1755-4349. PMC 5367466. PMID 28338692. doi:10.1038/nchem.2673. Consultado el 13 de noviembre de 2024.
- ↑ Votteler, Jörg; Ogohara, Cassandra; Yi, Sue; Hsia, Yang; Nattermann, Una; Belnap, David M.; King, Neil P.; Sundquist, Wesley I. (2016-12). «Designed proteins induce the formation of nanocage-containing extracellular vesicles». Nature (en inglés) 540 (7632): 292-295. ISSN 1476-4687. PMC 5729044. PMID 27919066. doi:10.1038/nature20607. Consultado el 13 de noviembre de 2024.
- ↑ Nelson, David L.; Cox, Michael M. (2001). Lehninger Biochemie. Springer-Lehrbuch. Springer Berlin Heidelberg. ISBN 978-3-662-08290-4. doi:10.1007/978-3-662-08289-8. Consultado el 13 de noviembre de 2024.
- ↑ Rigden, Daniel John, ed. (2009). From Protein Structure to Function with Bioinformatics (en inglés). Springer Netherlands. ISBN 978-1-4020-9057-8. doi:10.1007/978-1-4020-9058-5. Consultado el 13 de noviembre de 2024.
- ↑ Gibson, Greg; Muse, Spencer V. (2009). A primer of genome science (3rd ed edición). Sinauer Associates. ISBN 978-0-87893-236-8. OCLC 271597931. Consultado el 13 de noviembre de 2024.
- ↑ academic.oup.com https://academic.oup.com/bib/article/22/3/bbaa139/5870389?login=false
|url=sin título (ayuda). Consultado el 13 de noviembre de 2024. - ↑ Ramachandran, G. N.; Ramakrishnan, C.; Sasisekharan, V. (1 de julio de 1963). «Stereochemistry of polypeptide chain configurations». Journal of Molecular Biology 7 (1): 95-99. ISSN 0022-2836. doi:10.1016/S0022-2836(63)80023-6. Consultado el 13 de noviembre de 2024.
- ↑ Bagaria, Anurag; Jaravine, Victor; Huang, Yuanpeng J.; Montelione, Gaetano T.; Güntert, Peter (2012-02). «Protein structure validation by generalized linear model root‐mean‐square deviation prediction». Protein Science (en inglés) 21 (2): 229-238. ISSN 0961-8368. PMC 3324767. PMID 22113924. doi:10.1002/pro.2007. Consultado el 13 de noviembre de 2024.
- ↑ Zemla, A. (1 de julio de 2003). «LGA: a method for finding 3D similarities in protein structures». Nucleic Acids Research (en inglés) 31 (13): 3370-3374. ISSN 1362-4962. PMC 168977. PMID 12824330. doi:10.1093/nar/gkg571. Consultado el 13 de noviembre de 2024.
- ↑ Zhang, Yang; Skolnick, Jeffrey (2004-12). «Scoring function for automated assessment of protein structure template quality». Proteins: Structure, Function, and Bioinformatics (en inglés) 57 (4): 702-710. ISSN 0887-3585. doi:10.1002/prot.20264. Consultado el 13 de noviembre de 2024.
- ↑ academic.oup.com. doi:10.1093/bioinformatics/btt473 https://academic.oup.com/bioinformatics/article/29/21/2722/195896
|url=sin título (ayuda). Consultado el 13 de noviembre de 2024. - ↑ Olechnovič, Kliment; Kulberkytė, Eleonora; Venclovas, Česlovas (2013-01). «CAD‐score: A new contact area difference‐based function for evaluation of protein structural models». Proteins: Structure, Function, and Bioinformatics (en inglés) 81 (1): 149-162. ISSN 0887-3585. doi:10.1002/prot.24172. Consultado el 13 de noviembre de 2024.
- ↑ Hooft, Rob W.W.; Sander, Chris; Vriend, Gerrit (1997). «Objectively judging the quality of a protein structure from a Ramachandran plot». Bioinformatics (en inglés) 13 (4): 425-430. ISSN 1367-4803. doi:10.1093/bioinformatics/13.4.425. Consultado el 13 de noviembre de 2024.
- ↑ Laskowski, R. A.; MacArthur, M. W.; Moss, D. S.; Thornton, J. M. (1 de abril de 1993). «PROCHECK: a program to check the stereochemical quality of protein structures». Journal of Applied Crystallography (en inglés) 26 (2): 283-291. ISSN 0021-8898. doi:10.1107/S0021889892009944. Consultado el 13 de noviembre de 2024.
- ↑ Chen, Vincent B.; Arendall, W. Bryan; Headd, Jeffrey J.; Keedy, Daniel A.; Immormino, Robert M.; Kapral, Gary J.; Murray, Laura W.; Richardson, Jane S. et al. (2010-01). «MolProbity: all-atom structure validation for macromolecular crystallography». Acta Crystallographica. Section D, Biological Crystallography 66 (Pt 1): 12-21. ISSN 1399-0047. PMC 2803126. PMID 20057044. doi:10.1107/S0907444909042073. Consultado el 13 de noviembre de 2024.
- ↑ Vriend, G. (1990-03). «WHAT IF: a molecular modeling and drug design program». Journal of Molecular Graphics 8 (1): 52-56, 29. ISSN 0263-7855. PMID 2268628. doi:10.1016/0263-7855(90)80070-v. Consultado el 13 de noviembre de 2024.
- ↑ Eisenberg, D.; Lüthy, R.; Bowie, J. U. (1997). «VERIFY3D: assessment of protein models with three-dimensional profiles». Methods in Enzymology 277: 396-404. ISSN 0076-6879. PMID 9379925. doi:10.1016/s0076-6879(97)77022-8. Consultado el 13 de noviembre de 2024.
- ↑ Sippl, M. J. (1993-12). «Recognition of errors in three-dimensional structures of proteins». Proteins 17 (4): 355-362. ISSN 0887-3585. PMID 8108378. doi:10.1002/prot.340170404. Consultado el 13 de noviembre de 2024.
- ↑ Bhattacharya, Aneerban; Tejero, Roberto; Montelione, Gaetano T. (2007-03). «Evaluating protein structures determined by structural genomics consortia». Proteins: Structure, Function, and Bioinformatics (en inglés) 66 (4): 778-795. ISSN 0887-3585. doi:10.1002/prot.21165. Consultado el 13 de noviembre de 2024.
- ↑ Qian, Bin; Raman, Srivatsan; Das, Rhiju; Bradley, Philip; McCoy, Airlie J.; Read, Randy J.; Baker, David (14 de octubre de 2007). «High-resolution structure prediction and the crystallographic phase problem». Nature 450 (7167): 259-264. ISSN 0028-0836. doi:10.1038/nature06249. Consultado el 13 de noviembre de 2024.
- ↑ Jayachandran, Guha; Vishal, V.; Pande, Vijay S. (24 de abril de 2006). «Using massively parallel simulation and Markovian models to study protein folding: Examining the dynamics of the villin headpiece». The Journal of Chemical Physics 124 (16). ISSN 0021-9606. doi:10.1063/1.2186317. Consultado el 13 de noviembre de 2024.
- ↑ Kmiecik, Sebastian; Gront, Dominik; Kolinski, Michal; Wieteska, Lukasz; Dawid, Aleksandra Elzbieta; Kolinski, Andrzej (22 de junio de 2016). «Coarse-Grained Protein Models and Their Applications». Chemical Reviews 116 (14): 7898-936. ISSN 0009-2665. PMID 27333362. doi:10.1021/acs.chemrev.6b00163.
- ↑ Schmitz, Jonathan F; Bornberg-Bauer, Erich (19 de enero de 2017). «Fact or fiction: updates on how protein-coding genes might emerge de novo from previously non-coding DNA». F1000Research 6: 57. ISSN 2046-1402. PMC 5247788. PMID 28163910. doi:10.12688/f1000research.10079.1.
- ↑ Middendorf, Lasse; Eicholt, Lars A. (June 2024). «Random, de novo, and conserved proteins: How structure and disorder predictors perform differently». Proteins: Structure, Function, and Bioinformatics (en inglés) 92 (6): 757-767. ISSN 0887-3585. PMID 38226524. doi:10.1002/prot.26652.
- ↑ Lin, Zeming; Akin, Halil; Rao, Roshan; Hie, Brian; Zhu, Zhongkai; Lu, Wenting; dos Santos Costa, Allan; Fazel-Zarandi, Maryam et al. (21 de julio de 2022). «Language models of protein sequences at the scale of evolution enable accurate structure prediction». bioRxiv. doi:10.1101/2022.07.20.500902.
- ↑ Floudas, C.A.; Fung, H.K.; McAllister, S.R.; Mönnigmann, M.; Rajgaria, R. (2006-02). «Advances in protein structure prediction and de novo protein design: A review». Chemical Engineering Science 61 (3): 966-988. ISSN 0009-2509. doi:10.1016/j.ces.2005.04.009. Consultado el 13 de noviembre de 2024.
Enlaces externos
editar- CASP
- Folding@Home Archived </link>
- Proyecto HPF
- Foldit Archived </link>
- UniProtKB
- Banco de datos de proteínas (PDB)
- Sistema de análisis de proteínas experto : enlaces a herramientas de predicción de proteínas
Enlaces externos
editar- Esta obra contiene una traducción derivada de «De novo protein structure prediction » de Wikipedia en inglés, concretamente de esta versión, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.





