Servidor en línea de Rosetta que incluye a todo el mundo


XSEDE, Stampede permite a los especialistas en ciencias de la vida predecir y diseñar estructuras biomoleculares
Universidad de Texas en Austin, Texas Advanced Computing CenterShare



IMAGEN: ROSIE es una interfaz web fácil de usar (también conocida como'gateway') que proporciona acceso a la suite de software de Rosetta y encapsula el cuerpo de herramientas en rápida evolución para la...ver más
Crédito: Gray Lab
Nuestros cuerpos están hechos de biomoléculas como proteínas, ácidos nucleicos, grasas y azúcares. Estas biomoléculas están plegadas en estructuras tridimensionales específicas, predeterminadas por las secuencias de ADN y ARN que las construyen, lo que les permite hacer todo lo que necesitan hacer en nuestros cuerpos.
Las biomoléculas son frecuentemente largas y pueden doblarse de muchas maneras diferentes, creando un inmenso número de formas posibles. Para los científicos que tratan de entender cómo funciona una proteína, o cómo diseñar una biomolécula que realiza una acción específica, la tarea de determinar cómo podría verse en 3D es desalentadora.
Para hacer frente a este problema, los científicos han desarrollado algoritmos informáticos que son lo suficientemente inteligentes para trazar las formas tridimensionales de las biomoléculas, o crear otras completamente nuevas, basadas en su secuencia de ADN o ARN. Sin embargo, para ello se necesitan supercomputadoras potentes y software especializado que puedan aprovecharlas.
Uno de los programas más utilizados es Rosetta. Desarrollada originalmente como una herramienta de predicción de estructuras hace más de 17 años en el laboratorio de David Baker de la Universidad de Washington, Rosetta ha sido adaptada para resolver una amplia gama de problemas macromoleculares computacionales comunes. Ha permitido notables avances científicos en biología computacional, incluyendo diseño de proteínas, diseño de enzimas, acoplamiento de ligandos y predicciones de estructuras para macromoléculas biológicas y complejos macromoleculares.
"El problema de la predicción de la estructura es tomar una secuencia y preguntar:'¿Qué es lo que parece'", dijo Jeffrey Gray, profesor de Ingeniería Química y Biomolecular de la Universidad Johns Hopkins y colaborador del proyecto.
"El problema de diseño pregunta:'¿Qué secuencia se doblaría en esta estructura? Eso está en el corazón de Rosetta, pero Rosetta hace muchas otras cosas", dijo Gray.
Con el paso de los años, Rosetta evolucionó de una sola herramienta, a una colección de herramientas, a una gran colaboración llamada RosettaCommons, que incluye más de 50 laboratorios, institutos y centros de investigación gubernamentales (sólo organizaciones sin fines de lucro).
El Portal de la Ciencia ROSIE
Más recientemente, con el apoyo de la National Science Foundation (NSF), se ha transformado una vez más en ROSIE: el servidor en línea de Rosetta que incluye a todo el mundo. ROSIE es una interfaz web fácil de usar (también conocida como'gateway') que proporciona acceso a la suite de software de Rosetta y encapsula el cuerpo de herramientas de rápida evolución para la predicción de estructuras en 3D y el diseño de alta resolución de proteínas, ácidos nucleicos y un número creciente de polímeros no naturales que fueron creados por los miembros de RosettaCommons.
"La idea era tomar esta colaboración de 50 laboratorios e instituciones y hacer una sola puerta de entrada", dijo Gray. "En lugar de duplicar el trabajo que todos los demás estaban haciendo, acordamos trabajar juntos. Decidimos utilizar los recursos de la NSF para el back end con el fin de proporcionar la potencia computacional. Ahora, es fácil mantener 18 servidores web diferentes".
Descrita por primera vez en PLOS Uno en mayo de 2013, continúa añadiendo nuevos elementos. En enero de 2017, un equipo de investigadores, entre ellos Gray, informó en Nature Protocols sobre las últimas adiciones al portal: herramientas de modelado y acoplamiento de anticuerpos llamadas RosettaAntibody y SnugDock que pueden funcionar de forma totalmente automatizada a través del servidor web de ROSIE o manualmente, con control del usuario, en un ordenador personal o en un clúster.
En la actualidad, el portal ROSIE da servicio a unos 5.000 usuarios y ha realizado más de 30.000 trabajos.
Algunos de los cálculos habilitados por ROSIE requieren 10 minutos de tiempo de cálculo; otros, 200 horas de procesamiento informático. Con varios miles de usuarios, las necesidades informáticas se acumulan rápidamente.
"XSEDE[el Entorno de Descubrimiento de Ciencia e Ingeniería Extrema] era una opción natural para un recurso nacional compartido que permite que muchos científicos diferentes hagan ciencia usando grandes instalaciones de computación", dijo Gray.
Financiado inicialmente por una subvención de cinco años y 110 millones de dólares de la NSF, XSEDE es la colección más avanzada, poderosa y robusta de recursos y servicios digitales avanzados integrados del mundo. Se trata de un único sistema virtual que los científicos pueden utilizar para compartir interactivamente recursos informáticos, datos y experiencia.
La supercomputadora Stampede del Texas Advanced Computing Center (TACC), uno de los recursos asignados a través de XSEDE, proporciona la mayor parte de la potencia de computación. Gray había utilizado los recursos del TACC como estudiante de posgrado en Texas a finales de la década de 1990, por lo que conocía el TACC y algunas de las otras instalaciones de supercomputación de la NSF.
"Hemos estado usando Stampede y lo hemos solicitado a través de XSEDE", dijo Gray. "Tenemos una asignación de estampida para mi laboratorio y otra para ROSIE."

Stampede sirve como sistema de computación back-end para los miles de investigadores que utilizan ROSIE. Ha proporcionado aproximadamente dos millones de horas de cálculo para el proyecto desde 2013. Aunque los científicos pueden no ser conscientes de que están usando una supercomputadora, el proyecto no podría tener tanto éxito sin una supercomputadora masiva y bajo demanda zumbando en segundo plano.
En el propio laboratorio de Gray, está explorando la estructura y las interacciones de las proteínas de la membrana, que se comportan de forma diferente a muchos otros tipos de proteínas porque están en una bicapa de lípidos grasos. La forma en que las proteínas interactúan y se pliegan dentro de la membrana celular es una pregunta abierta que su laboratorio está tratando de resolver.
"La otra gran novedad en el laboratorio son las glicoproteínas", señaló Gray.
"La mayoría de las proteínas de su cuerpo tienen azúcares adheridos a ellas, lo que las convierte en glicoproteínas. Tradicionalmente, las personas ignoraban a los glicanos, pero son muy importantes para el cáncer, las enfermedades cardíacas, la diabetes, el envejecimiento y las enfermedades infecciosas. Estamos añadiendo carbohidratos a la estructura, y modelando sus efectos sobre el plegado de proteínas y las interacciones de unión usando el software Rosetta y la supercomputadora Stampede".
Cómo obtener ayuda de los expertos de XSEDE
Además de proporcionar potencia de computación bruta a los investigadores de la nación, XSEDE también dirige un programa de Servicio de Apoyo Colaborativo Extendido (ECSS), que pone en contacto a los investigadores con expertos en ciberinfraestructura que tienen una variedad de experiencia. Los expertos de ECSS, muchos con títulos avanzados en áreas de dominio, están disponibles para colaboraciones que duran de meses a un año para ayudar a los investigadores a avanzar fundamentalmente en el uso de los recursos de XSEDE.
"Había un par de lugares en los que necesitábamos la ayuda de ECSS", dijo Gray. "Uno de ellos era la creación del portal de la ciencia ROSIE. Para ejecutar una puerta de enlace hay muchos problemas de seguridad: hay personas que se conectan desde diferentes ubicaciones y el clúster de computadoras es un objetivo de hacking. Para aliviar esta preocupación, el ingeniero de software que desarrolló ROSIE trabajó con el personal del TACC para asegurarse de que la puerta de enlace funcionara correctamente. Eso fue un gran éxito".
Además, Gray y otros investigadores necesitaban la capacidad de escribir su propio código en Rosetta más allá de simplemente ejecutar software enlatado. Así, Gray también trabajó con ECSS para instalar los módulos de Rosetta Python, llamados PyRosetta, que se creó en el laboratorio de Gray.
"Es una interfaz Python para todas las herramientas de Rosetta", dijo Gray. "Permite a la gente hacer sus propios guiones personalizados para un modelado a medida."
PyRosetta se instala en Stampede como un módulo para que un científico más experto pueda iniciar sesión en Stampede, cargar el módulo y tener acceso a todo el código y la funcionalidad de Rosetta, permitiéndole adaptar sus propios scripts a sus propias moléculas o diseños particulares que están tratando de calcular.
"Estoy muy agradecido con la NSF, XSEDE y TACC por hacer que estos recursos estén disponibles", dijo Gray. "Pasamos tantos años y tantos estudiantes pusieron todo su esfuerzo de investigación en hacer grandes herramientas para modelar y diseñar biomoléculas y quieres que otras personas puedan usarlas. Sin embargo, la predicción y el diseño biomolecular requieren un tiempo de computación tremendo, por lo que contar con XSEDE allí nos permite compartir nuestras herramientas de manera amplia y permitir que tengan impacto en toda la comunidad científica".
A medida que ROSIE y la comunidad a la que apoya siguen creciendo, también lo hacen sus necesidades informáticas.
"Hay una gran comunidad de ciencias de la vida que quiere hacer predicciones estructurales sobre sus biomoléculas, pero no podemos manejarlo todo con la demanda actual de Stampede."
Por esta razón, Gray espera con impaciencia a Stampede2, el nuevo superordenador de TACC que entrará en funcionamiento más adelante en 2017, "así que tenemos la capacidad de manejar la gran demanda de tiempo de computación".

Comentarios