Acelerando descubrimientos basados ​​en datos

Las compañías de ciencias de la vida utilizan el sistema único de administración de bases de datos de Paradigm4 para descubrir nuevos conocimientos sobre la salud humana.

Por: Zach Winn | MIT News Office

A medida que proliferan tecnologías como la secuenciación genómica unicelular, las imágenes biomédicas mejoradas y los dispositivos médicos de “Internet de las cosas”, los descubrimientos clave sobre la salud humana se encuentran cada vez más en vastos tesoros de datos complejos de ciencias de la vida y salud.

Pero sacar conclusiones significativas de esos datos es un problema difícil que puede implicar juntar diferentes tipos de datos y manipular grandes conjuntos de datos en respuesta a diversas investigaciones científicas. El problema tiene que ver tanto con la informática como con otras áreas de la ciencia. Ahí es donde entra Paradigm4.

La compañía, fundada por Marilyn Matz SM ’80 y ganadora del Premio Turing y profesor del MIT Michael Stonebraker, ayuda a las compañías farmacéuticas, institutos de investigación y compañías de biotecnología a convertir los datos en ideas.

Lo logra con un sistema de gestión de bases de datos computacionales que se construye desde cero para alojar los datos diversos y multifacéticos en las fronteras de la investigación en ciencias de la vida. Eso incluye datos de fuentes como biobancos nacionales, ensayos clínicos, Internet médico de las cosas, atlas de células humanas, imágenes médicas, factores ambientales y multimomics, un campo que incluye el estudio de genomas, microbiomas, metabolomas y más.

Además de la arquitectura única del sistema, la compañía también ha desarrollado herramientas de preparación de datos, gestión de metadatos y análisis para ayudar a los usuarios a encontrar los patrones y correlaciones importantes que acechan dentro de todos esos números.

En muchos casos, los clientes están explorando conjuntos de datos que los fundadores dicen que son demasiado grandes y complejos para ser representados efectivamente por los sistemas tradicionales de administración de bases de datos.

“Estamos ansiosos por permitir que los científicos y los científicos de datos hagan cosas que antes no podían hacer al facilitarles el manejo de la computación a gran escala y el aprendizaje automático en diversos datos”, dice Matz. “Estamos ayudando a los científicos y bioinformáticos con una investigación colaborativa y reproducible para hacer y responder preguntas difíciles más rápido”.

Un nuevo paradigma

Stonebraker ha sido pionero en el campo de los sistemas de gestión de bases de datos durante décadas. Ha comenzado nueve compañías y sus innovaciones han establecido estándares para la forma en que los sistemas modernos permiten a las personas organizarse y acceder a grandes conjuntos de datos.

Gran parte de la carrera de Stonebraker se ha centrado en bases de datos relacionales, que organizan los datos en columnas y filas. Pero a mediados de la década de 2000, Stonebraker se dio cuenta de que una gran cantidad de datos generados se almacenarían mejor no en filas o columnas, sino en matrices multidimensionales.

Por ejemplo, los satélites dividen la superficie de la Tierra en grandes cuadrados, y los sistemas GPS rastrean el movimiento de una persona a través de esos cuadrados a lo largo del tiempo. Esa operación involucra mediciones verticales, horizontales y de tiempo que no se agrupan o manipulan fácilmente para su análisis en sistemas de bases de datos relacionales.

Stonebraker recuerda a sus colegas científicos quejándose de que los sistemas de gestión de bases de datos disponibles eran demasiado lentos para trabajar con conjuntos de datos científicos complejos en campos como la genómica, donde los investigadores estudian las relaciones entre los datos multimómicos a escala de población, los datos fenotípicos y los registros médicos.

“[Los sistemas de bases de datos relacionales] escanean horizontal o verticalmente, pero no ambos”, explica Stonebraker. “Por lo tanto, necesita un sistema que haga ambas cosas, y que requiera un administrador de almacenamiento en la parte inferior del sistema que sea capaz de moverse tanto horizontal como verticalmente a través de una matriz muy grande. Eso es lo que hace Paradigm4 “.

En 2008, Stonebraker comenzó a desarrollar un sistema de gestión de bases de datos en el MIT que almacenaba datos en matrices multidimensionales. Confirmó que el enfoque ofrecía grandes ventajas de eficiencia, permitiendo que las herramientas analíticas basadas en álgebra lineal, incluidas muchas formas de aprendizaje automático y procesamiento de datos estadísticos, se aplicaran a grandes conjuntos de datos de nuevas maneras.

Stonebraker decidió convertir el proyecto en una empresa en 2010, cuando se asoció con Matz, un exitoso empresario que cofundó Cognex Corporation, una gran empresa industrial de visión artificial que se hizo pública en 1989. Los fundadores y su equipo, incluido Alex Poliakov BS ’07, comenzó a trabajar desarrollando características clave del sistema, incluida su arquitectura distribuida que permite que el sistema se ejecute en servidores de bajo costo, y su capacidad de limpiar y organizar automáticamente los datos de manera útil para los usuarios.

Los fundadores describen su sistema de gestión de bases de datos como un motor computacional para datos científicos, y lo han llamado SciDB. Además de SciDB, desarrollaron una plataforma de análisis, llamada motor de descubrimiento REVEAL, basada en las actividades y aspiraciones de investigación diarias de los usuarios.

“Si usted es científico o científico de datos, los productos REVEAL y SciDB de Paradigm se encargan de todas las disputas de datos y ‘plomería y cableado’ computacional, para que no tenga que preocuparse por acceder a datos, mover datos o configurar paralelos computación distribuida ”, dice Matz. “Sus datos están preparados para la ciencia. Simplemente haga su pregunta científica y la plataforma organiza toda la gestión y el cómputo de datos por usted “.

SciDB está diseñado para ser utilizado por científicos y desarrolladores, por lo que los usuarios pueden interactuar con el sistema a través de interfaces gráficas de usuario o aprovechando lenguajes estadísticos y de programación como R y Python.

“Ha sido muy importante vender soluciones, no bloques de construcción”, dice Matz. “Una gran parte de nuestro éxito en las ciencias de la vida con los mejores farmacias y biotecnología e institutos de investigación es brindarles nuestra suite REVEAL de soluciones específicas para aplicaciones a los problemas. No les estamos entregando una plataforma analítica que es un conjunto de bloques Spark LEGO; les estamos dando soluciones que manejan los datos que manejan diariamente, y soluciones que usan su vocabulario y responden las preguntas en las que quieren trabajar “.

Descubrimiento acelerado

Hoy, los clientes de Paradigm4 incluyen algunas de las compañías farmacéuticas y biotecnológicas más grandes del mundo, así como laboratorios de investigación en los Institutos Nacionales de Salud, la Universidad de Stanford y otros lugares.

Los clientes pueden integrar datos de secuenciación genómica, mediciones biométricas, datos sobre factores ambientales y más en sus consultas para permitir nuevos descubrimientos en una variedad de campos de ciencias de la vida.

Matz dice que SciDB realizó mil millones de regresiones lineales en menos de una hora en un punto de referencia reciente, y que puede escalar mucho más allá de eso, lo que podría acelerar los descubrimientos y reducir los costos para los investigadores que tradicionalmente han tenido que extraer sus datos de los archivos y luego confiar en métodos menos eficientes basados ​​en la computación en la nube para aplicar algoritmos a escala.

“Si los investigadores pueden ejecutar análisis complejos en minutos y eso solía llevar días, eso cambia drásticamente la cantidad de preguntas difíciles que puede hacer y responder”, dice Matz. “Ese es un multiplicador de fuerza que transformará la investigación a diario”.

Más allá de las ciencias de la vida, el sistema de Paradigm4 es prometedor para cualquier industria que se ocupe de datos multifacéticos, incluidas las ciencias de la tierra, donde Matz dice que un climatólogo de la NASA ya está usando el sistema y el IoT industrial, donde los científicos de datos consideran grandes cantidades de datos diversos para comprender sistemas de fabricación complejos. . Matz dice que la compañía se centrará más en esas industrias el próximo año.

Sin embargo, en las ciencias de la vida, los fundadores creen que ya tienen un producto revolucionario que permite un nuevo mundo de descubrimientos. Más adelante, ven que SciDB y REVEAL contribuyen a la investigación de salud nacional y mundial que permitirá a los médicos brindar la atención más informada y personalizada que se pueda imaginar.

“La consulta que todo médico quiere hacer es, cuando usted entra a su consultorio y muestra un conjunto de síntomas, el médico pregunta: ‘Quién en esta base de datos nacional tiene una genética que se parece a la mía, síntomas que se parecen a la mía, estilo de vida exposiciones que se parecen a la mía? ¿Y cuál fue su diagnóstico? ¿Cuál fue su tratamiento? ¿Y cuál era su morbilidad? Stonebraker explica. “Esto es una correlación cruzada con todos los demás para hacer una medicina muy personalizada, y creo que esto está a nuestro alcance”.

Publicado en MIT News

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Facebook
LinkedIn