Cómo encontrar agujas COVID-19 en un pajar de coronavirus
Sandia Labs profundiza en minería de datos de escritorio y encuentro un modelo replicable
ALBUQUERQUE, NM – Los investigadores de COVID-19 en todo el mundo se enfrentan a una tarea desalentadora de examinar decenas de miles de estudios de coronavirus existentes, en busca de elementos comunes o datos que puedan ayudar en sus investigaciones biomédicas urgentes.

Para acelerar el filtrado de información relevante, Sandia National Laboratories ha reunido una combinación de minería de datos, algoritmos de aprendizaje automático y análisis basados en compresión para mostrar los datos más útiles en una computadora de oficina. En su esfuerzo inicial, los investigadores pudieron reducir a más de 29,000 estudios publicados sobre coronavirus a 87 artículos al identificar similitudes de lenguaje y caracteres en cuestión de 10 minutos. Eso es ciencia de datos de respuesta rápida.
«Los expertos médicos y epidemiológicos pueden tener acceso casi inmediato a la investigación pertinente existente sin ser científicos de datos», dijo el científico informático de Sandia Travis Bauer. «Con un poco de refinamiento, este nuevo proceso puede aclarar las preguntas que nuestros expertos en salud pública necesitan responder para acelerar la investigación de COVID-19, particularmente a medida que surgen rápidamente nuevos estudios».
Sandia Labs busca aportes y colaboración de una comunidad más grande de investigadores y desarrolladores para extender y aplicar el código para refinar aún más el algoritmo y la interfaz de usuario. Los estudios de búsqueda en este proyecto se realizaron a través de Galen-view. Este software está disponible en GitHub .
La naturaleza de la ciencia de respuesta rápida es generar rápidamente resultados confiables. En un esfuerzo de siete días, los científicos de Sandia concibieron, configuraron, analizaron, probaron y volvieron a analizar un experimento que ayudó a los expertos en bioseguridad y salud pública a aislar documentos clave de coronavirus para acceder rápidamente a la información más relevante para derrotar al virus COVID-19.
Bauer y un equipo de científicos de datos, ingenieros, expertos en factores humanos y expertos en virología, genética, salud pública, bioseguridad y biodefensa desarrollaron y realizaron dos estudios de búsqueda diferentes: uno con dos expertos y otro con tres. Los expertos estudiaron «Estabilidad del SARS-CoV-2 en gotitas de aerosol y otras matrices», extraída de la lista de preguntas maestras del 18 de marzo del Departamento de Seguridad Nacional de los EE. UU. en todo el gobierno federal.
Aplicación de algoritmos y técnicas de compresión de datos
Los datos utilizados en el proyecto se proporcionaron como parte de un llamado a la acción federal a la comunidad tecnológica en un conjunto de datos «Nuevo COVID-19 legible por máquina» que, en ese momento, contenía 29,315 documentos de investigación llenos de temas relevante para el coronavirus. En un intento por acelerar la capacidad de los expertos para estudiar una pregunta específica, la investigación de Sandia, financiada inicialmente a través de los ingresos por regalías de los laboratorios y luego a través del programa de Investigación y Desarrollo Dirigido por el Laboratorio de Sandia, se realizó en varias etapas.
En la etapa inicial, los expertos en virología, genética, salud pública, bioseguridad y biodefensa del estudio indexaron los trabajos de investigación y trazaron esa información en un gráfico bidimensional utilizando técnicas de procesamiento de lenguaje natural basadas en el contenido del documento. Los documentos se convirtieron en una matriz de lenguaje natural con capacidad de búsqueda y se indexaron o puntuaron por capacidad de búsqueda y relevancia.
Se probaron tres algoritmos de visualización comúnmente utilizados en el conjunto de 29,000 documentos para ver cuál organizaría mejor los documentos en grupos útiles, dijo Bauer.
- El algoritmo de descomposición del valor singular descubre información latente en las relaciones entre los términos del documento. Bauer dijo que, a los fines de este estudio, este algoritmo no proporcionó suficiente diferenciación para que un usuario lo explore, por lo que no fue elegido.
- El algoritmo de aproximación y proyección de colector uniforme es un método popular utilizado para organizar ampliamente los datos en dos dimensiones para su visualización. Sin embargo, para este estudio, UMAP, como se probó, no proporcionó suficiente diferenciación en los documentos para que los expertos puedan profundizar en un tema específico de COVID-19. El equipo creía que un ajuste adicional de este algoritmo podría hacerlo más útil para este conjunto de datos.
- El algoritmo de incrustación de vecino estocástico distribuido en T es una herramienta de aprendizaje automático que puede agrupar datos similares o relevantes. El algoritmo produjo colecciones claramente definidas de información relacionada que permitió a los expertos explorar temas específicos de COVID-19. El equipo de Bauer determinó que este algoritmo podría ajustarse para producir resultados aún mejores y más utilizables.
También en la fase inicial, se pidió a los mismos expertos que buscaran artículos relevantes para «Estabilidad del SARS-CoV-2 en gotitas de aerosol y otras matrices» utilizando el sistema de búsqueda o el motor de su elección.
Los expertos del estudio capturaron lo que consideraban información relevante o interesante útil para responder a su pregunta COVID-19 y la pegaron en un documento de Microsoft Word. El documento que contenía la información se convirtió en fragmentos que se usaron para crear puntajes para los artículos en función de qué tan bien respondieron las preguntas de los expertos.

Los fragmentos identificados incluyeron COVID-19 y la estabilidad del coronavirus, estudios de casos, matrices de prueba y otros temas. Los resultados se trazaron como puntos en un gráfico bidimensional que indica grupos de artículos relevantes e irrelevantes.
Luego, un algoritmo de análisis en la técnica de compresión de datos Prediction by Partial Matching calificó todos los documentos COVID-19 según los fragmentos. Las puntuaciones se utilizaron para colorear los documentos en el gráfico bidimensional, proporcionando grupos de colores que muestran al experto dónde se puede encontrar la información relevante. Alrededor de 87 documentos agrupados se consideraron altamente relevantes en el gráfico; Más de 23,000 de los documentos fueron considerados irrelevantes.
Los expertos en estudio dicen que las herramientas categorizan efectivamente los resultados y tienen potencial.
Después de una sesión de 30 minutos, se les pidió a los expertos que explicaran sus términos de búsqueda, cómo decidieron qué artículos ver y qué contenido estaban buscando en cada artículo.
Los expertos exploraron interactivamente los grupos de colores contrastantes que se destacaban como documentos por lotes relacionados con COVID-19. Podrían estudiar cualquiera de los documentos para determinar si se agruparon de manera apropiada según la relevancia o pivotar a nuevos fragmentos.
Los mismos expertos que examinaron los resultados dijeron que los documentos se agruparon con precisión según la relevancia y ofrecieron sugerencias para refinar aún más la interfaz al mostrar información sobre el título, los autores, el año, la revista y el resumen. Los expertos dijeron que vieron mucho potencial con esta herramienta.
«Incluso en la computadora portátil de mi oficina podemos ordenar millones de documentos y ponerlos a disposición del usuario», dijo Bauer. Reconoció que algunos algoritmos utilizados proporcionaron más diferenciación y agrupamiento visual, pero que ajustar los algoritmos mejorará el rendimiento.
«Tecnológicamente, es posible investigar rápidamente y adaptarse a las necesidades de los expertos mientras trabajan a través de un conjunto de datos», dijo Bauer. «La agilidad y la velocidad con la que se puede desarrollar la interfaz de usuario con el equipo adecuado en sistemas de computadoras de escritorio puede proporcionar la capacidad de responder rápidamente a consultas específicas y adaptarse a las necesidades cambiantes del usuario».
Artículo publicado en Sandia National Laboratories