La inteligencia artificial, además de ser útil para crear dispositivos inteligentes, puede ser empleada en el campo de la genética para generar secuencias sintéticas de ADN con características específicas. Estas secuencias pueden aplicarse en diversas áreas de la genética y la genómica1, así como en la genética de poblaciones2, la medicina genómica3 y la biología sintética4,5.

La inteligencia artificial se basa en algoritmos que son entrenados con conjuntos de datos reales (imágenes, voz, texto, etc.), a partir de los cuales aprenden a identificar patrones. Los algoritmos, al ser sometidos a nuevos datos externos, adquieren la capacidad de clasificar estos patrones de acuerdo a lo que aprendieron durante su entrenamiento. 

Hasta hace unos años, los algoritmos de inteligencia artificial no eran capaces de generar nuevos datos sintéticos que compartieran las propiedades estadísticas de los datos de entrenamiento. Esto cambió en 2014, cuando surgieron las “redes generativas antagónicas”, llamadas “GAN” por sus siglas en inglés (“Generative Adversarial Networks”)6. Las GANs, además de aprender de los datos, son capaces de captar la distribución que estos tienen para poder crear nuevos conjuntos de datos sintéticos que sean prácticamente indistinguibles de los reales. Esta característica hace que las GANs tengan un alto potencial para ser aplicadas en estudios genómicos donde el costo de generar nuevos datos suele ser muy elevado.

La inteligencia artificial, además de ser útil para crear dispositivos inteligentes, puede ser empleada en el campo de la genética para generar secuencias sintéticas de ADN con características específicas.

En la genética de  poblaciones existen herramientas como SLiM7 o msprime8 que, al estar basadas en modelos matemáticos de la evolución humana, le permiten a los investigadores simular genes, cromosomas, individuos y poblaciones que cambian a lo largo del tiempo. Son sumamente útiles para simular secuencias bajo diferentes escenarios y, con base en a estos, realizar estudios sobre cómo diferentes historias demográficas afectan la distribución de mutaciones en las poblaciones involucradas, o cómo se comportan nuevas herramientas que analizan secuencias en un ambiente controlado, además de estudios que dependen de la simulación de genomas que pertenecen a puntos arbitrarios del presente, pasado y futuro. Sin embargo, ahora también es posible simular datos genómicos con inteligencia artificial. Conjuntando GANs y “máquinas de Boltzmann restringidas”, los investigadores han logrado generar genomas artificiales (GAs) de alta calidad basados en diferentes poblaciones humanas9 que conservan la distribución de datos empíricos recolectados previamente. Por lo anterior, es posible hacer inferencias sobre las poblaciones humanas originales al analizarlos. Una diferencia clave entre los GAs y los genomas simulados mediante herramientas más tradicionales es que los GAs están menos limitados por los modelos matemáticos de evolución y las aproximaciones o simplificaciones que éstos necesariamente conllevan.

Un uso potencial de los GAs son los estudios de asociación de genoma completo (GWAS, por sus siglas en inglés), mediante los cuales se buscan las variantes genéticas asociadas a diferentes enfermedades.

Un uso potencial de los GAs son los estudios de asociación de genoma completo (GWAS, por sus siglas en inglés)1, mediante los cuales se buscan las variantes genéticas asociadas a diferentes enfermedades9. Una desventaja de los GWAS es que necesitan contar con datos genómicos de miles de pacientes y controles negativos (personas sanas) para llevarse a cabo.  Hasta el 2016, cerca del 80% de GWAS se llevaron a cabo en poblaciones de origen europeo y, aunque se han realizado esfuerzos por incluir a otras poblaciones del mundo menos representadas, la balanza se sigue inclinando hacia la población europea10,11.

Una manera de reducir los costos en los GWAS podría ser mediante la inclusión de GAs en los estudios. Sin embargo, aún no es claro el número de genomas humanos reales que serían necesarios para la creación de un conjunto robusto de GAs, ya que esto depende de las frecuencias alélicas de las poblaciones. Cuando una variante genética tiene una frecuencia baja en la población, es muy probable que no se vea representada en los GAs. Es factible que, conforme se avance en este tipo de estudios, se pueda modelar el número mínimo de individuos necesarios para el muestreo y generación de GAs para cada población de interés.

Por supuesto, al trabajar con datos genéticos de poblaciones humanas es importante tener en cuenta siempre el aspecto ético. De tal forma, cuando las personas participan en estudios genéticos, se les debe informar cuál es el propósito del estudio y qué uso se le dará a su información genética, y acordar si desean o no hacer públicos sus datos.

Otra ventaja que podría suponer la creación de GAs es ampliar el acceso a datos genéticos restringidos9. Por supuesto, al trabajar con datos genéticos de poblaciones humanas es importante tener en cuenta siempre el aspecto ético12,13. De tal forma, cuando las personas participan en estudios genéticos, se les debe informar cuál es el propósito del estudio y qué uso se le dará a su información genética, y acordar si desean o no hacer públicos sus datos. Hoy en día existen datos genéticos de poblaciones humanas que están bajo el resguardo de algún grupo de investigación en específico con el que se hizo el acuerdo del estudio desde un inicio. Aún es debatible si la generación y publicación de GAs a partir de este tipo de datos sería una violación a la privacidad de los participantes, o si al ser GAs ya no se considerarían conectados directamente con los participantes y su decisión de hacer o no públicos los datos.  

Ya sea que en un futuro los GAs sean utilizados o no para realizar GWAS en poblaciones humanas, el hecho de poder crear genomas indistinguibles de los originales es un gran avance para la genética. En un futuro podrían ser utilizados para analizar especies en peligro de extinción o incluso para estudiar poblaciones antiguas para las cuales el número de individuos a muestrear es limitado. 

En un futuro podrían ser utilizados para analizar especies en peligro de extinción o incluso para estudiar poblaciones antiguas para las cuales el número de individuos a muestrear es limitado.

Referencias:

  1. ​Libbrecht, M. W. & Noble, W. S. Machine learning applications in genetics and genomics. Nat. Rev. Genet. 16, 321–332 (2015).
  2. ​Schrider, D. R. & Kern, A. D. Supervised Machine Learning for Population Genetics: A New Paradigm. Trends Genet. 34, 301–312 (2018).
  3. ​Williams, A. M. et al. Artificial intelligence, physiological genomics, and precision medicine. Physiol. Genomics 50, 237–243 (2018).
  4. ​Bianchini, F. Artificial intelligence and synthetic biology: A tri-temporal contribution. Biosystems 148, 32–39 (2016).
  5. ​Kumar, P., Sinha, R. & Shukla, P. Artificial intelligence and synthetic biology approaches for human gut microbiome. Crit. Rev. Food Sci. Nutr. 1–19 (2020) doi:10.1080/10408398.2020.1850415.
  6. ​Goodfellow, I. et al. Generative Adversarial Nets. 9.
  7. ​Haller, B. C. & Messer, P. W. SLiM 3: Forward Genetic Simulations Beyond the Wright–Fisher Model. 6.
  8. ​Kelleher, J., Etheridge, A. M. & McVean, G. Efficient Coalescent Simulation and Genealogical Analysis for Large Sample Sizes. PLOS Comput. Biol. 22 (2016).
  9. ​Yelmen, B. et al. Creating Artificial Human Genomes Using Generative Models. http://biorxiv.org/lookup/doi/10.1101/769091 (2019) doi:10.1101/769091.
  10. ​Popejoy, A. B. & Fullerton, S. M. Genomics is failing on diversity. Nature538, 161–164 (2016).
  11. ​Bustamante, C. D., De La Vega, F. M. & Burchard, E. G. Genomics for the world. Nature 475, 163–165 (2011).
  12. ​Summer internship for INdigenous peoples in Genomics (SING) Consortium et al. A framework for enhancing ethical genomic research with Indigenous communities. Nat. Commun. 9, 2957 (2018).
  13. ​Wang, S. et al. Genome privacy: challenges, technical approaches to mitigate risk, and ethical considerations in the United States: Genome privacy in biomedical research. Ann. N. Y. Acad. Sci. 1387, 73–83 (2017).
Compártenos

Deja una respuesta