Un grupo de científicos liderado por el Instituto Leibniz de Astrofísica de Potsdam (AIP) y el Instituto de Ciencias Cósmicas de la Universidad de Barcelona (ICCUB) ha desarrollado un novedoso modelo de aprendizaje automático que procesa de manera eficiente los datos de 217 millones de estrellas observadas por la misión Gaia.
Los resultados compiten con los métodos tradicionales para estimar parámetros estelares, abriendo nuevas oportunidades para mapear características como la extinción interestelar y la metalicidad a través de la Vía Láctea, lo que mejora nuestra comprensión de las poblaciones estelares y la estructura de nuestra galaxia.
Con la tercera publicación de datos de la misión Gaia de la Agencia Espacial Europea, los astrónomos ahora tienen acceso a mediciones mejoradas para 1.8 mil millones de estrellas, lo que presenta un desafío significativo en el análisis de datos. Los investigadores emplearon el aprendizaje automático para estimar propiedades estelares clave utilizando los datos espectrofotométricos de Gaia. Su modelo, entrenado con datos de alta calidad de 8 millones de estrellas, logró predicciones confiables con mínimas incertidumbres.
Arman Khalatyan del AIP, primer autor del estudio, explica: 'La técnica subyacente, llamada árboles de gradiente extremo, permite estimar propiedades estelares precisas, como temperatura y composición química, con una eficiencia sin precedentes. El modelo de aprendizaje automático SHBoost completa sus tareas, incluido el entrenamiento del modelo y la predicción, en cuatro horas en una sola GPU, un proceso que anteriormente requería dos semanas y 3,000 procesadores de alto rendimiento.'
Este enfoque innovador reduce significativamente el tiempo de cálculo, el consumo de energía y las emisiones de CO. Esta es la primera vez que se aplica con éxito tal técnica a estrellas de todos los tipos simultáneamente.
El modelo se entrena con datos espectroscópicos de alta calidad de encuestas estelares más pequeñas y luego aplica este conocimiento a la extensa tercera publicación de datos de Gaia, extrayendo parámetros estelares clave utilizando solo datos fotométricos y astrométricos, así como los espectros de baja resolución XP de Gaia.
Según Cristina Chiappini del AIP, 'La alta calidad de los resultados reduce la necesidad de observaciones espectroscópicas adicionales que consumen muchos recursos al buscar buenos candidatos para estudios posteriores, como estrellas raras pobres en metales o superricas en metales, que son cruciales para entender las fases más tempranas de la formación de la Vía Láctea.'
Esta técnica es crucial para la preparación de futuras observaciones con espectroscopía de múltiples objetos, como la encuesta 4MIDABLE-LR, que será parte del proyecto 4MOST en el Observatorio Europeo del Sur (ESO) en Chile.
Friedrich Anders del ICCUB añade: 'El nuevo enfoque del modelo proporciona mapas extensos de la composición química de la Vía Láctea, corroborando la distribución de estrellas jóvenes y viejas. Los datos muestran la concentración de estrellas ricas en metales en las regiones internas de la galaxia, incluida la barra y el bulto, con un enorme poder estadístico.'
El equipo también utilizó el modelo para mapear estrellas jóvenes, masivas y calientes en toda la galaxia, destacando regiones distantes y poco estudiadas donde se están formando estrellas. Los datos también revelan que existen varios 'vacíos estelares' en nuestra Vía Láctea, es decir, áreas que albergan muy pocas estrellas jóvenes. Además, los datos demuestran dónde la distribución tridimensional del polvo interestelar sigue estando mal resuelta.
A medida que Gaia continúa recopilando datos, la capacidad de los modelos de aprendizaje automático para manejar rápidamente grandes conjuntos de datos de manera sostenible los convierte en herramientas esenciales para futuras investigaciones astronómicas, demostrando el potencial para revolucionar el análisis de grandes datos en astronomía y otros campos científicos, al tiempo que promueve prácticas de investigación más sostenibles.