Modelando los 28,000 genes a la vez: un modelo base para la transcriptómica de una sola célula Cada célula de tu cuerpo lleva el mismo genoma, sin embargo, una neurona no se parece ni se comporta como una célula hepática. La diferencia radica en qué genes están activados o desactivados—y a qué nivel. La secuenciación de ARN de una sola célula (scRNA-seq) nos permite medir ese perfil de expresión una célula a la vez, revelando poblaciones celulares raras, regulación genética y respuesta a fármacos con una resolución sin precedentes. Los modelos base preentrenados en millones de células se han convertido en herramientas poderosas para analizar estos datos. Pero todos comparten un compromiso práctico: restringir su mecanismo de atención a ~2,000 genes altamente expresados y descartar los ~26,000 restantes. Muchos de esos genes excluidos, a pesar de su baja expresión, actúan como interruptores regulatorios, afinadores de vías de señalización y motores de respuestas específicas al contexto como la activación inmune o la resistencia a fármacos. Ignorarlos significa aprender una imagen incompleta de la célula. Ding Bai y coautores abordan esto con scLong, un modelo de mil millones de parámetros preentrenado en 48 millones de células que realiza autoatención en todos los 27,874 genes humanos. Para hacer esto factible, utilizan un codificador dual: un gran Performer (42 capas) procesa los 4,096 genes de alta expresión, mientras que uno más pequeño (2 capas) maneja los ~24,000 restantes. Ambas salidas se fusionan a través de un codificador de longitud completa que captura interacciones entre grupos. scLong también integra el conocimiento de la Ontología de Genes a través de una red neuronal convolucional gráfica, incrustando cada gen con información sobre sus funciones conocidas, procesos y localización celular—un contexto que los datos de expresión por sí solos no pueden proporcionar. Los resultados son consistentes y amplios. Al predecir respuestas transcripcionales a perturbaciones genéticas, scLong logra una correlación de Pearson de 0.63 en perturbaciones no vistas, en comparación con 0.56–0.58 para modelos existentes y GEARS. Supera a Geneformer, scGPT y DeepCE en la predicción de perturbaciones químicas en todas las métricas, alcanza 0.873 de Pearson para la respuesta a fármacos contra el cáncer, y supera tanto a Geneformer como a DeepSEM en la inferencia de redes regulatorias de genes. El punto más amplio: en los modelos biológicos base, lo que eliges atender moldea lo que puedes aprender. Al incluir genes de baja expresión y fundamentar representaciones en conocimiento funcional, scLong demuestra que escalar el contexto—no solo los parámetros—es clave para capturar la complejidad total de la regulación celular. Un principio relevante donde las dependencias de características a largo alcance son biológicamente significativas pero computacionalmente costosas de modelar. Artículo: