Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modellierung aller 28.000 Gene auf einmal: ein Fundamentmodell für die Einzelzell-Transkriptomik
Jede Zelle in Ihrem Körper trägt dasselbe Genom, doch ein Neuron sieht ganz anders aus und verhält sich anders als eine Leberzelle. Der Unterschied liegt darin, welche Gene ein- oder ausgeschaltet sind – und auf welchem Niveau. Die Einzelzell-RNA-Sequenzierung (scRNA-seq) ermöglicht es uns, dieses Expressionsprofil Zelle für Zelle zu messen und seltene Zellpopulationen, Genregulation und Arzneimittelreaktionen mit beispielloser Auflösung zu enthüllen.
Fundamentmodelle, die auf Millionen von Zellen vortrainiert wurden, sind zu leistungsstarken Werkzeugen für die Analyse dieser Daten geworden. Aber sie alle teilen einen praktischen Kompromiss: Sie beschränken ihren Aufmerksamkeitsmechanismus auf ~2.000 hoch exprimierte Gene und verwerfen die verbleibenden ~26.000. Viele dieser ausgeschlossenen Gene, trotz niedriger Expression, fungieren als regulatorische Schalter, Feinabstimmer von Signalwegen und Treiber kontextspezifischer Reaktionen wie Immunaktivierung oder Arzneimittelresistenz. Sie zu ignorieren bedeutet, ein unvollständiges Bild der Zelle zu lernen.
Ding Bai und Mitautoren gehen dies mit scLong an, einem Modell mit einer Milliarde Parametern, das auf 48 Millionen Zellen vortrainiert wurde und Selbstaufmerksamkeit über alle 27.874 menschlichen Gene ausführt. Um dies möglich zu machen, verwenden sie einen dualen Encoder: ein großer Performer (42 Schichten) verarbeitet die obersten 4.096 hoch exprimierten Gene, während ein kleinerer (2 Schichten) die verbleibenden ~24.000 behandelt. Beide Ausgaben werden durch einen Vollencoder zusammengeführt, der Gruppeninteraktionen erfasst. scLong integriert auch Wissen aus der Genontologie über ein graphbasiertes neuronales Netzwerk, das jedes Gen mit Informationen über seine bekannten Funktionen, Prozesse und zelluläre Lokalisation einbettet – Kontext, den Ausdrucksdaten allein nicht bieten können.
Die Ergebnisse sind konsistent und umfassend. Bei der Vorhersage transkriptioneller Reaktionen auf genetische Störungen erreicht scLong eine Pearson-Korrelation von 0,63 bei ungesehenen Störungen, verglichen mit 0,56–0,58 für bestehende Modelle und GEARS. Es übertrifft Geneformer, scGPT und DeepCE bei der Vorhersage chemischer Störungen über alle Metriken hinweg, erreicht 0,873 Pearson für die Reaktion auf Krebsmedikamente und übertrifft sowohl Geneformer als auch DeepSEM bei der Inferenz von genregulatorischen Netzwerken.
Der breitere Punkt: In biologischen Fundamentmodellen beeinflusst das, worauf Sie Ihre Aufmerksamkeit richten, was Sie lernen können. Durch die Einbeziehung von niedrig exprimierten Genen und die Verankerung von Repräsentationen in funktionalem Wissen zeigt scLong, dass die Skalierung des Kontexts – nicht nur der Parameter – der Schlüssel ist, um die volle Komplexität der zellulären Regulation zu erfassen. Ein Prinzip, das überall relevant ist, wo langfristige Merkmalsabhängigkeiten biologisch sinnvoll, aber rechnerisch teuer zu modellieren sind.
Papier:

Top
Ranking
Favoriten
