Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modelowanie wszystkich 28 000 genów jednocześnie: model podstawowy dla transkryptomiki pojedynczych komórek
Każda komórka w twoim ciele nosi ten sam genom, jednak neuron wygląda i zachowuje się zupełnie inaczej niż komórka wątroby. Różnica polega na tym, które geny są włączone lub wyłączone — i na jakim poziomie. Sekwencjonowanie RNA pojedynczych komórek (scRNA-seq) pozwala nam zmierzyć ten profil ekspresji komórka po komórce, ujawniając rzadkie populacje komórkowe, regulację genów i odpowiedź na leki w niespotykanej dotąd rozdzielczości.
Modele podstawowe wstępnie wytrenowane na milionach komórek stały się potężnymi narzędziami do analizy tych danych. Ale wszystkie one dzielą praktyczny kompromis: ograniczają swój mechanizm uwagi do ~2 000 wysoko wyrażanych genów, odrzucając pozostałe ~26 000. Wiele z tych wykluczonych genów, mimo niskiej ekspresji, działa jako regulatory, precyzyjnie dostosowujące szlaki sygnalizacyjne i napędzające odpowiedzi specyficzne dla kontekstu, takie jak aktywacja immunologiczna czy oporność na leki. Ignorowanie ich oznacza naukę niepełnego obrazu komórki.
Ding Bai i współautorzy rozwiązują to za pomocą scLong, modelu z miliardem parametrów wstępnie wytrenowanego na 48 milionach komórek, który wykonuje samouwagę na wszystkich 27 874 ludzkich genach. Aby to uczynić wykonalnym, używają podwójnego enkodera: duży Performer (42 warstwy) przetwarza 4 096 genów o wysokiej ekspresji, podczas gdy mniejszy (2 warstwy) zajmuje się pozostałymi ~24 000. Oba wyjścia łączą się poprzez pełnowymiarowy enkoder, który uchwyca interakcje między grupami. scLong integruje również wiedzę z zakresu Gene Ontology za pomocą sieci konwolucyjnej grafów, osadzając każdy gen z informacjami o jego znanych funkcjach, procesach i lokalizacji komórkowej — kontekście, którego same dane ekspresji nie mogą dostarczyć.
Wyniki są spójne i szerokie. W przewidywaniu odpowiedzi transkrypcyjnych na perturbacje genetyczne, scLong osiąga współczynnik korelacji Pearsona wynoszący 0,63 w przypadku nieznanych perturbacji, w porównaniu do 0,56–0,58 dla istniejących modeli i GEARS. Przewyższa Geneformer, scGPT i DeepCE w przewidywaniu perturbacji chemicznych we wszystkich metrykach, osiąga 0,873 Pearsona dla odpowiedzi na leki przeciwnowotworowe i przewyższa zarówno Geneformer, jak i DeepSEM w wnioskowaniu o sieciach regulacji genów.
Szerszy punkt: w biologicznych modelach podstawowych to, na co decydujesz się zwrócić uwagę, kształtuje to, czego możesz się nauczyć. Poprzez uwzględnienie genów o niskiej ekspresji i osadzenie reprezentacji w wiedzy funkcjonalnej, scLong pokazuje, że skalowanie kontekstu — a nie tylko parametrów — jest kluczem do uchwycenia pełnej złożoności regulacji komórkowej. Zasada istotna wszędzie tam, gdzie zależności cech długozasięgowych mają biologiczne znaczenie, ale są kosztowne obliczeniowo do modelowania.
Artykuł:

Najlepsze
Ranking
Ulubione
