Modelování všech 28 000 genů najednou: základní model pro transkriptomiku jednobuněčných genů Každá buňka ve vašem těle nese stejný genom, přesto neuron vypadá a chová se vůbec jako jaterní buňka. Rozdíl spočívá v tom, které geny jsou zapnuté nebo vypnuté—a na jaké úrovni. Sekvenování RNA jednotlivých buněk (scRNA-seq) nám umožňuje měřit tento expresní profil po jedné buňce, odhalující vzácné buněčné populace, regulaci genů a odpověď na léčivo s bezprecedentním rozlišením. Základní modely předtrénované na milionech buněk se staly mocnými nástroji pro analýzu těchto dat. Ale všechny sdílejí praktický kompromis: omezit svůj mechanismus pozornosti na ~2 000 vysoce exprimovaných genů a zbývajících ~26 000 vyřadit. Mnoho z těchto vyloučených genů, navzdory nízké expresi, působí jako regulační spínače, jemně ladící signální dráhy a hybatelé kontextově specifických odpovědí, jako je aktivace imunity nebo rezistence na léky. Ignorování těchto informací znamená získat neúplný obraz buňky. Ding Bai a jeho spoluautoři se tímto tématem zabývají pomocí scLong, miliardového modelu předtrénovaného na 48 milionech buněk, který provádí sebepozornost napříč všemi 27 874 lidskými geny. Aby to bylo možné, používají duální enkodér: velký Performer (42 vrstev) zpracovává 4 096 genů s vysokou expresí, zatímco menší (2 vrstvy) zpracovává zbývajících ~24 000. Oba výstupy se spojují přes celoplošný enkodér, který zachycuje interakce mezi skupinami. scLong také integruje znalosti genové ontologie prostřednictvím konvoluční sítě grafů, která vkládá do každého genu informace o jeho známých funkcích, procesech a buněčné lokalizaci – kontext, který samotná data o expresi neposkytnou. Výsledky jsou konzistentní a široké. Při predikci transkripčních odpovědí na genetické poruchy dosahuje scLong Pearsonovy korelace 0,63 u neviditelných poruch, ve srovnání s 0,56–0,58 u stávajících modelů a GEARS. Překonává Geneformer, scGPT a DeepCE v predikci chemických narušení ve všech metrikách, dosahuje 0,873 Pearsonovy odpovědi na léky na rakovinu a překonává jak Geneformer, tak DeepSEM v inferenci genové regulační sítě. Širší pointa: v biologických základních modelech to, čemu se rozhodnete věnovat pozornost, formuje to, co se můžete naučit. Zahrnutím genů s nízkou expresí a uzemněním reprezentací ve funkčních znalostech scLong ukazuje, že škálování kontextu – nejen parametrů – je klíčem k zachycení plné složitosti buněčné regulace. Princip relevantní tam, kde jsou dlouhodobé závislosti na vlastnostech biologicky významné, ale výpočetně náročné na modelování. Článek: