Sfârșitul anului 2025 a marcat un punct de cotitură major pentru DeepProve, care a avansat sistemul de demonstrare de la un demonstrator cu un singur nod într-un sistem zkML distribuit, accelerat de GPU, conceput pentru sarcini reale de inferență. Citiți actualizarea completă de inginerie la linkul de mai jos: 🧵
2/ Am rearhitecturat DeepProve în jurul unui graf de execuție distribuit. În loc de un demonstrator monolitic, logica demonstrativă este acum exprimată ca subgrafuri paralelizabile care pot fi împărțite între mașini și executate simultan. Aceasta deblochează scalarea orizontală pentru generarea de demonstrații.
3/ Algebra liniară este acum einsum-first. Toate straturile liniare, inclusiv proiecțiile dense și QKV, au fost unificate sub formulări explicite de einsum, susținând ranguri tensoriale arbitrare. Rezultatul: o bază de cod mai simplă, mai puține straturi personalizate și mai multă flexibilitate pentru arhitecturile viitoare de modele.
4/ Am rezolvat un blocaj major, straturile neliniare, introducând un singur strat generalizat de căutare care gestionează softmax, ReLU, GELU, norma stratului și altele, cu recuantificare integrată. Adică mai puține straturi, mai puțin overhead și performanțe mai bune.
5/ Acuratețea a fost menținută pe măsură ce performanța era evaluată. Comparativ cu PyTorch FP32: • GPT-2 arată <1% delta de perplexitate • Gemma-3 prezintă un delta de perplexitate de ~4% DeepProve menține o fidelitate numerică ridicată chiar și sub optimizări mai puternice.
6/ Inference este acum prietenoasă cu cache-ul și nativă pentru GPU. Am adăugat: • Cache-uri poziționale pentru secvențe lungi • Cache-uri de concatenare tensorială pentru reutilizarea K/V Toate straturile rulează acum pe GPU, permițând demonstrarea optimistă: rezultatele revin imediat, dovezile urmează asincron.
7/ Debitul a atins o bornă cheie. După analiza și optimizarea bottleneck end-to-end, DeepProve menține acum ~1,5 proof pe secundă. Acest lucru validează că zkML poate ține pasul cu inferența practică, nu doar cu sarcini offline sau în loturi.
8/ Pe scurt; DR: T4 din 2025 a mutat DeepProve la un nou nivel de arhitectură la scară de producție. Demonstrarea distribuită, execuția pe GPU, demonstrațiile optimiste și debitul susținut sunt acum reale și scalabile, oferind fundațiile necesare pentru o inteligență artificială verificabilă. Vor urma mai multe în curând.
432