Otonom tek moleküllü kimya: derin pekiştirme öğrenme bağları teker teker kopardığında Tek bir molekülde belirli bir kimyasal bağı kırmak—komşularını dokunmadan bırakmak—kimyada yapılabilecek en zor şeylerden biridir. Bir STM ucu bunu, tünel elektronlarını kesin bir konuma enjekte ederek yapabilir, ancak bu deneyler her denemede uç pozisyonunu, önyargı voltajını ve akımı manuel olarak ayarlayan bir uzmanı gerektirir. Çok az olursa hiçbir şey olmaz; Çok fazla olursanız molekülü yok edersiniz. Zhiwen Zhu ve ortak yazarları, insan müdahalesi olmadan çok adımlı, bağ seçici reaksiyonlar gerçekleştiren tamamen otonom bir platform sergiliyorlar. Sistemleri, Au(111) üzerinde tetrabromlu bir porfirin (TPP-Br₄)—porfirin çekirdeği etrafında dört eşdeğer C–Br bağıdır; bunlar önceden tanımlanmış yollar boyunca (orto, para, ortho*, ortho-Z) farklı ara maddeler boyunca ardışık olarak ayrılmıştır. Boru hattı üç aşamadan oluşuyor. YOLOv7 anahtar noktası tespiti ve U-Net segmentasyonu molekülleri bulur ve yönelimi belirler. ResNet-18 sınıflayıcısı, her brom bölgesinin etrafındaki yamaları okuyarak moleküler durumu 4-bitlik ikili bir vektör olarak kodlar. Sonra bir Soft Actor-Critic RL ajanı uç yerleşimi, voltaj ve akımı belirler. Ajan, STM ile doğrudan TCP aracılığıyla etkileşime girer, manipüle eder, yeniden tarama yapar ve doğru tek bağ bölünmesi için pozitif, reaksiyon olmaması, yanlış yer aktivasyonu veya bozulma için negatif ödüller alır. Veri kıtlığıyla—36 saat içinde sadece 948 olayla—başa çıkmak için molekülün D₄h simetrisini invariant-dönüşüm deneyim tekrarı yoluyla kullanarak eklenebilir deneyler olmadan eşdeğer sanal yörüngeler üretirler. Ajan gerçek fiziği keşfeder. Optimal önyargı, her debromasyon adımında artar (ilk bağ için ~2,5 V, son için ~3,2 V), bu da radikal ara maddelerin gelişen elektronik yapısını yansıtır. Ucu hedef bağların üzerinde konumlandırır; bu da tünel-elektron uyarımının mekansal bozulmasıyla uyumlu olur ve uç koşullarındaki gerçek zamanlı değişimlere uyum sağlar. Tek adımlı başarı oranları %50–79'a ulaşırken, tam dört adımlı tamamlama %29–35 arasında—tamamen insan rehberliği olmadan. Makine öğrenimi açısından bakıldığında, algoritma aşırı kısıtlamaları aşıyor: küçük başarı bölgeleri, seyrek gürültülü ödüller, sabit olmayan ortamlar ve geri döndürülemez arıza modları. SAC'nin entropi düzenlemesi keşif dengesi sağlarken, simetri artırılmış tekrar izleme politika çöküşünü önler. Bu, aktif olarak deneyler yapan yapay zeka ajanlarına işaret ediyor; fiziksel sistemlerle doğrudan etkileşimden optimal protokolleri öğreniyor. Makale: