Autonomiczna chemia pojedynczych cząsteczek: gdy głębokie uczenie przez wzmocnienie łamie wiązania jedno po drugim Złamanie konkretnego wiązania chemicznego w pojedynczej cząsteczce — przy jednoczesnym pozostawieniu jej sąsiadów nietkniętymi — jest jedną z najtrudniejszych rzeczy, jakie można zrobić w chemii. Wskazówka STM może to zrobić, wstrzykując elektrony tunelowe w precyzyjnie określone miejsce, ale te eksperymenty wymagają eksperta, który ręcznie dostosowuje pozycję wskazówki, napięcie i prąd przy każdej próbie. Zbyt mało i nic się nie dzieje; zbyt dużo i niszczysz cząsteczkę. Zhiwen Zhu i współautorzy teraz demonstrują w pełni autonomiczną platformę, która przeprowadza wieloetapowe, selektywne reakcje wiązań bez interwencji człowieka. Ich system to tetrabromowany porfiryn (TPP-Br₄) na Au(111) — cztery równoważne wiązania C–Br wokół rdzenia porfirynowego, dysocjowane sekwencyjnie wzdłuż zdefiniowanych ścieżek (ortho, para, ortho*, ortho-Z) przez różne pośredniki. Pipeline ma trzy etapy. Wykrywanie punktów kluczowych YOLOv7 i segmentacja U-Net lokalizują cząsteczki i określają orientację. Klasyfikator ResNet-18 odczytuje fragmenty wokół każdego miejsca bromu, aby zakodować stan cząsteczki jako 4-bitowy wektor binarny. Następnie agent RL Soft Actor-Critic decyduje o umiejscowieniu wskazówki, napięciu i prądzie. Agent bezpośrednio współdziała z STM za pośrednictwem TCP, manipuluje, ponownie skanuje i otrzymuje nagrody warstwowe — pozytywne za poprawne łamanie pojedynczego wiązania, negatywne za brak reakcji, aktywację w niewłaściwym miejscu lub degradację. Aby poradzić sobie z niedoborem danych — tylko 948 zdarzeń w ciągu 36 godzin — wykorzystują symetrię D₄ₕ cząsteczki poprzez doświadczenie replay z transformacją niezmienniczą, generując równoważne wirtualne trajektorie bez dodatkowych eksperymentów. Agent odkrywa prawdziwą fizykę. Optymalne napięcie wzrasta z każdym krokiem debromowania (~2,5 V dla pierwszego wiązania, ~3,2 V dla ostatniego), odzwierciedlając ewoluującą strukturę elektroniczną pośredników rodnikowych. Ustawia wskazówkę nad docelowymi wiązaniami, zgodnie z przestrzennym zanikiem ekscytacji elektronów tunelowych, i dostosowuje się do zmian warunków wskazówki w czasie rzeczywistym. Wskaźniki sukcesu w pojedynczym kroku osiągają 50–79%, a pełne ukończenie czterech kroków wynosi 29–35% — całkowicie bez ludzkiego kierownictwa. Z perspektywy ML algorytm porusza się w ekstremalnych ograniczeniach: małe obszary sukcesu, rzadkie hałaśliwe nagrody, niestacjonarne środowiska i nieodwracalne tryby awarii. Regularizacja entropii SAC zapewnia równowagę eksploracji, podczas gdy replay wzbogacony o symetrię zapobiega załamaniu polityki. To wskazuje na agentów AI, którzy aktywnie przeprowadzają eksperymenty, ucząc się optymalnych protokołów z bezpośredniej interakcji z systemami fizycznymi. Artykuł: