Autonom enmolekylskemi: när djup förstärkningsinlärning bryter bindningar en i taget Att bryta en specifik kemisk bindning i en enda molekyl – samtidigt som dess grannar lämnas orörda – är en av de svåraste sakerna du kan göra inom kemi. En STM-spets kan göra detta genom att injicera tunnlande elektroner på en exakt plats, men dessa experiment kräver en expert som manuellt justerar spetsens position, spänning och ström vid varje försök. För lite och ingenting händer; för mycket och du förstör molekylen. Zhiwen Zhu och medförfattare demonstrerar nu en helt autonom plattform som utför flerstegs, bindningsselektiva reaktioner utan mänsklig inblandning. Deras system är ett tetrabrominerat porfyrin (TPP-Br₄) på Au(111)—fyra ekvivalenta C–Br-bindningar runt en porfyrinkärna, dissocierade sekventiellt längs förutbestämda vägar (ortho, para, ortho*, ortho-Z) genom olika intermediärer. Ledningen har tre steg. YOLOv7 nyckelpunktsdetektion och U-Net-segmentering lokaliserar molekyler och bestämmer orienteringen. En ResNet-18-klassificerare läser patchar runt varje bromplats för att koda molekyltillståndet som en 4-bitars binär vektor. Därefter bestämmer en Soft Actor-Critic RL-agent spetsplacering, spänning och ström. Agenten interagerar direkt med STM via TCP, manipulerar, skannar om och får nivådelade belöningar—positiv för korrekt enkelbindningsklyvning, negativ för ingen reaktion, aktivering på fel plats eller försämring. För att hantera databrist – endast 948 händelser under 36 timmar – utnyttjar de molekylens D₄h-symmetri genom invariant-transform-upplevelsereplay, vilket genererar motsvarande virtuella banor utan ytterligare experiment. Agenten upptäcker riktig fysik. Optimal bias ökar vid varje debrominationssteg (~2,5 V för den första bindningen, ~3,2 V för den sista), vilket speglar den utvecklande elektroniska strukturen hos radikalintermediärer. Den placerar spetsen ovanför målbindningarna, vilket är förenligt med rumslig sönderfall av tunnelelektronexcitation, och anpassar sig till spetsens tillståndsförändringar i realtid. Framgångsfrekvensen för enskilda steg når 50–79 %, med full fyrstegsfullföljning på 29–35 % – helt utan mänsklig vägledning. Ur ett ML-perspektiv navigerar algoritmen extrema begränsningar: små framgångsområden, gles brusiga belöningar, icke-stationära miljöer och irreversibla felsätt. SAC:s entropiregularisering ger utforskningsbalans, medan symmetriförstärkt återspelning förhindrar policykollaps. Detta pekar mot AI-agenter som aktivt genomför experiment och lär sig optimala protokoll genom direkt interaktion med fysiska system. Papper: