Química autônoma de molécula única: quando o aprendizado por reforço profundo rompe ligações uma a uma Quebrar uma ligação química específica em uma única molécula — enquanto deixa suas vizinhas intactas — é uma das coisas mais difíceis que você pode fazer em química. Uma ponta STM pode fazer isso injetando elétrons em tunelamento em um local preciso, mas esses experimentos exigem um especialista que ajuste manualmente a posição da ponta, a tensão de polarização e a corrente a cada tentativa. Muito pouco e nada acontece; Muito e você destrói a molécula. Zhiwen Zhu e seus coautores agora demonstram uma plataforma totalmente autônoma que realiza reações seletivas de vínculos em múltiplas etapas sem intervenção humana. Seu sistema é uma porfirina tetrabrominada (TPP-Br₄) em Au(111) — quatro ligações equivalentes C–Br ao redor de um núcleo de porfirina, dissociadas sequencialmente ao longo de vias pré-definidas (orto, para, orção*, orto-Z) através de diferentes intermediários. O oleoduto possui três estágios. A detecção de pontos-chave YOLOv7 e a segmentação U-Net localizam moléculas e determinam a orientação. Um classificador ResNet-18 lê patches ao redor de cada sítio bromo para codificar o estado molecular como um vetor binário de 4 bits. Depois, um agente Soft Actor-Critic RL decide a posição da ponta, voltagem e corrente. O agente interage diretamente com o STM via TCP, manipula, reescaneia e recebe recompensas em níveis — positivas para a clivagem correta da ligação única, negativas para nenhuma reação, ativação no local errado ou degradação. Para lidar com a escassez de dados — apenas 948 eventos em 36 horas — eles exploram a simetria D₄h da molécula por meio da repetição da experiência por transformação invariante, gerando trajetórias virtuais equivalentes sem experimentos adicionais. O agente descobre a física real. O viés ótimo aumenta a cada etapa de desbromação (~2,5 V para a primeira ligação, ~3,2 V para a última), refletindo a estrutura eletrônica em evolução dos intermediários radicais. Ele posiciona a ponta acima das ligações alvo, consistente com o decaimento espacial da excitação de elétrons em tunelamento, e se adapta às mudanças de condição da ponta em tempo real. As taxas de sucesso em etapas únicas chegam a 50–79%, com a conclusão completa das quatro etapas entre 29 e 35% — totalmente sem orientação humana. Do ponto de vista de ML, o algoritmo navega por restrições extremas: regiões de sucesso minúsculas, recompensas escassas e ruidosas, ambientes não estacionários e modos de falha irreversíveis. A regularização de entropia do SAC proporciona equilíbrio de exploração, enquanto a repetição aumentada por simetria previne o colapso de políticas. Isso aponta para agentes de IA que conduzem experimentos ativamente, aprendendo protocolos ideais a partir da interação direta com sistemas físicos. Papel: