Química autónoma de moléculas individuales: cuando el aprendizaje por refuerzo profundo rompe enlaces uno a la vez Romper un enlace químico específico en una sola molécula—mientras se dejan intactos sus vecinos—es una de las cosas más difíciles que puedes hacer en química. Una punta de STM puede hacerlo inyectando electrones de túnel en una ubicación precisa, pero estos experimentos requieren un experto que ajuste manualmente la posición de la punta, el voltaje de sesgo y la corriente para cada intento. Muy poco y no pasa nada; demasiado y destruyes la molécula. Zhiwen Zhu y coautores ahora demuestran una plataforma completamente autónoma que realiza reacciones selectivas por enlace en múltiples pasos sin intervención humana. Su sistema es un porfirina tetrabromada (TPP-Br₄) sobre Au(111)—cuatro enlaces equivalentes C–Br alrededor de un núcleo de porfirina, disociados secuencialmente a lo largo de caminos predefinidos (orto, para, orto*, orto-Z) a través de diferentes intermedios. El proceso tiene tres etapas. La detección de puntos clave de YOLOv7 y la segmentación de U-Net localizan moléculas y determinan la orientación. Un clasificador ResNet-18 lee parches alrededor de cada sitio de bromo para codificar el estado molecular como un vector binario de 4 bits. Luego, un agente de RL Soft Actor-Critic decide la colocación de la punta, el voltaje y la corriente. El agente interactúa directamente con el STM a través de TCP, manipula, vuelve a escanear y recibe recompensas escalonadas—positivas por la ruptura correcta de un solo enlace, negativas por no reacción, activación en el sitio incorrecto o degradación. Para hacer frente a la escasez de datos—solo 948 eventos en 36 horas—explotan la simetría D₄ₕ de la molécula a través de la experiencia de repetición de transformaciones invariantes, generando trayectorias virtuales equivalentes sin experimentos adicionales. El agente descubre física real. El sesgo óptimo aumenta con cada paso de debrominación (~2.5 V para el primer enlace, ~3.2 V para el último), reflejando la estructura electrónica en evolución de los intermedios radicales. Coloca la punta sobre los enlaces objetivo, consistente con la disminución espacial de la excitación de electrones de túnel, y se adapta a los cambios en las condiciones de la punta en tiempo real. Las tasas de éxito en un solo paso alcanzan el 50–79%, con una finalización completa de cuatro pasos del 29–35%—totalmente sin guía humana. Desde una perspectiva de ML, el algoritmo navega por restricciones extremas: regiones de éxito diminutas, recompensas ruidosas y escasas, entornos no estacionarios y modos de fallo irreversibles. La regularización de entropía de SAC proporciona un equilibrio de exploración, mientras que la repetición aumentada por simetría previene el colapso de la política. Esto apunta hacia agentes de IA que realizan experimentos activamente, aprendiendo protocolos óptimos a partir de la interacción directa con sistemas físicos. Artículo: