Kimia molekul tunggal otonom: ketika pembelajaran penguatan mendalam memutuskan ikatan satu per satu Memutus ikatan kimia tertentu dalam satu molekul - sambil membiarkan tetangganya tidak tersentuh - adalah salah satu hal tersulit yang dapat Anda lakukan dalam kimia. Ujung STM dapat melakukannya dengan menyuntikkan elektron terowongan ke lokasi yang tepat, tetapi eksperimen ini membutuhkan seorang ahli yang secara manual menyesuaikan posisi ujung, tegangan bias, dan arus untuk setiap upaya. Terlalu sedikit dan tidak ada yang terjadi; terlalu banyak dan Anda menghancurkan molekulnya. Zhiwen Zhu dan rekan penulis sekarang mendemonstrasikan platform yang sepenuhnya otonom yang melakukan reaksi selektif ikatan multi-langkah tanpa campur tangan manusia. Sistem mereka adalah porfirin tetrabrominasi (TPP-Br₄) pada Au(111)—empat ikatan C-Br yang setara di sekitar inti porfirin, dipisahkan secara berurutan di sepanjang jalur yang telah ditentukan sebelumnya (ortho, para, ortho*, ortho-Z) melalui zat antara yang berbeda. Pipa memiliki tiga tahap. Deteksi titik kunci YOLOv7 dan segmentasi U-Net menemukan molekul dan menentukan orientasi. Pengklasifikasi ResNet-18 membaca tambalan di sekitar setiap situs bromin untuk mengkodekan keadaan molekuler sebagai vektor biner 4-bit. Kemudian agen Soft Actor-Critic RL memutuskan penempatan tip, tegangan, dan arus. Agen berinteraksi langsung dengan STM melalui TCP, memanipulasi, memindai ulang, dan menerima hadiah berjenjang—positif untuk pembelahan ikatan tunggal yang benar, negatif untuk tidak ada reaksi, aktivasi situs yang salah, atau degradasi. Untuk mengatasi kelangkaan data—hanya 948 peristiwa selama 36 jam—mereka mengeksploitasi simetri D₄h molekul melalui pemutaran ulang pengalaman transformasi invarian, menghasilkan lintasan virtual yang setara tanpa eksperimen tambahan. Agen menemukan fisika nyata. Bias optimal meningkat dengan setiap langkah debrominasi (~2,5 V untuk ikatan pertama, ~3,2 V untuk yang terakhir), mencerminkan struktur elektronik yang berkembang dari zat antara radikal. Ini memposisikan ujung di atas ikatan target, konsisten dengan peluruhan spasial eksitasi elektron terowongan, dan beradaptasi dengan perubahan kondisi ujung secara real time. Tingkat keberhasilan satu langkah mencapai 50–79%, dengan penyelesaian empat langkah penuh pada 29–35%—sepenuhnya tanpa bimbingan manusia. Dari perspektif ML, algoritme menavigasi batasan ekstrem: wilayah keberhasilan kecil, hadiah berisik yang jarang, lingkungan yang tidak diam, dan mode kegagalan yang tidak dapat diubah. Regularisasi entropi SAC memberikan keseimbangan eksplorasi, sementara pemutaran ulang yang ditambah simetri mencegah keruntuhan kebijakan. Ini menunjuk ke agen AI yang secara aktif melakukan eksperimen, mempelajari protokol optimal dari interaksi langsung dengan sistem fisik. Kertas: