熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
自主單分子化學:當深度強化學習一次打破一個鍵
在單一分子中打破特定的化學鍵——同時不影響其鄰近的鍵——是化學中最困難的事情之一。STM 錐尖可以通過將隧道電子注入精確位置來做到這一點,但這些實驗需要專家手動調整每次嘗試的錐尖位置、偏壓電壓和電流。太少則什麼都不會發生;太多則會摧毀分子。
Zhiwen Zhu 和合著者現在展示了一個完全自主的平台,能夠在沒有人工干預的情況下執行多步驟、選擇性打鍵反應。他們的系統是一種四溴化的卟啉 (TPP-Br₄) 在 Au(111) 上——四個等效的 C–Br 鍵圍繞著卟啉核心,沿著預定的路徑(鄰位、對位、鄰位*、鄰位-Z)通過不同的中間體依次解離。
該流程有三個階段。YOLOv7 關鍵點檢測和 U-Net 分割定位分子並確定方向。ResNet-18 分類器讀取每個溴位周圍的區域,將分子狀態編碼為 4 位二進制向量。然後,Soft Actor-Critic RL 代理決定錐尖的放置、電壓和電流。該代理通過 TCP 直接與 STM 互動,操縱、重新掃描並獲得分級獎勵——正獎勵用於正確的單鍵斷裂,負獎勵用於無反應、錯誤位置激活或降解。
為了應對數據稀缺——在 36 小時內僅有 948 次事件——他們通過不變變換經驗重播利用分子的 D₄ₕ 對稱性,生成等效的虛擬軌跡而無需額外實驗。
該代理發現了真實的物理學。最佳偏壓隨著每一步去溴化而增加(第一個鍵約 2.5 V,最後一個鍵約 3.2 V),反映了自由基中間體的電子結構的演變。它將錐尖定位於目標鍵上,與隧道電子激發的空間衰減一致,並實時適應錐尖條件的變化。單步成功率達到 50–79%,四步完整完成率為 29–35%——完全不需要人類指導。
從機器學習的角度來看,該算法在極端約束下運行:微小的成功區域、稀疏的噪聲獎勵、非平穩環境和不可逆的失敗模式。SAC 的熵正則化提供了探索平衡,而增強對稱的重播防止了策略崩潰。
這指向了能夠主動進行實驗的 AI 代理,從與物理系統的直接互動中學習最佳協議。
論文:

熱門
排行
收藏
