通过深度强化学习进行精确的原子操作

扫描隧道显微镜（STM）是一种扫描探针显微术工具，扫描隧道显微镜可以让科学家观察和定位单个原子，它具有比它的同类原子力显微镜更加高的分辨率。STM 中的原子级操作使得基于人工结构的物质量子态的创建和基于单个原子的计算电路的极端小型化成为可能。

然而，先验未知的操作参数、尖端顶点自发变化的可能性以及尖端-原子相互作用建模的难度，使得选择能够在整个扩展操作中实现原子精度的操作参数具有挑战性。

在这里，来自芬兰阿尔托大学（Aalto University）的研究人员使用深度强化学习 (DRL) 来控制现实世界的原子操作过程。联合使用几种最先进的强化学习 (RL) 技术来提高数据效率。DRL 智能体学习以最佳精度操纵 Ag(111) 表面上的 Ag 吸附原子，并与路径规划算法集成以完成自主原子组装系统。

研究表明，最先进的 DRL 可以为纳米制造中的现实世界挑战提供有效的解决方案，并为原子尺度上日益复杂的科学实验提供强大的方法。

该研究以「Precise atom manipulation through deep reinforcement learning」为题，于 2022 年 12 月 5 日发布在《Nature Communications》上。

论文链接：https://www.nature.com/articles/s41467-022-35149-w

自 STM 开发以来，使用 STM 的原子操纵成为唯一能够实现原子级精确结构的实验技术。

以原子精度排列吸附原子需要调整尖端-吸附原子相互作用，以克服垂直或横向吸附运动的能量障碍。这些相互作用是通过在操作过程中设置的尖端位置、偏置和隧道电导来小心控制的。这些值不是先验的，必须为每个新的吸附原子/表面和尖端顶点组合单独建立。当操作参数选择不正确时，吸附原子的运动可能无法精确控制，尖端可能会意外撞到基板上，并且相邻的吸附原子可能会无意中重新排列。此外，固定操作参数可能会在自发尖端顶点结构发生变化后变得低效。在此类事件中，人类专家通常需要搜索一组新的操作参数和/或重塑尖端。

近年来，DRL 已成为解决非线性随机控制问题的一种新方法。与标准 RL 不同，在DRL 中，基于深度神经网络的决策智能体通过试错来学习，以在动态环境中完成任务。

在扫描探针显微术中，机器学习方法已被整合以解决各种各样的问题，并且采用具有离散动作空间的 DRL 来自动化尖端准备和分子的垂直操作。

在这里，研究人员展示了结合重放记忆技术的最先进的 DRL 算法可以有效地学习以原子精度操纵原子。仅在真实世界的原子操作数据上训练的 DRL 智能体可以在约 2000 次训练后，以最佳精度放置原子超过 100 次。

此外，与具有固定操作参数的基线算法相比，智能体对尖端顶点变化的稳健性更强。当与路径规划算法相结合时，训练有素的 DRL 智能体形成了一个完全自主的原子组装算法，使用该算法来构建具有原子精度的 42 原子人工晶格。

首先将原子操作控制问题制定为 RL 问题，以使用 DRL 方法解决它。这里 DRL 智能体的目标是尽可能精确和高效地将吸附原子移动到目标位置。

在这项研究中，研究人员使用一种广泛采用的组装原子排列的方法——横向操纵 (111) 金属表面上的吸附原子。镀银 PtIr 尖端用于在约 5 K 温度下操纵 Ag(111) 表面上的 Ag 吸附原子。以一种可控的方式将尖端撞击到基板中，吸附原子沉积在表面上。为了评估方法的多功能性，DRL 智能体也成功训练以操纵 Ag(111) 表面上的 Co 吸附原子。

智能体的性能在训练过程中得到提高，这反映在奖励、错误、成功率和 episode 长度上。在约 2000 次训练集或相当于 6000 次操作后，该智能体最大限度地减少了操作错误，并在约 2000 次训练集或相当于 6000 次操作后的 100 episodes 中实现了 100% 的成功率，这与之前大规模原子组装实验中进行的操作量相当。此外，智能体继续学习通过更多训练有效地操纵吸附原子，这可以从平均片段长度的减少中看出。主要的提示变化会导致智能体的表现明显但有限的恶化，这种情况会在数百次训练后恢复。

当 DRL 智能体在每次多次提示更改后达到接近最佳性能时，训练结束。在智能体的最佳性能中，它在 100 episodes 内实现了 100% 的平均成功率和 0.089 nm 的平均误差，显着低于一个晶格常数（0.288 nm）。尽管无法确定吸附原子是否位于离目标最近的吸附位点，但不知道确切的位点位置，我们可以根据位点的几何形状进行概率估计。

接下来，研究人员将经过训练的 DRL 算法的性能与一组手动调整的基线操作参数进行比较：偏差 V = 10mV，电导 G = 6 μA/V，以及图 2f 所示的三种不同尖端条件下的尖端运动。虽然基线在 tip 条件 2 下实现了最佳性能（100% 的成功率超过 100 episodes），但在其他两个 tip 条件下，性能明显较低，分别具有 92% 和 68% 的成功率。相比之下，DRL 智能体在前 100 次持续训练中保持相对良好的性能，并在新的尖端条件下进行更多训练后最终达到 >95% 的成功率。结果表明，通过持续训练，与固定操作参数相比，DRL 算法对尖端变化的稳健性和适应性更强。

在训练期间收集的数据还可以在没有原子分辨成像的情况下对吸附原子吸附过程和晶格取向产生统计洞察力。

最后，训练有素的 DRL 代理用于创建具有 42 个吸附原子的人工 kagome 晶格。匈牙利算法和快速探索随机树 (RRT) 搜索算法将结构分解为操纵距离 <2 nm 的单原子操纵任务，DRL 代理经过训练可以处理这些任务。匈牙利算法将吸附原子分配到它们的最终位置以最小化所需的总运动。RRT 算法规划吸附原子的起始位置和最终位置之间的路径，同时避免吸附原子之间的碰撞。将这些路径规划算法与 DRL 代理相结合，可以生成一个完整的软件工具包，用于以原子精度稳健、自主地组装人造结构。

训练 DRL 模型以原子精度操纵物质的成功证明，DRL 可用于解决原子级别的问题，其中由于介观和量子效应而出现挑战。该方法可以作为一种强大而有效的技术来自动化人工结构的创建以及原子级计算设备的组装和操作。此外，DRL 通过设计直接从其与环境的交互中学习，而无需监督或环境模型，这使其成为一种很有前途的方法来发现稳定的操作参数，而这些参数对于新系统中的人类专家来说并不简单。

总之，研究人员证明了通过结合几种最先进的 RL 算法并将原子操作形式化到 RL 框架中，可以训练 DRL 算法以原子精度和出色的数据效率来操作原子。与固定操作参数相比，DRL 算法还显示出更能适应尖端变化，这要归功于它不断从新经验中学习的能力。

我们相信这项研究是采用人工智能解决纳米加工自动化问题的里程碑。

通过深度强化学习进行精确的原子操作

作者信息

文章信息

上一篇

下一篇