带映射和带结构之间的机器学习路线

2023-02-13 14:22 485 阅读 ID:784
机器之心
机器之心

电子能带结构和晶体结构是固态材料的两个相辅相成的标志。虽然方便的仪器和重建算法已经使大型经验晶体结构数据库成为可能,但从光电发射带映射(band mapping)数据中提取准粒子色散(与带结构密切相关)目前受到现有计算方法的限制。

为了应对不断增长的光发射数据的大小和规模,来自德国马克斯·普朗克计算机科学研究所(Max Planck Institute for Intelligent Systems)的研究团队开发了一个管道,包括概率机器学习和相关的数据处理、带结构重建的优化和评估方法,利用理论计算。该管道重构了半导体的所有 14 个价带,并在基准和其他材料数据集上显示出出色的性能。

重建揭示了以前在全球和局部尺度上无法获得的动量空间结构信息,同时实现了与材料科学数据库集成的路径。所提方法说明了结合机器学习和领域知识在多维数据中进行可扩展特征提取的潜力。

该研究以「A machine learning route between band mapping and band structure」为题,于 2022 年 12 月 30 日发布在《Nature Computational Science》上。

                          论文链接:https://www.nature.com/articles/s43588-022-00382-2

材料电子能带结构 (BS) 的建模和表征在材料设计和器件仿真中起着至关重要的作用。BS 存在于动量空间 Ω(kx,ky,kz,E) 中,并印记了周期性受限电子的能量(E)和动量(kx,ky,kz)之间的多维和多值函数关系。

使用动量和能量分辨光电子能谱 (PES),包括角度分辨 PES (ARPES) 和多维 PES 的光电子能带映射将 BS 测量为直接在 Ω 中的强度值多元概率分布。

近期硬件升级带来的能带映射数据集的激增及其公开可用性带来了理论和实验综合基准测试的可能性,这对于具有复杂能带色散的多带材料尤其具有挑战性。

解释光电子能谱的可用方法分为两类:基于物理的方法,需要对一维线形进行最小二乘拟合,命名为能量或动量分布曲线(EDC 或 MDC),以及分析模型。尽管基于物理的数据模型保证了高精度和可解释性,但由于有限的数值稳定性和效率,将逐点拟合(或估计)升级到动量空间中的大型密集采样区域(例如,包括 10^4 个或更多动量位置)会带来挑战。因此,它们的使用仅限于根据材料的物理知识和实验设置启发式确定的选定动量位置。基于图像处理的方法应用数据转换来提高分散特征的可见性。它们的计算效率更高,可以对整个数据集进行操作,但仅提供潜在带色散的视觉增强。它们不允许重建,因此不足以进行真正的定量基准测试或归档。

                                                     图 1:从带映射到 BS。(来源:论文)

平衡这两种方法的方法将以足够高的精度提取带色散,并可扩展到多维数据集,因此为从复杂的带映射数据中提取结构信息以及构建用于注释和理解光谱的有效工具提供了基础。

除了好处之外,该重建方法存在三个局限性。首先,重建方法不能从头算,需要知道能带的数量。其次,当电子自能调制很大时,需要将所谓的裸带色散(即单粒子色散)与准粒子色散分开,以了解材料物理属性。第三,如果需要更高层次的理论(例如具有混合泛函和 GW 的 DFT),或者由于材料系统的复杂性,包括未确定的微观相互作用、样品缺陷或结构紊乱,以及 kz 色散造成的强强度模糊等,由于计算成本,适当的初始化可能是昂贵的或不可能获得。这些场景对于带重建仍然具有挑战性。

越来越多的来自材料科学界的可公开访问和可重复使用的数据集激发了未来对模型的扩展,使用其他类型的信息先验,在保持计算效率的同时考虑物理信号的全部复杂性。

总的来说,多学科方法提供了构建下一代高通量材料表征工具包的示例,将学习算法与物理知识相结合,以达到迄今为止无法实现的对材料特性的全面理解。

免责声明:作者保留权利,不代表本站立场。如想了解更多和作者有关的信息可以查看页面右侧作者信息卡片。
反馈
to-top--btn