在最近的一项研究中,来自佐治亚理工、圣母大学、罗彻斯特理工学院的研究者提出了一种新型的无电容 DRAM,旨在加快 AI 领域的发展。
当今计算中最大的问题之一是「存储墙」,即处理时间与将数据从单独的 DRAM 存储器芯片传送到处理器所花费时间之间的差距。AI 应用的日益普及只会加剧该问题,因为涉及面部识别、语音理解、消费商品推荐的巨大网络很少能容纳在处理器的板载内存上。
在 2020 年 12 月举行的 IEEE 国际电子设备会议(IEDM)上,一些研究小组认为:一种新型的 DRAM 可能成为「存储墙」问题的解决方案。他们表示:「这种新型的 DRAM 由氧化物半导体制成,并内置在处理器上方的各层中,其位长是商用 DRAM 的数百或数千倍,并且在运行大型神经网络时可以提供较大的区域,节省大量能源。」
单片 1T1C 设计的缺陷与局限性
计算机中的 DRAM 存储单元由单个晶体管和单个电容器制成,即所谓的 1T1C 设计。这种存储单元在写入时打开晶体管,电荷被推入电容器 (1) 或从电容器 (0) 去除;读取时则会提取并度量电荷(如果有)。该系统速度超级快,价格便宜,并且功耗很小,但它也有一些缺点。
首先,读取时会消耗电容器的电量,因此读取意味着要将该位写回到内存中。即使不进行读取,电荷最终也会通过晶体管从电容器中泄漏出来。所有单元都需要定期刷新以保持数据。在现代 DRAM 芯片中,此操作每 64ms 完成一次。
处理器芯片中的嵌入式 DRAM 是以商业的形式完成的,因而存在一些其局限性。佐治亚理工学院电气和计算机工程系教授 Arijit Raychowdhury 表示:「单片 1T1C 的设计一直面临的挑战是制造电容器以及制造具有超低泄漏的晶体管方面存在困难。」他与圣母大学和罗彻斯特理工学院的研究人员合作开发了新的嵌入式 DRAM。在为逻辑电路构建的制造过程中,很难制造出优秀的电容器。
新型嵌入式 DRAM 的结构
新型嵌入式 DRAM 仅由两个晶体管制成,没有电容器,简称为 2T0C。之所以可以这样做,是因为晶体管的栅极是天然的电容器(尽管有些小)。因此代表该位的电荷可以存储在此处。该设计具有一些关键优势,特别是对于 AI 来说。
与由晶体管和电容器组成的普通 DRAM 不同,2T0C 嵌入式 DRAM 由两个晶体管组成。该位存储在右侧晶体管的电容中,并由左侧设备放置在此处。右侧设备栅极上的电荷意味着电流可以流过它,因此仅由晶体管控制读取和写入。
Raychowdhury 解释称:「其中写入和读取涉及不同的设备,因此可以从 2T0C DRAM 单元读取数据,而无需破坏数据,不必重写数据。你所要做的就是查看电流是否流过其栅极承载电荷的晶体管。如果存在电荷,晶体管将导通,会有电流流过。如果没有电荷,就将没有电流流过。」
圣母大学 Suman Datta 实验室的研究生 Jorge Gomez 对此表示:「轻松读取对于 AI 来说至关重要,因为神经网络每次写入至少要读取 3 遍。」
Raychowdhury 说道:「2T0C 的排列不适用于硅逻辑的晶体管。」由于晶体管的栅极电容太低,并且通过晶体管的泄漏量太高,任何位都会立即流失。因此研究者转向由非晶氧化物半导体制成的设备,例如用于控制某些显示器中像素的设备。
新型嵌入式无电容 DRAM 具有哪些特性
新型嵌入式无电容 DRAM 具有几种显著的特性。具体而言,它们可以驱动大量电流,使得写入速度更快;当它们关闭时,会释放少量电荷,使得位使用寿命更长。美国团队使用掺杂了约 1% 钨元素的氧化铟作为他们的半导体,简称掺钨氧化铟(IWO)。
Raychowdhury 表示,该设备的电流是「有记录的氧化晶体管中最好的一些」。该设备为逻辑运算提供了足够的读写速度,同时截止电流(off current)也很小,比硅的电流小了二至三个数量级。实际上,该团队必须构建超大版本的设备,以获得准确的泄露电流。
同样重要的是,像这样的氧化物可以在相对低温环境下进行处理。这意味着由氧化物制成的设备可以在处理器芯片上方的互连层中构建,并且不会损坏下方的硅器件。此外,在此处构建存储单元为数据处理硅元件(elements on the silicon)提供了一个直接的高带宽路径,从而有效地打破了存储墙(memory wall)。
在对三个常见神经网络的模拟中,该团队将该技术的单层、四层、八层版本分别与 IBM Power8 处理器中使用的技术 22 纳米 1T1C 嵌入式 DRAM 进行了对比。由于控制 2T0C 嵌入式 DRAM 消耗了处理器上一定数量的逻辑,因此就所有神经网络数据所需的芯片面积而言,仅使用单层存储器并不能带来实际的优势。但是,四层 2T0C DRAM 将嵌入式存储器所需的芯片面积减少了 3.5 倍,八层 2T0C DRAM 更是减少了 7.3 倍。
同样地,当层数多于 1 时,2T0C 嵌入式 DRAM 在性能上优于 1T1C 嵌入式 DRAM。举例而言,当提供一平方毫米的四层或八层嵌入式 DRAM 时,ResNet-110 神经网络则从来不需要从芯片外获取数据。1T1C 设计需要在 70% 左右的时间里使用芯片外数据,与之不同,2T0C 嵌入式 DRAM 可能会节省大量的时间和精力。
比利时微电子研究中心(Imec)的研究人员在国际电子器件会议(IEDM)上推出了一种类似的 2T0C 嵌入式方案,该方案使用铟镓锌氧化物作为半导体。Imec 高级科学家 Attilio Belmonte 指出,IGZO 必须在有氧的环境中退火,以修复由氧空位造成的材料缺陷。这样可以有助于减少 IGZO 中自由电子的数量,进而有助于电流流动,但如果没有氧气,设备就不会像开关那样起作用。
对这种「氧钝化」的需求对 IGZO DRAM 设备的设计产生了几种撞击效应(knock-on effect),包括所涉及的电介质的选择和位置。Imec 开发的优化设备将 IGZO 放置于氧化硅的上方,并且顶部是氧化铝。这种结合方式非常有效地控制了耗尽位的泄露。2T0C 存储单元的平均停留时间为 200 秒,并且 25% 的存储单元将它们的位保持了 400 秒以上的时间,是普通 DRAM 单元保持时长的数千倍。在后续研究中,Imec 团队希望通过使用不同相位的 IGZO 将停留时间延长至 100 小时以上。
这样长的停留时间使得该设备进入到了非易失性存储(non-volatile memories)的领域,例如电阻式 RAM 和磁性 RAM。很多研究团队专注于使用嵌入式 RRAM 和 MRAM 来加速 AI。但是,Raychowdhury 认为 2T0C 嵌入式 DRAM 比它们更有优势。嵌入式 RRAM 和 MRAM 需要大量电流来写入,并且就目前而言,电流必须来自处理器硅片中的晶体管,所以节省的空间更少。更糟糕的是,嵌入式 RRAM 和 MRAM 切换速度必定慢于 DRAM。
Raychowdhury 补充道,任何基于电荷的事物往往速度更快,至少在写入过程中是这样。速度快得多的证据还需要等待处理器上全阵列嵌入式 2T0C DRAM 的构建。并且,全阵列嵌入式 2T0C DRAM 就要到来了!
原文链接:https://spectrum.ieee.org/tech-talk/semiconductors/memory/new-type-of-dram-could-accelerate-ai