图像资料用Nand就可以了
跑大量图学资料不用昂贵DRAM,
MIT:用快闪储存记忆体就可以了!
跑Graph资料不再需要昂贵的DRAM,快闪储存记忆体也能做到,MIT电脑科学和人工智慧实验室最近设计了一套透过便宜的快闪储存设备,搭配自行开发的演算法,只需要单机,就能处理大量Graph资料。
麻省理工学院电脑科学和人工智慧实验室(CSAIL)最近设计了一套透过便宜的快闪储存设备,搭配自行开发的排序降低(Sort-reduce)演算法,只需要单机,就能处理大量的图学(Graph)资料。
在资料科学圈中,图学资料是由节点和线组成的复杂资料结构,分析图学资料对许多应用都相当有效,像是网页排名、分析社群网路,或是了解大脑的神经结构,不过,图学资料包含了数十亿的节点和线,大型的图学资料规模甚至高达TB级,通常需要用昂贵的动态随机存取记忆体(DRAM),透过多个耗费资源的伺服器,才能处理大型的图学资料。
在处理图学资料上,快闪储存的处理速度通常会比DRAM慢许多,但是CSAIL的研究员开发了一套搭载快闪晶片阵列的设备和运算加速器,让快闪储存装置达到与DRAM一样的效能。
研究员开发出新的演算法将存取图学资料的请求编列成序列排序,让快闪装置可以快速又简单地存取资料,除此之外,研究员开发的演算法也合并了一些存取资料的请求,结合了运算时间、记忆体、频宽和其他运算资源,来减少运算排序的间接成本。
在研究开发的过程,研究员分别尝试用数个传统高效能系统和自行开发的系统,处理了大量的图学资料,包含Web Data Commons专案提供的大量超连结资料,有35亿个节点和1,280亿个连接线。
为了处理这个图学资料,传统的系统需要数千美元的伺服器搭配128 GB的DRAM,而CSAIL的研究员则是在一台桌机电脑中,加入1 GB的DRAM和1 TB的快闪记忆体,就能达到一样的运算效能,甚至,将多个装置结合再一起之后,系统可以处理高达40亿节点和1,280亿个连接线的图学资料。
研究团队中一名研究生Sang-Woo Jun表示,最重要的是,该系统装置可以透过更小、更少的资源来维持高效能的表现,像是电脑的功耗和温度等,该设备能够减少图学资料分析的成本和资源,更进一步,还能在许多应用中提高运算效能,像是辨识癌症基因的工作。
在图学分析的过程中,系统基本上会根据节点本身与其他节点的连结,搜寻并更新每个节点的值,举网页排名的分析来说,每个节点代表一个节点,若A节点有较高的值,与A节点连接的B节点的值也会增加。
一般的系统会将所有的图学资料储存在DRAM中,虽然处理资料的速度快,但是相对地也需要大量的成本和资源,有些系统会将一些资料储存到快闪记忆体来降低成本,但是处理的速度就会变慢,效能也会降低,因此,这样的作法,还是需要大量的DRAM。
CSAIL的研究员采用了称为排序降低的演算法,来解决用快闪记忆体当成主要储存设备的问题,也就是浪费资源,排序降低的演算法直接存取请求,按照标签顺序将所有存取请求用序列排序,简单来说,演算法会将所有对节点A的更新分成一组,快闪记忆体就能同时存取数千个请求,让系统变得更加有效率。
更进一步,为了要节省运算资源和频宽,演算法会同时将资料合并成最小的资料包(Data packet),将不同的资料群合并成一个,持续执行合并的工作,直到产生出最小的排序资料包,这个步骤大幅地降低了重复的存取请求。透过排序降低的演算法,在两个大型图学资料的分析中,研究员成功地降低了大约需要在快闪记忆体中更新的90%的总资料量。






关闭返回