文章時間:2021年11月前
會議/期刊:SC 2021
筆記時間:2021年11月12日周五
Session E級機上的最佳實踐
1,
論文題目:Generalizable coordination of large multiscale workflows: challenges and learnings at scale
作者背景: LLNL ORNL LANL,IBM
論文地址: early bird version,SC'21
Abstract
機器學習技術的進步和大多數當前超級計算機的異構架構推動了對大型多尺度模擬的需求,這些模擬可以自動和自主地耦合不同的組件并將它們映射到相關資源以解決多尺度的復雜問題。然而,盡管工作流技術最近取得了進展,但當前的能力僅限于耦合兩個尺度。在首次使用三個分辨率尺度的演示中,我們提出了一個可擴展且可推廣的框架,該框架使用機器學習和原位反饋耦合模型對。我們擴展了大規模并行多尺度機器學習建模基礎設施 (MuMMI),這是一個最近的獲獎工作流程,并將框架推廣到其原始設計之外。我們討論了執行大規模多尺度模擬活動的挑戰和學習,該活動在 Summit 上利用了超過 600,000 個節點小時,并在超過 83% 的時間內實現了超過 98% 的 GPU 占用率。我們展示了創新以實現幾個數量級的擴展,包括同時協調 24,000 個作業,以及每天管理數 TB 的新數據和總共超過 10 億個文件。最后,我們描述了我們框架的通用性,并在即將發布的開源版本中討論了所提供的框架如何用于新應用程序。
其他:
GPU98%的占用率,是很驚人的數字,期待去看他們的工作。
2,
論文題目:Linux vs. lightweight multi-kernels for high performance computing: experiences at pre-exascale
作者背景: 日本超算中心,富士公司
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476162
Abstract
在HPC社區一個關于操作系統的共識是,基于lightweight kernel (LWK) 的OS比Linux在大規模的環境下表現更好。我們開發了一個基于lightweight multi-kernel的操作系統,部署在兩臺超算上,來和linux做比較。Oakforest-PACS,使用Intel Xeon Phi (x86),運行一個經過修改的linux版本,Fugika,當前世界第一的超算設備,基于aarch64架構的Fujitsu's A64FX,使用一個高度調整的linux環境。
本文討論新的OS,和對FUgaku系統中tuning挑戰的詳細描述。驚喜tuning的LWK是linux性能將近2倍,給整體性能帶來4%的提升,一些特殊情況下,性能提升達到29%。我們disclose了fugaku的16w臺節點的profile。
其他:
有點沒看懂性能提升到底是多少。
看到16w臺設備的實驗,好多錢啊
3,
論文題目:Revealing power, energy and thermal dynamics of a 200PF pre-exascale supercomputer
作者背景: Oak Ringe NL
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476188
Abstract
當前我們到了E級機的時代,理解電量消耗和他對HPC架構和應用的約束是很重要的。本文的工作基于Summit,分析了組件級別,節點級別,系統級別的電量消耗,對4k個節點(4626),對2020年一整年,每1HZ記錄了超過100個metrics。
我們分析了84w個作業的電量特征和能量效率,以及25w個GPU失敗的日志來找問題。
據我們所知,這是第一篇關于HPC系統級別的電量分析。
其他
畢竟Summit只有你們有嘛
Session 當前的實踐
- AMD CPU+ NVIDIA GPU是和組合工作的
論文題目:Non-recurring engineering (NRE) best practices: a case study with the NERSC/NVIDIA OpenMP contract
作者背景: Lawrence Berkeley National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476213
摘要
NERSC超級計算機Perlmutter由AMD cpu和NVIDIA gpu組成。NERSC用戶希望能夠使用OpenMP來利用高能力的gpu。本文描述了NERSC/NVIDIA如何構建非循環工程(NRE)合同,將OpenMP gpu卸載支持添加到NVIDIA HPC編譯器中。該文件描述了該合同如何整合了雙方的優勢,并鼓勵合作,以提高最終交付的質量。我們包括了我們的最佳實踐,以及這個特定的合同如何考慮到正在出現的OpenMP規范、NERSC工作負載需求,以及如何在GPU硬件上最有效地使用OpenMP。本文包括使用NVIDIA HPC SDK中分布的NVIDIA編譯器獲得的OpenMP應用程序性能結果。
- HPC中低權限需求的容器應用
論文題目:Minimizing privilege for building HPC containers
作者背景: Los Alamos National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476187
摘要
HPC中心面臨著對軟件靈活性日益增長的需求,越來越多的人一致認為Linux容器是一個有前途的解決方案。但是,現有的容器構建解決方案需要根權限,不能直接在HPC資源上使用。隨著超級計算機多樣性的擴展和HPC架構越來越不同于普通計算資源,這種限制變得更加復雜。我們的分析表明,這個問題可以用低特權容器來解決。我們詳細介紹了Linux內核的相關特性,提出了一種新的容器特權分類,并比較了兩種開源實現:基本無特權的無根Podman和完全無特權的charlicloud。我們演示了在HPC資源上構建低特權容器現在可以工作,并且將繼續改進,為普通用戶提供更好的工作流來安全地、正確地構建容器。以這種方式最小化特權可以提高HPC用戶和開發人員的生產率,并減少對百億億次應用程序的支持工作量。
論文題目:Systematically inferring I/O performance variability by examining repetitive job behavior
作者背景:美國東北大學,Sandia National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476186
摘要:監控和分析I / O行為對于有效利用并行存儲系統至關重要。遺憾的是,隨著I / O需求和資源爭用的增加,I / O性能變化正變得一個重要的問題。本文使用新的方法研究了大規模高性能計算(HPC)系統的I / O行為和性能可變性,該方法從同一應用程序中識別出利用I / O表征工具的相同應用程序,然后檢測潛在的I /o在相同應用程序的工作中的性能變化。我們展示并討論了我們的獨特方法如何用于執行時間和特征分析,以檢測生產HPC系統中的有趣I / O性能變化模式,以及它們對操作/管理大型系統的影響。
Session Trends in Scalable Computing
- 量子計算版本的MPI
論文題目:Distributed quantum computing with QMPI
作者背景: [Torsten Hoefler]
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476172
摘要
量子計算機的實際應用需要數百萬個物理量子位元,單個量子處理器要達到這樣的量子位元數將是一個挑戰。因此,在分布式環境中研究量子算法的資源需求是及時的,在分布式環境中,多個量子處理器通過一個相干網絡相互連接。我們引入了消息傳遞接口(Message Passing Interface, MPI)的擴展,以支持分布式量子算法的高性能實現。反過來,這些實現可以用于測試、調試和資源估計。除了量子MPI的原型實現外,我們還提出了分布式量子計算的性能模型SENDQ。該模型的靈感來自于經典的LogP模型,這使得它在為分布式量子計算機編程時為算法決策提供信息非常有用。具體來說,我們考慮了針對物理和化學問題的兩種量子算法的幾個優化,并在SENDQ模型中詳細說明了它們對性能的影響
- HPC中區塊鏈的應用
論文題目:BAASH: lightweight, efficient, and reliable blockchain-as-a-service for HPC systems
作者背景: University of Nevada
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476155
摘要
分布式彈性對于減輕數據移動和I/ o成本的增長,同時在HPC系統中保持數據準確性至關重要。本文提出采用類似區塊鏈的去中心化協議來實現這種分布式彈性。采用這種方法的關鍵挑戰在于區塊鏈的目標系統(例如,無共享、松耦合、TCP/IP堆棧)與HPC在存儲子系統、資源分配和編程模型上的獨特設計之間的不匹配。我們提出了BAASH,用于高性能計算的區塊鏈即服務,以即插即用的方式部署。BAASH用兩個關鍵組件彌補了HPC和區塊鏈之間的差距:(i) HPC共享存儲架構的輕量級共識協議,(ii)補償MPI的新的容錯機制,以保證分布式彈性。我們已經實現了一個原型系統,并在一個500核的HPC集群上對超過200萬個事務進行了評估。結果表明,所提出的技術的原型顯著優于一般的區塊鏈系統,并在MPI中表現出強大的可靠性。
3,
論文題目:Representation of women in HPC conferences
作者背景:Reed College
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476164
摘要
女性在高性能計算機勞動力中被嚴重低估。要解決這一差距,就需要準確衡量婦女代表性及其相關因素。本文的目標是提供當前的,廣泛的,可重復的數據在這一性別差距。具體來說,本研究提供了關于婦女在高性能計算會議中的代表性的深入統計數據,特別是對同行評議論文的作者,他們是該領域未來發展的基石。
為此,我們分析了9次HPC和與HPC相關的同行評議會議的參與者數據。除了性別分布,我們還查看了論文發表后的引文統計數據和作者的研究經驗、國家和工作部門。
我們的主要發現是,女性僅占所有HPC作者的10%,地域差異大,部門差異小。在經驗豐富的階層中,代表性特別低。這個10%的比率甚至低于整個計算機科學的20- 30%的比率。
Session HPC和應用
1,
論文題目:TensorKMC: kinetic Monte Carlo simulation of 50 trillion atoms driven by deep learning on a new generation of Sunway supercomputer
作者背景: 中科院
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476174
摘要
原子動力學蒙特卡羅方法在多尺度物理模擬中起著重要的作用,因為它連接了微觀世界和宏觀世界。然而,它的準確性受到經驗潛力的限制。因此,我們提出了一種三重編碼算法和空位緩存機制來有效地集成從頭算神經網絡勢(NNPs)和AKMC,并在TensorKMC代碼中實現它們。我們將程序移植到SW26010-pro上,為NNPs創新了一個快速特征算子和一個大融合算子,充分利用新一代神威超級計算機強大的異構計算單元。我們進一步優化內存使用。通過這些改進,TensorKMC可以模擬多達54萬億的原子,并實現出色的強和弱縮放性能,高達27,456,000核。
2,
論文題目:High-throughput virtual screening of small molecule inhibitors for SARS-CoV-2 protein targets with deep fusion models
作者背景: Lawrence Livermore National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476193
摘要
基于結構的深度融合模型最近被證明優于幾種基于物理和機器學習的蛋白質配體結合親和力預測方法。作為多機構COVID-19大流行應對的一部分,計算篩選了超過5億個小分子,對抗導致COVID-19的新型冠狀病毒(SARS-CoV-2)的四種蛋白質結構。為了評估50多億個SARS-CoV-2蛋白靶點上的對接姿勢,深度融合技術進行了三次增強。首先,深度融合的概念被細化為一個結構,相干反向傳播模型(相干融合),以提高綁定-親和預測精度。其次,采用分布式遺傳超參數優化方法對模型進行訓練。最后,開發了一種可擴展的、高通量篩選能力,以最大限度地增加評估配體的數量,加快實驗評估的路徑。在這項工作中,我們介紹了基于機器學習的高通量篩選方法和使用我們的計算管道找到SARS-CoV-2抑制劑的結果。
3,
論文題目:High performance uncertainty quantification with parallelized multilevel Markov chain Monte Carlo
作者背景: 德國海德堡大學
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476150
摘要
復雜現實現象的數值模型常常需要高性能計算(HPC)。不確定性進一步增加了問題的維度,并帶來更大的挑戰。
我們提出了一種多級馬爾可夫鏈蒙特卡羅并行策略,一種最先進的,算法可擴展的不確定性量化(UQ)算法,用于貝葉斯逆問題,以及一個新的軟件框架,允許大規模并行跨正向模型評估和UQ算法本身。主要的可伸縮性挑戰表現為MLMCMC方法引入的強數據依賴關系,這禁止了瑣碎的并行化。
我們的軟件是作為模塊化和開源的MIT不確定性量化庫(MUQ)的一部分發布的,并且可以很容易地與任意用戶代碼耦合。我們使用分布式和統一數字環境(DUNE)和ExaHyPE引擎來演示它。后者提供了一個現實的、大規模的海嘯模型,在該模型中我們從浮標高度數據識別海嘯的來源。
Session:高性能圖算法
1,
論文題目:TriPoll: computing surveys of triangles in massive-scale temporal graphs with metadata
作者背景:LLNL
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476200
摘要:了解網絡數據中的高階相互作用是網絡科學的一個關鍵目標。對元數據三角形(或元數據豐富圖中的模式3個循環)的調查通常是這種研究的興趣所在。在這項工作中,我們開發了TriPoll,一個分布式HPC系統的原型,能夠測量包含邊和頂點元數據的海量圖中的三角形。我們將我們的方法與之前在三角分析方面所做的工作進行了對比,后者通常集中于簡單的三角計數,通常是在沒有元數據的簡單圖中。我們評估TriPoll的可擴展性,當測量涉及元數據的真實和合成圖上的三角形時,多達數千億條邊。我們利用減少通信的優化來演示一個在2440億邊web圖上的三角形計數任務,用時大約是競爭方法的一半,同時還支持元數據感知功能。
2,
論文題目:Discovering and balancing fundamental cycles in large signed graphs
作者背景:Texas State University
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476153
摘要:通過全局符號平衡計算一致狀態是社會網絡分析的關鍵步驟。本文提出了一種基于新頂點和邊緣標記技術的帶符號圖快速平衡算法graphB+,并實現了其快速檢測和平衡所有基本循環的并行實現。graphB +的主要好處是,標簽可以用線性時間復雜度計算,只需要一個線性的內存數量,平衡循環的運行時間是線性周期頂點度的長度但獨立圖形的大小。我們使用OpenMP和CUDA并行化了graphB+。Titan V GPU需要0.85秒才能平衡包含1000萬個頂點和2200萬條邊的Amazon圖形的邊緣符號,這相當于每秒識別、遍歷和平衡1400萬個基本周期。
3,
論文題目:cuTS: scaling subgraph isomorphism on distributed multi-GPU systems using trie based data structure
作者背景:Washington State University,PNNL
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476214
摘要:子圖同構是一種模式匹配算法,廣泛應用于化學信息學、生物信息學、數據庫和社會網絡分析等領域。這是一個昂貴的計算和證明np困難的問題。gpu的大規模并行性非常適合求解子圖同構問題。然而,目前的GPU實現還遠遠達不到可達到的性能。此外,當前方法對內存的巨大需求限制了可以處理的問題大小。本工作分析了在GPU上處理子圖同構的基本挑戰,并開發了一種高效的GPU實現。我們還開發了一個gpu友好的基于trie的數據結構,以大幅減少中間存儲空間的需求,從而能夠處理大型基準測試。我們還開發了第一個用于gpu的分布式子圖同構算法。我們的實驗評估證明了我們的方法的有效性,通過比較執行時間和可以處理的案例數量與最先進的GPU實現。
Session 應用性能優化
論文題目:Bootstrapping in-situ workflow auto-tuning via combining performance models of component applications
作者背景:Southern Illinois University
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476197
摘要:在現場工作流程中,多個組件(如仿真和分析應用程序)與流數據傳輸耦合在一起。可能配置的多樣性需要一個自動調優器來進行工作流優化。現有的自動調優方法是計算昂貴的,因為為了訓練自動調優代理模型或探索配置空間,必須通過重復運行整個工作流對許多配置進行采樣。
為了降低這些成本,我們通過利用分析工作流結構來組合組件應用程序的性能模型,有選擇地生成測試配置來測量和指導機器學習工作流代理模型的訓練。因為訓練可以集中在性能良好的配置上,所以得到的代理模型可以對良好配置實現較高的預測精度,盡管訓練使用較少的總配置。因為訓練可以集中在性能良好的配置上,所以得到的代理模型可以對良好配置實現較高的預測精度,盡管訓練使用較少的總配置。實際應用程序的實驗表明,對于固定的計算機時間預算,我們的方法可以識別出比其他方法更好的配置。
論文題目:Meeting the real-time challenges of ground-based telescopes using low-rank matrix computations
作者背景:澳國立
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476225
摘要:自適應光學(AO)是一種可以測量和減輕大氣湍流對光束畸變影響的技術。AO必須實時操作,通過控制數千個驅動器來塑造部署在地面望遠鏡上的可變形鏡子的表面,以補償這些扭曲。從矩陣向量乘法(MVM)中獲得命令向量,該命令向量觸發每個執行器應如何操作以彎曲鏡像的一部分。我們識別并利用來自歐洲南方天文臺超大望遠鏡MAVIS儀器的這些控制矩陣的數據稀疏結構。我們在x86和基于加速器的系統上提供性能評估。我們提出了低秩矩陣(TLR)逼近對MVM求解時間的影響,并評估產生的圖像質量。與常規致密MVM相比,TLR-MVM的性能提高了兩個數量級,同時保持了圖像質量。
3.針對數據并行中表格數據的NAS方法改進
論文題目:AgEBO-tabular: joint neural architecture and hyperparameter search with autotuned data-parallel training for tabular data
作者背景: 法國,Argonne National Laboratory
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476203
摘要
為大型表格數據集開發高性能預測模型是一項具有挑戰性的任務。神經架構搜索(Neural architecture search, NAS)是一種同時生成和評估具有不同架構的多個神經網絡以自動發現高性能模型的AutoML方法。NAS中的一個關鍵問題,特別是對于大型數據集,是評估每個生成的架構所需的大量計算時間。雖然數據并行訓練有可能解決這個問題,但直接的方法可能會導致嚴重的準確性損失。為此,我們開發了AgEBO-Tabular,它結合了老化進化(Aging Evolution, AE)對神經結構的搜索和異步貝葉斯優化(BO)對超參數的搜索以適應數據并行訓練。我們在來自百億億次計算項目-癌癥分布式學習環境(ECP-CANDLE)的兩個大型預測建模表格數據集上評估了我們的方法的有效性。
Session 性能分析與優化
論文題目:CAKE: matrix multiplication using constant-bandwidth blocks
作者背景:哈佛大學
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476166
摘要:提出了一種基于內存層次結構的矩陣乘法運算的新方法。Constant-bandwidth (CB)塊提高了受外部內存帶寬限制的架構的計算吞吐量。配置CB塊的形狀和大小,從任何內存層次(例如,內部SRAM)操作,我們實現高吞吐量,同時保持外部帶寬(例如,DRAM)不變。我們解釋了,令人驚訝的是,CB塊如何在計算吞吐量增加時保持恒定的外部帶寬。類似于將一個蛋糕分成幾塊,我們將cb分區系統命名為cake。我們展示了在外部帶寬構成瓶頸的現實系統上,CAKE在計算時間上優于最先進的庫,證明了CAKE解決內存墻問題的能力。
CAKE通過在titing和調度中直接使用理論上最優的cb分區塊實現了卓越的性能,避免了廣泛的設計搜索的需要。
論文題目:HPAC: evaluating approximate computing techniques on HPC OpenMP applications
作者背景:LLNL
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476216
摘要:當我們接近摩爾定律的極限時,研究人員正在探索未來高性能計算(HPC)系統的新范式。近似計算通過承諾提供強大的計算能力而獲得了關注。然而,由于高性能計算科學應用對精度的嚴格要求,在高性能計算中廣泛采用近似計算方法需要深入了解應用對近似的適應性。
我們開發了HPAC,一個支持代碼注釋和轉換的編譯器和運行時框架,以及OpenMP HPC應用程序的準確性和性能權衡分析。我們使用HPAC對近似計算技術應用于HPC應用程序時的有效性進行深入分析。
結果揭示了近似的可能性能增益及其與并行執行的相互作用。例如,在LULESH代理應用程序中,由于減少了內存訪問,因此提供了實質性的性能提升。然而,在白細胞基準近似中會導致并行執行中的負載不平衡,從而限制了性能增益
- 糾刪碼的新工作
論文題目:Accelerating XOR-based erasure coding using program optimization techniques
作者背景:日本動畫公司
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476204
摘要:Erasure coding (EC)為大規模系統提供了數據冗余。基于xor的電子商務是一種易于實現的優化電子商務的方法。本文解決了最先進的基于xor的EC方法(~4.9 GB/s編碼吞吐量)和英特爾基于另一種方法的高性能EC庫(~6.7 GB/s)之間的顯著性能差距。基于我們的觀察,我們提出了一種新的方法,基于xor的EC實際上生成了一個領域特定語言的XORing字節數組程序。我們形式化了編譯器構造的直線程序(SLPs),并使用各種程序優化技術對SLPs進行優化。我們的優化流程有三個方面:
1)使用語法壓縮算法減少XORs的數量;
2)使用deforestation減少內存訪問,一種函數式程序優化方法;
3)使用程序分析中的(red-blue) pebble game 減少緩存遺漏。我們提供了一個實驗庫,它的吞吐量高達8.92 GB/s,優于Intel的庫。
Session 加速器架構
1,
論文題目:Hardware acceleration of tensor-structured multilevel ewald summation method on MDGRAPE-4A, a special-purpose computer system for molecular dynamics simulations
作者背景:日本 ,RIKEN
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476190
摘要:
我們開發了MDGRAPE-4A,一個用于分子動力學模擬的專用計算機系統,由512個自定義系統片上lsi節點組成,具有專用的處理器核心和互連,旨在實現生物分子模擬的強大可擴展性。為了減少評估庫侖相互作用所需的全球通信,我們進行了MDGRAPE-4A和新算法的聯合設計,張量結構多層Ewald求和法(TME),該公司在定制的LSI電路上生產硬件模塊,用于在三維環面網絡上進行粒子網格操作和網格網格可分離卷積。我們在FPGA上使用3D fft實現了頂級網格電位的卷積,同時使用基于FPGA的八叉樹網絡來收集網格電荷。長距離庫侖部分的運行時間為50 μs,與短程部分的運行時間大部分重疊,額外的成本約為10 μs/步長,僅造成5%的性能損失。
2,
論文題目:Accelerating bandwidth-bound deep learning inference with main-memory accelerators
作者背景:The University of Texas at Austin
論文地址:https://dl.acm.org/doi/10.1145/3458817.3476146
摘要:
矩陣-矩陣乘法運算(GEMMs)在許多高性能計算和機器學習應用中非常重要。它們通常被映射到離散加速器(如gpu)來提高性能。然而,我們發現大型高/瘦矩陣和胖/短矩陣從離散加速中獲益甚微,而且在CPU上的性能也不好。這種矩陣在重要的工作負載中很普遍,比如大型數據中心中的深度學習推理。我們展示了通過在主CPU內存中進行處理來加速這些gemm的巨大潛力,其中內存單元(pim)中的處理利用了其他未開發的帶寬,而不需要數據復制。我們開發了一個新的GEMM執行流和相應的內存端地址生成邏輯,該邏輯利用了GEMM局域性,并支持長時間運行的PIM內核,盡管CPU使用了復雜的地址映射函數。我們在通道、設備和設備內PIM級別上對StepStone變體的評估表明,最小延遲比CPU高12倍,對于嚴格的查詢延遲約束,吞吐量高2.8倍。最近的推薦和語言模型的端到端性能分析表明,StepStone的性能比快速CPU高出16倍,并且比最佳的優先主存加速方法高出2.4倍。
3,
論文題目:LCCG: a locality-centric hardware accelerator for high throughput of concurrent graph processing
作者背景:華中科技大學
論文地址:https://dl.acm.org/doi/10.1145/3458817.3480854
摘要:在現代數據中心中,大量并發的圖處理任務正在大型圖上進行處理。然而,現有的硬件/軟件解決方案存在不規則的圖遍歷和激烈的資源爭用問題。在本文中,我們提出了LCCG,一個Locality-Centric可編程加速器,它增強了多核處理器實現更高的吞吐量Concurrent Graph處理任務。具體地說,我們在加速器設計中開發了一種新穎的拓撲感知執行方法,根據圖的拓撲動態規范多個作業的圖遍歷,這能夠完全整合來自并發作業的圖數據訪問。通過在多個作業中重用相同的圖數據,并合并對這些作業的頂點狀態的訪問,LCCG可以提高核心利用率。我們在一個模擬的64核處理器上進行了大量的實驗。結果表明,LCCG將前沿軟件系統的吞吐量提高了11.3 ~ 23.9倍,僅增加了0.5%的區域成本。LCCG的加速速度是目前最先進的硬件圖形處理加速器(分別是HATS、Minnow和PHI)的4.7 ~ 10.3 倍、5.5 ~ 13.2倍和3.8 ~ 8.4倍。