مرکز مرکز محاسبات رهبری اوک ریج (OLCF)، یکی از تأسیسات کاربر دفتر علوم وزارت انرژی ایالات متحده که در آزمایشگاه ملی اوک ریج (ORNL) واقع شده است، در حال تلاش برای ساخت یک ابررایانه جدید به نام Discovery تا سال 2028 است که بهرهوری انرژی نسل بعدی را نیز به نمایش خواهد گذاشت.
Frontier – ابررایانه شاخص کنونی OLCF – در حال حاضر در صدر فهرست 500 ابررایانه قدرتمند جهان قرار دارد. علاوه بر این، در زمان عرضه خود در سال 2022، به عنوان یکی از کارآمدترین ابررایانههای جهان نیز معرفی شد.
از زمان تشکیل OLCF، این مرکز پنج نسل از سیستمهای ابررایانه در کلاس جهانی را ارائه داده است که افزایش بهرهوری انرژی تقریباً 2000 برابری در عملیاتهای شناور نقطهای در هر ثانیه (flops) داشتهاند، طبق گزارشی از ORNL.
بنابراین، این آزمایشگاه در تلاش است تا در آینده ابررایانههایی بهتر و با بهرهوری انرژی بالاتر بسازد.
نیاز به ابررایانهها و دیتاسنترهای کارآمد انرژی
طبق گزارش موسسه تحقیقاتی برق، پیشبینی میشود که دیتاسنترها سالانه تا 6.8٪ از کل تولید برق ایالات متحده تا سال 2030 مصرف کنند — در مقابل حدود 4٪ امروزی.
برای تأمین این نیاز روزافزون به برق، ایالات متحده نیاز به سرمایهگذاری حدود 50 میلیارد دلار در ظرفیت جدید تولید برق دارد، طبق تخمینهای پژوهش گلدمان ساکس.
علاوه بر این، محاسبات با عملکرد بالا نیز نیاز به نوآوریهایی دارد تا تقاضاهای رو به افزایش برق را مدیریت کند.
«شرکتهای خصوصی اکنون ماشینهایی را راهاندازی میکنند که چندین برابر بزرگتر از Frontier هستند. امروز، آنها در حقیقت بودجه نامحدودی دارند، بنابراین به راحتی میتوانند بدون نگرانی برای بهرهوری، دیتاسنتری راهاندازی کنند»، گفت: اسکات اتچلی، مدیر فناوری مرکز ملی علوم محاسباتی (NCCS) در ORNL. «این تغییر خواهد کرد وقتی که محدودیت برق بیشتری داشته باشند، و آنها خواهند خواست با حداکثر بهرهوری از منابع خود استفاده کنند.»
یکی از تغییرات بزرگ در دهه گذشته، استفاده از واحدهای پردازش گرافیکی (GPUs) به جای واحدهای پردازش مرکزی (CPUs) بوده است.
«زمانی که برق را به ماشینهایی با GPUs وارد میکنید، تقریباً یک دهم مقدار انرژی به اندازه یک ماشین با تنها CPUs مصرف میکند»، گفت: ال گایست، مدیر پروژه Frontier در ORNL.
آخرین ارائه بزرگ OLCF – Frontier
با کمک فروشنده تراشههای نیمههادی FastForward وزارت انرژی (DOE) و شرکت AMD، یک نود پردازشی سریعتر و قدرتمندتر برای Frontier توسعه یافت که شامل یک پردازنده 64 هستهای EPYC نسل سوم و چهار GPU MI250X Instinct است و روشی برای افزایش کارآمدی GPUs با غیرفعال کردن بخشهایی از تراشه که در حال استفاده نیستند و سپس فعالسازی آنها در چند میلیثانیه ابداع شد.
«در گذشته، کل سیستم روشن میشد و بلااستفاده میماند و برق میسوزاند. اکنون میتوانیم همه چیزهایی که استفاده نمیشود را خاموش کنیم — و نه تنها یک GPU کامل. در Frontier، حدود 50 بخش مختلف در هر GPU میتواند به طور فردی خاموش شود اگر استفاده نمیشوند. اکنون، نه تنها منطقه سیلیکونی عمدتاً به عملیاتهای شناور نقطهای اختصاص دارد، بلکه در واقع من هیچی انرژی برای چیزی که استفاده نمیکنم، هدر نمیدهم»، گفت: گایست.
با این حال، تکنیکهای بیشتری لازم خواهند بود تا ابررایانههایی که بهرهوری انرژی بیشتری دارند ساخته شوند.
مدتها قبل از ساخت Frontier، فییی وانگ — رهبر گروه روشهای تحلیل و هوش مصنوعی در مقیاس (AAIMS) در OLCF — بیش از یک سال دادههای نمایهسازی برق از Summit، ابررایانه 200 پتافلاپ OLCF که در سال 2018 راهاندازی شد، جمعآوری کرد.
با استفاده از مجموعه دادههای پروفایل انرژی از Summit، وانگ و تیمش پروژه تسهیلات هوشمند برای علم را برای فراهم کردن درک مداوم از سیستمهای HPC آغاز کردند.
«من میخواهم این نظارت مداوم را یک قدم به جلو ببرم به «ادغام مداوم»، به این معنی که ما میخواهیم معیارهای جاری این ابررایانه را در یک سیستم ادغام کنیم تا کاربر بتواند مشاهد کند که مصرف انرژی آن برای برنامه کاربردی خاصش چگونه خواهد بود»، گفت: وانگ.
دوقلوی دیجیتال ابررایانه Frontier
در ORNL، گروه AAIMS پروژه دوقلوی دیجیتال برای Frontier را راهاندازی کرد تا شبیهسازی از ابررایانه Frontier ایجاد کند.
این Frontier مجازی میتواند به اپراتورها امکان دهد سناریوهای مختلف صرفهجویی در انرژی با این سوال که «اگر این کار را بکنیم چه خواهد شد؟» را قبل از پیادهسازی در ماشین اصلی امتحان کنند.
«با این ایده دوقلوی دیجیتال، میتوانیم همه دادههای تلمتری را در یک سیستم وارد کنیم که اگر ما در مدلسازی برق و سرمایش سیستم به اندازه کافی دقت داشته باشیم، میتوانیم آزمایش کنیم. اگر این تنظیم را تغییر دهم — آیا تأثیر مثبتی بر سیستم دارد یا خیر؟» گفت: وانگ.
دوقلوی دیجیتال Frontier میتواند بر روی یک کامپیوتر رومیزی اجرا شود و با استفاده از واقعیت مجازی و واقعیت افزوده، اپراتورها قادر خواهند بود تا تلمتری سیستم را در یک روش تعاملیتر و شهودیتر بررسی کنند.
گروه AAIMS همچنین سیستم زمانبندی مجازی را ایجاد کردند تا مصرف برق دوقلوی دیجیتال و چگونگی پیشرفت آن در طول زمان در حین اجرای وظایف را بررسی کنند.
این موارد در رقابت برای ساخت نسل بعدی، ابررایانه انرژیکارآمد Discovery بسیار مفید خواهند بود.
علاوه بر این، پژوهشگران همچنین انرژی مورد نیاز برای سرمایش را از سال 2009 تا 2022 به ده برابر کاهش دادهاند و تیم به بهینهسازیهای سرمایش ادامه خواهد داد.