Rumah Berpikir ke depan Perubahan besar akhirnya di cakrawala untuk superkomputer

Perubahan besar akhirnya di cakrawala untuk superkomputer

2024

Video: Inilah Super Komputer Tercepat dan Terbesar di Dunia! Kecepatannya 1 Juta Miliar Flops per Detik! (Desember 2024)

Melihat kembali konferensi superkomputer ISC 17 minggu ini, sepertinya dunia superkomputer akan melihat beberapa peningkatan besar dalam beberapa tahun mendatang, tetapi pembaruan daftar superkomputer tercepat dunia dua kali setahun tentang superkomputer tercepat di dunia tidak jauh berbeda dari versi sebelumnya.

Komputer tercepat di dunia terus menjadi dua mesin besar China yang telah menjadi daftar teratas selama beberapa tahun: Komputer Sunway TaihuLight dari Pusat Superkomputer Nasional China di Wuxi, dengan kinerja Linpack yang berkelanjutan lebih dari 93 petaflops (93 ribu triliun titik mengambang) operasi per detik); dan komputer Tianhe-2 dari Pusat Komputer Super Nasional China di Guangzhou, dengan kinerja berkelanjutan lebih dari 33, 8 petaflops. Ini tetap merupakan mesin tercepat dengan margin yang sangat besar.

Nomor tiga yang baru adalah sistem Piz Daint dari Swiss National Supercomputing Center, sistem Cray yang menggunakan Intel Xeon dan Nvidia Tesla P100s, yang baru-baru ini ditingkatkan untuk memberikan Linpack kinerja berkelanjutan 19, 6 petaflops, dua kali total sebelumnya. Itu memindahkannya dari nomor delapan dalam daftar.

Ini menjatuhkan sistem AS teratas - sistem Titan di Oak Ridge National Laboratory - turun ke tempat keempat, menjadikan ini pertama kalinya dalam dua puluh tahun terakhir bahwa tidak ada sistem AS di tiga besar. Sisa dari daftar tetap tidak berubah, dengan AS masih menyumbang lima dari 10 besar secara keseluruhan, dan Jepang untuk dua.

Bahkan jika daftar komputer tercepat tidak banyak berubah, ada perubahan besar di tempat lain. Pada daftar Green 500 dari sistem yang paling hemat daya, sembilan dari sepuluh teratas berubah. Di atas adalah sistem Tsubame 3.0, sistem HPE ICE XA yang dimodifikasi di Tokyo Institute of Technology berbasis pada inti Xeon E5-2680v4 14, interkoneksi Omni-Path, dan Tesla P100 Nvidia, yang memungkinkan 14, 1 gigaflops per watt. Ini merupakan lompatan besar dari DGX Saturn V Nvidia, berdasarkan platform DGX-1 perusahaan dan chip P100, yang merupakan nomor satu dalam daftar November tetapi kali ini sepuluh, pada 9, 5 gigaflops / Watt. P100 ada di sembilan dari sepuluh sistem Green500 teratas.

Melanggar 10 gigaflops / watt adalah masalah besar karena itu berarti bahwa sistem exaflop hipotetis yang dibangun menggunakan teknologi saat ini akan mengkonsumsi di bawah 100 megawatt (MW). Itu masih terlalu banyak - targetnya adalah 20-30 MW untuk sistem exaflop, yang diharapkan oleh para peneliti untuk dilihat dalam lima tahun ke depan - tetapi ini adalah langkah besar ke depan.

Seperti daftar Top 500, hanya ada perubahan kecil pada daftar yang sama dengan tolok ukur yang berbeda, seperti benchmark High Performance Conjugate Gradients (HPCG), di mana mesin cenderung melihat hanya 1-10 persen dari kinerja puncak teoretis mereka, dan di mana teratas sistem - dalam hal ini, mesin Riken K - masih menghasilkan kurang dari 1 petaflop. Baik sistem TaihuLight dan Piz Daint naik pada daftar ini. Ketika peneliti berbicara tentang mesin exaflop, mereka cenderung berarti tolok ukur Linpack, tetapi HPCG mungkin lebih realistis dalam hal kinerja dunia nyata.

Munculnya komputasi GPU sebagai akselerator - hampir selalu menggunakan prosesor Nvidia GPU seperti P100 - telah menjadi perubahan yang paling terlihat dalam daftar ini dalam beberapa tahun terakhir, diikuti oleh pengenalan akselerator Intel sendiri, Xeon Phi banyak-inti (termasuk versi terbaru dari Knights Landing). Daftar Top 500 saat ini mencakup 91 sistem yang menggunakan akselerator atau coprocessor, termasuk 74 dengan GPU Nvidia dan 17 dengan Xeon Phi (dengan tiga lainnya menggunakan keduanya); satu dengan GPU AMD Radeon sebagai akselerator, dan dua yang menggunakan prosesor banyak-inti dari PEZY Computing, pemasok Jepang. 13 sistem tambahan sekarang menggunakan Xeon Phi (Knights Landing) sebagai unit pemrosesan utama.

Tetapi banyak dari perubahan besar pada superkomputer masih berada di cakrawala, ketika kita mulai melihat sistem yang lebih besar yang dirancang dengan konsep-konsep ini dalam pikiran. Salah satu contoh adalah MareNostrum 4 baru di Barcelona Supercomputing Center, yang masuk daftar Top 500 di nomor 13. Sejauh ini terpasang, ini adalah sistem Lenovo berdasarkan Xeon Skylake-SP versi mendatang (resmi Xeon Platinum 8160 24) - prosesor inti). Yang menarik di sini adalah tiga kelompok baru "teknologi baru" yang direncanakan untuk beberapa tahun ke depan, termasuk satu kluster dengan prosesor IBM Power 9 dan GPU Nvidia, yang dirancang untuk memiliki kemampuan pemrosesan puncak lebih dari 1, 5 Petaflops; yang kedua berdasarkan versi Knights Hill dari Xeon Phi; dan yang ketiga berdasarkan prosesor ARMv8 64-bit yang dirancang oleh Fujitsu.

Konsep-konsep ini sedang digunakan dalam sejumlah proyek superkomputer besar lainnya, terutama beberapa disponsori oleh Departemen Energi AS sebagai bagian dari Kerjasama CORAL di Oak Ridge, Argonne, dan Lawrence Livermore National Labs. Yang pertama adalah Summit di Oak Ridge, yang akan menggunakan prosesor IBM Power 9 dan GPU Nvidia Volta, dan dijadwalkan untuk menghadirkan lebih dari 150 hingga 300 petaflop puncak; diikuti oleh Sierra di Lawrence Livermore, dijadwalkan untuk memberikan lebih dari 100 petaflops puncak.

Kita kemudian harus melihat superkomputer Aurora di Laboratorium Nasional Argonne, berdasarkan Xeon Phi versi Knights Hill dan dibuat oleh Cray, yang dijadwalkan untuk memberikan 180 petaflops puncak. Sistem CORAL harus menyala dan berlari tahun depan.

Sementara itu, kelompok Cina dan Jepang telah merencanakan peningkatan juga, sebagian besar menggunakan arsitektur unik. Itu harus menarik untuk ditonton.

Pergeseran yang lebih besar tampaknya hanya sedikit lebih jauh: pergeseran menuju pembelajaran mesin, biasanya pada unit pemrosesan paralel besar-besaran dalam prosesor itu sendiri. Sementara angka Linpack mengacu pada kinerja 64-bit atau presisi ganda, ada kelas aplikasi - termasuk banyak aplikasi berbasis jaringan saraf dalam - yang bekerja lebih baik dengan kalkulasi satu atau bahkan setengah presisi. Prosesor baru mengambil keuntungan dari ini, seperti pengumuman Volta V100 terbaru Nvidia dan versi Knights Mill Xeon Phi yang akan datang. Pada acara itu, Intel mengatakan bahwa versi, yang akan diproduksi pada kuartal keempat, akan memiliki set instruksi baru untuk "komputasi presisi rendah" yang disebut Quad Fused Multiply Add (QFMA) dan Quad Virtual Neural Network Instruction (QVNNI).

Saya berasumsi bahwa konsep-konsep ini dapat diterapkan pada arsitektur lain juga, seperti TPU Google atau FPGA Intel dan chip Nervana.

Bahkan jika kita tidak melihat perubahan besar tahun ini, tahun depan kita harus berharap untuk melihat lebih banyak. Konsep mesin exascale (1000 teraflops) masih terlihat, meskipun kemungkinan akan melibatkan sejumlah perubahan yang lebih besar.