Daftar Isi:
Video: Teknologi Canggih Masa Depan Yang Wajib Kamu Tau - Bagian #1 (Desember 2024)
Pada konferensi Supercomputing SC16 bulan ini, dua tren menonjol. Yang pertama adalah penampilan Xeon Phi (Knights Landing) terbaru Intel dan Tesla terbaru Nvidia (P100 berbasis Pascal) dalam daftar Top500 komputer tercepat di dunia; kedua sistem berada di atas 20. Yang kedua adalah penekanan besar pada bagaimana pembuat chip dan sistem mengambil konsep dari sistem pembelajaran mesin modern dan menerapkannya pada superkomputer.
Pada revisi saat ini dari daftar Top500, yang akan diperbarui dua kali setahun, bagian atas grafik masih kuat di tangan komputer Sunway TaihuLight dari Pusat Supercomputing Nasional China di Wuxi, dan komputer Tianhe-2 dari National Super Computer China Pusat di Guangzhou, seperti yang telah sejak acara ISC16 Juni. Tidak ada komputer lain yang memiliki kinerja total total, dengan sistem peringkat ketiga dan keempat - masih superkomputer Titan di Oak Ridge dan sistem Sequoia di Lawrence Livermore - keduanya menghasilkan sekitar setengah kinerja Tianhe-2.
Yang pertama ini didasarkan pada prosesor Cina yang unik, 1.45GHz SW26010, yang menggunakan inti RISC 64-bit. Ini memiliki 10.649.600 core yang tak tertandingi yang menghasilkan 125, 4 petaflops throughput puncak teoretis dan 93 petaflop kinerja maksimum yang diukur pada patokan Linpack, menggunakan daya 15, 4 Megawatt. Perlu dicatat bahwa meskipun mesin ini berada di puncak tangga lagu dalam kinerja Linpack dengan selisih yang sangat besar, mesin ini tidak cukup baik dalam tes lainnya. Ada tolok ukur lain seperti tolok ukur High Performance Conjugate Gradients (HPCG), di mana mesin cenderung hanya melihat 1 hingga 10 persen dari kinerja puncak teoretis mereka, dan di mana sistem teratas - dalam hal ini, mesin Riken K - masih menghasilkan lebih sedikit dari 1 petaflop.
Tetapi tes Linpack adalah standar untuk berbicara tentang komputasi kinerja tinggi (HPC) dan apa yang digunakan untuk membuat daftar Top500. Menggunakan tes Linpack, mesin No. 2, Tianhe-2, adalah No. 1 di chart selama beberapa tahun terakhir, dan menggunakan Xeon E5 dan akselerator Xeon Phi (Knights Corner) yang lebih tua. Ini menawarkan 54, 9 petaflops dengan kinerja puncak teoretis, dan benchmark di 33, 8 petaflops di Linpack. Banyak pengamat percaya bahwa larangan ekspor Xeon Phi (Knights Landing) versi baru mendorong Cina untuk membuat prosesor superkomputer mereka sendiri.
Knights Landing, secara resmi Xeon Phi 7250, memainkan peran besar dalam sistem baru dalam daftar, dimulai dengan superkomputer Cori di Lawrence Berkeley National Laboratory yang berada di tempat kelima, dengan kinerja puncak 27, 8 petaflops dan kinerja terukur dari 14 petaflops. Ini adalah sistem Cray XC40, menggunakan interkoneksi Aries. Perhatikan bahwa Knights Landing dapat bertindak sebagai prosesor utama, dengan 68 core per prosesor menghasilkan 3 teraflop puncak. (Intel mencantumkan versi lain dari chip tersebut dengan 72 core pada 3, 46 teraflops puncak kinerja presisi ganda teoretis pada daftar harganya, tetapi tidak ada mesin di daftar yang menggunakan versi ini, mungkin karena lebih pricier dan menggunakan lebih banyak energi.)
Sebelumnya Xeon Phis hanya bisa berjalan sebagai akselerator dalam sistem yang dikendalikan oleh prosesor Xeon tradisional. Di tempat keenam adalah sistem Oakforest-PACS dari Pusat Bersama Jepang untuk Komputer Kinerja Tinggi Lanjutan, mencetak 24, 9 petaflop puncak. Ini dibuat oleh Fujitsu, menggunakan Knights Landing dan interkoneksi Omni-Path Intel. Knights Landing juga digunakan dalam sistem No. 12 (Komputer Marconi di CINECA Italia, dibangun oleh Lenovo dan menggunakan Omni-Path) dan sistem No. 33 (Camphor 2 di Universitas Kyoto Jepang, dibangun oleh Cray dan menggunakan Aries interkoneksi).
Nvidia juga terwakili dalam daftar baru. Sistem No. 8, Piz Daint di Pusat Supercomputing Nasional Swiss, ditingkatkan menjadi Cray XC50 dengan Xeon dan Nvidia Tesla P100, dan sekarang menawarkan di bawah 16 petaflop kinerja puncak teoretis, dan 9, 8 petaflops kinerja Linpack - besar upgrade dari 7, 8 petaflops kinerja puncak dan 6, 3 petaflop kinerja Linpack dalam iterasi sebelumnya berdasarkan pada Cray XC30 dengan akselerator Nvidia K20x.
Sistem berbasis P100 lain dalam daftar adalah DGX Saturn V Nvidia sendiri, berdasarkan sistem DGX-1 milik perusahaan sendiri dan interkoneksi Infiniband, yang berada di urutan ke-28 dalam daftar. Perhatikan bahwa Nvidia sekarang menjual prosesor dan alat DGX-1, yang mencakup perangkat lunak dan delapan Tesla P100s. Sistem DGX Saturn V, yang digunakan Nvidia untuk riset AI internal, mencetak hampir 4, 9 puncak petaflops dan 3, 3 Linpack petaflops. Tapi apa yang Nvidia tunjukkan adalah bahwa ia hanya menggunakan daya 350 kilowatt, membuatnya jauh lebih hemat energi. Akibatnya, sistem ini berada di puncak daftar Green500 dari sistem yang paling hemat energi. Nvidia menunjukkan bahwa ini jauh lebih sedikit energi daripada sistem Camphor 2 yang berbasis Xeon Phi, yang memiliki kinerja serupa (hampir 5, 5 puncak petaflops dan 3, 1 Linpack petaflops).
Ini perbandingan yang menarik, dengan Nvidia menggembar-gemborkan efisiensi energi yang lebih baik pada GPU dan Intel menggembar-gemborkan model pemrograman yang lebih akrab. Saya yakin kita akan melihat lebih banyak kompetisi di tahun-tahun mendatang, karena arsitektur yang berbeda bersaing untuk melihat mana di antara mereka yang akan menjadi yang pertama mencapai "komputasi exascale" atau apakah pendekatan yang ditanamkan dalam negeri Tiongkok akan sampai di sana sebagai gantinya. Saat ini, Proyek Komputasi Exascale Departemen Energi AS mengharapkan mesin-mesin exascale pertama yang dipasang pada tahun 2022 dan ditayangkan tahun berikutnya.
Saya merasa menarik untuk dicatat bahwa meskipun ditekankan pada akselerator banyak-inti seperti solusi Nvidia Tesla dan Intel Xeon Phi, hanya 96 sistem yang menggunakan akselerator tersebut (termasuk yang menggunakan Xeon Phi saja); yang bertentangan dengan 104 sistem setahun yang lalu. Intel terus menjadi penyedia chip terbesar, dengan chip-nya di 462 dari 500 sistem teratas, diikuti oleh prosesor IBM Power di 22. Hewlett-Packard Enterprise menciptakan 140 sistem (termasuk yang dibangun oleh Silicon Graphics, yang diakuisisi HPE), yang dibangun Lenovo 92, dan Cray 56.
Kompetisi Pembelajaran Mesin
Ada sejumlah pengumuman di atau sekitar pertunjukan, yang sebagian besar berkaitan dengan beberapa bentuk kecerdasan buatan atau pembelajaran mesin. Nvidia mengumumkan kemitraan dengan IBM pada perangkat lunak pembelajaran mendalam yang disebut IBM PowerAI yang menjalankan server IBM Power menggunakan interkoneksi NVLink Nvidia.
AMD, yang telah menjadi renungan di lingkungan HPC dan pembelajaran mesin, berupaya mengubahnya. Di area ini, perusahaan fokus pada GPU Radeon sendiri, mendorong GPU server FirePro S9300 x2, dan mengumumkan kemitraan dengan Google Cloud Platform untuk memungkinkannya digunakan di atas cloud. Tetapi AMD belum berinvestasi banyak dalam perangkat lunak untuk pemrograman GPU, karena telah menekankan OpenCL lebih dari pendekatan Nvidia yang lebih eksklusif. Pada acara itu, AMD memperkenalkan versi baru Radeon Open Compute Platform (ROCm), dan memuji rencana untuk mendukung GPU dalam skenario komputasi heterogen dengan banyak CPU, termasuk CPU "Zen" x86 yang akan datang, arsitektur ARM mulai dengan Cavium's ThunderX dan CPU IBM Power 8.
Di acara itu, Intel berbicara tentang versi baru chip Xeon E5v4 (Broadwell) saat ini yang disetel untuk beban kerja floating point, dan bagaimana versi berikutnya berdasarkan platform Skylake akan keluar tahun depan. Namun dalam acara berikutnya pada minggu itu, Intel membuat serangkaian pengumuman yang dirancang untuk menempatkan chip-nya dalam kecerdasan buatan atau ruang pembelajaran mesin. (Inilah pendapat ExtremeTech.) Banyak dari ini berimplikasi pada komputasi berkinerja tinggi, tetapi sebagian besar terpisah. Untuk memulainya, selain prosesor Xeon standar, perusahaan juga mempromosikan FPGA untuk melakukan banyak pendugaan dalam jaringan saraf. Itulah salah satu alasan utama perusahaan baru-baru ini membeli Altera, dan FPGA seperti itu sekarang digunakan oleh perusahaan seperti Microsoft.
Tetapi fokus pada AI minggu lalu berurusan dengan beberapa chip yang lebih baru. Pertama, ada Xeon Phi, di mana Intel telah mengindikasikan bahwa versi Knights Landing saat ini akan dilengkapi tahun depan dengan versi baru yang disebut Knights Mill, yang ditujukan untuk pasar "pembelajaran dalam". Diumumkan di IDF, ini adalah versi 14nm lain tetapi dengan dukungan untuk perhitungan setengah presisi, yang sering digunakan dalam pelatihan jaringan saraf. Memang, salah satu keuntungan besar dari chip Nvidia saat ini dalam pembelajaran dalam adalah dukungan mereka untuk perhitungan setengah presisi dan operasi integer 8-bit, yang sering disebut Nvidia sebagai pembelajaran mendalam "tera-ops." Intel mengatakan Knights Mill akan memberikan kinerja Knights Landing hingga empat kali lipat untuk pembelajaran yang mendalam. (Chip ini masih dijadwalkan untuk diikuti kemudian oleh versi 10nm yang disebut Knights Hill, mungkin lebih ditujukan pada pasar komputasi kinerja tinggi tradisional.)
Yang paling menarik untuk tahun depan adalah desain dari Nervana, yang baru-baru ini diakuisisi Intel, yang menggunakan berbagai kelompok pemrosesan yang dirancang untuk melakukan operasi matematika sederhana yang terhubung ke memori bandwidth tinggi (HBM). Pertama di keluarga ini adalah Lake Crest, yang dirancang sebelum Intel membeli perusahaan dan diproduksi pada proses TSMC 28nm. Karena keluar dalam versi uji pada paruh pertama tahun depan, Intel mengatakan akan memberikan kinerja komputasi yang lebih mentah daripada GPU. Ini pada akhirnya akan diikuti oleh Knights Crest, yang entah bagaimana mengimplementasikan teknologi Nervana bersama Xeon, dengan detail yang masih belum diumumkan.
"Kami berharap teknologi Nervana menghasilkan terobosan peningkatan 100 kali lipat dalam tiga tahun ke depan untuk melatih jaringan saraf yang kompleks, memungkinkan para ilmuwan data untuk memecahkan tantangan AI terbesar mereka lebih cepat, " tulis CEO Intel Brian Krzanich.
Intel juga baru-baru ini mengumumkan rencana untuk mengakuisisi Movidius, yang membuat chip berbasis DSP sangat cocok untuk menyimpulkan visi komputer - sekali lagi, membuat keputusan berdasarkan pada model yang dilatih sebelumnya.
Ini adalah kisah yang rumit dan terus berkembang - tentu saja tidak semudah dorongan Nvidia untuk GPU-nya di mana-mana. Tetapi yang membuatnya jelas adalah seberapa cepat pembelajaran mesin lepas landas, dan banyak cara berbeda yang perusahaan rencanakan untuk mengatasi masalah, dari GPU seperti dari Nvidia dan AMD, ke banyak prosesor inti x86 seperti Xeon Phi, ke FPGAs, untuk produk-produk khusus untuk pelatihan seperti Nervana dan TrueNorth IBM, untuk mesin kesimpulan seperti DSP seperti Google Tensor Processing Units. Akan sangat menarik untuk melihat apakah pasar memiliki ruang untuk semua pendekatan ini.