Rumah Berpikir ke depan Oracle, nvidia, lengan menjadi sorotan di chip panas

Oracle, nvidia, lengan menjadi sorotan di chip panas

2024

Video: A Fireside Chat with Arm CEO, Simon Segars and NVIDIA CEO, Jensen Huang (Desember 2024)

Sementara banyak kegembiraan chip minggu lalu datang dari pengumuman Intel Broadwell, ada sejumlah chip lain yang dibahas secara rinci di konferensi Hot Chips tahunan, yang cenderung berfokus terutama pada chip yang dirancang untuk server dan pusat data.

Acara ini terkenal dengan chip kelas atas, dengan Intel, Oracle, dan IBM semuanya membahas entri terbaru mereka, tetapi hanya Oracle Sparc M7 yang benar-benar baru. Sebagai gantinya, sebagian besar acara berakhir dengan fokus pada produk berbasis ARM, termasuk rincian pertama dari Nvidia 64-bit "Denver" versi mendatang dari prosesor Tegra K1-nya.

Oracle, Intel, dan IBM Bertujuan High Dengan Server Chips

Dari chip kelas atas, berita paling mengesankan datang dari Oracle, yang membahas generasi berikutnya dari prosesor SPARC-nya, yang dikenal sebagai M7. Chip ini akan memiliki 32 inti S4 SPARC (masing-masing dengan hingga delapan utas dinamis), 643 L3 cache, delapan pengontrol memori DDR4 (hingga 2TB per prosesor dan bandwidth memori 160GBps dengan DDR4-2133) dan delapan akselerator analitik data yang terhubung melalui jaringan on-chip.

Chip ini disusun dalam delapan cluster dengan masing-masing empat core dengan cache L2 bersama dan cache L3 8MB yang dipartisi dengan bandwidth lebih dari 192GBps antara cluster inti dan cache L3 lokalnya. Dibandingkan dengan M6 (chip 28nm dengan 12 core 3.6GHz SPARC S3), M7 memberikan kinerja 3-3, 5 kali lebih baik pada bandwidth memori, throughput integer, OLTP, Java, sistem ERP, dan throughput floating-point. Stephen Phillips, Direktur Senior Oracle untuk Arsitektur SPARC, mengatakan bahwa tujuannya adalah peningkatan fungsi langkah dalam kinerja, bukan peningkatan bertahap.

M7 dapat menskalakan hingga 8 soket tanpa lem (hingga 256 core, 2.000 thread, dan 16TB memori), dan dengan sakelar ASIC untuk mengatur lalu lintas di antara mereka dalam konfigurasi SMP, hingga 32 prosesor, sehingga Anda dapat berakhir dengan sistem dengan 1.024 core, 8.192 utas, dan memori hingga 64TB. Cukup mengesankan. Oracle mengatakan menawarkan kinerja 3 hingga 3, 5 kali lebih baik pada berbagai tes, dibandingkan dengan SPARC M6 tahun lalu. Perusahaan mengatakan ini akan dioptimalkan untuk tumpukan perangkat lunak Oracle sendiri, diproduksi pada proses 20nm, dan tersedia dalam sistem sekitar tahun depan.

IBM juga memberikan rincian lebih lanjut tentang jajaran Power8, yang diumumkan pada acara tahun lalu. Versi chip itu memiliki 12 core, masing-masing dengan delapan thread dengan 512KB SRAM Level 2 cache per core (6MB total L2) dan 96MB DRAM tertanam yang dibagikan sebagai cache Level 3. Chip besar ini, yang berukuran 650 milimeter persegi dengan 4, 2 miliar transistor, diproduksi berdasarkan proses SOI 22nm IBM dan mulai dikirim pada bulan Juni, menurut IBM.

Beberapa bulan yang lalu, IBM mengumumkan versi dengan enam inti berukuran 362 mm ². Pembicaraan tahun ini adalah tentang bagaimana IBM dapat menggabungkan dua dari versi enam-inti ke dalam satu paket dengan 48 lane PCIe Gen 3. IBM mengatakan versi dua-socket dengan total 24 core dan 192 thread akan mengungguli dua prosesor. Server Xeon Ivy Bridge dengan 24 core (dengan 48 utas). IBM menjual Power sebagian besar di pasar berkinerja tinggi dan terspesialisasi, sehingga kebanyakan orang tidak akan membandingkan keduanya, tetapi itu menarik. Dalam upaya untuk membuat arsitektur Power lebih utama, IBM tahun lalu mengumumkan Open Power Consortium, dan tahun ini, perusahaan mengatakan memiliki setumpuk perangkat lunak sumber terbuka penuh untuk platform tersebut. Namun sejauh ini, tidak ada orang lain selain IBM yang telah mengumumkan server berbasis pada platform.

Intel berbicara tentang "Ivytown, " versi server Ivy Bridge, yang mencakup versi Xeon E5 yang diperkenalkan setahun lalu, dan Xeon E7 diperkenalkan pada Februari. Pembicaraan tahun ini berfokus pada bagaimana Intel sekarang pada dasarnya memiliki satu arsitektur yang dapat mencakup kedua pasar, dengan chip yang memungkinkan hingga 15 core, dua pengontrol memori DDR3, tiga tautan QPI, dan 40 jalur PCI Gen 3, yang disusun dalam lantai modular rencana yang dapat diubah menjadi tiga die berbeda, masing-masing dirancang untuk soket yang berbeda, dengan total lebih dari 75 varian. Ini dapat digunakan di server dua, empat, dan delapan soket tanpa interkoneksi khusus.

Chip ini, tentu saja, merupakan bagian terbesar dari pembelian server akhir-akhir ini, karena Intel menyumbang sebagian besar unit server. Tetapi banyak informasi yang sebelumnya dibahas di ISSCC, dan Intel secara luas diharapkan untuk memperkenalkan versi keluarga E5 berikutnya (E5-1600v3 dan E5-2600 v3) sangat singkat, berdasarkan versi yang diperbarui menggunakan varian dari Arsitektur Haswell disebut Haswell-EP. (Minggu lalu, Dell mengumumkan workstation baru berdasarkan chip baru ini.)

Intel juga membahas Atom C2000, yang dikenal sebagai Avoton, yang mulai diproduksi pada akhir 2013. Chip ini serta chip Ivy Bridge dan Haswell semuanya didasarkan pada proses 22nm Intel.

Nvidia, AMD, Mikro Terapan Tujuan di Pasar Baru untuk ARM

Kejutan terbesar dari pertunjukan ini mungkin adalah fokus pada teknologi berbasis ARM, termasuk keynote speaker ARM dan perincian Nvidia tentang versi "Denver" yang akan datang dari prosesor Tegra K1-nya.

Dalam sebuah keynote, ARM CTO Mike Muller membahas hambatan daya dalam segala hal, mulai dari sensor hingga server dan berfokus pada bagaimana ARM berusaha untuk berekspansi ke perusahaan. Muller juga mendorong konsep menggunakan chip sensor ARM untuk Internet of Things, sebuah topik yang juga didengungkan dalam keynote dari Qualcomm's Rob Chandhok. Tetapi tidak ada perusahaan yang mengumumkan core atau prosesor baru.

Sebaliknya, berita besar di bagian depan itu datang dari Nvidia, yang memberikan lebih banyak detail dari versi baru prosesor K1-nya. Ketika proyek Denver perusahaan pertama kali diumumkan, sepertinya chip ini akan ditujukan untuk pasar komputasi berkinerja tinggi, tetapi sekarang perusahaan tampaknya lebih berfokus pada hal-hal seperti tablet dan pasar otomotif. Tegra K1 akan datang dalam dua versi. Yang pertama, yang diumumkan awal tahun ini dan sekarang dikirim dalam tablet Shield perusahaan, memiliki empat core ARM Cortex-A15 32-bit plus "inti pendamping" berdaya rendah dalam konfigurasi 4 +1 yang telah didorong Nvidia dalam garis Tegra selama beberapa tahun.

Versi Denver sangat berbeda dengan dua core 64-bit berpemilik baru yang dirancang oleh Nvidia, dan perusahaan ini benar-benar menggembar-gemborkan keuntungan kinerja yang didapatnya. Inti adalah superscalar tujuh arah (artinya dapat menjalankan hingga tujuh mikro-op secara bersamaan), dan memiliki cache instruksi L1 empat arah 128KB dan cache data L1 empat arah 64KB. Chip ini menggabungkan dua core ini, bersama dengan cache level 2MB 2MB yang melayani kedua core, sebagai 192 "core CUDA" (core grafis) yang dibagikan dengan K1 32-bit. Dengan demikian, ini merupakan perubahan besar dari arsitektur 4 + 1.

Satu perubahan besar termasuk apa yang Nvidia sebut "optimisasi kode dinamis, " yang dirancang untuk mengambil kode ARM yang sering digunakan dan mengubahnya menjadi kode mikro yang dioptimalkan khusus untuk prosesor. Ini disimpan dalam memori cache 128 MB (diukir dari memori utama sistem tradisional). Tujuannya adalah untuk memberikan kinerja eksekusi out-of-order tanpa memerlukan kekuatan sebanyak yang biasanya menggunakan teknik. Konsepnya tidak baru - Transmeta mencobanya bertahun-tahun yang lalu dengan chip Crusoe-nya - tetapi Nvidia mengatakan ini sekarang bekerja lebih baik.

Nvidia menunjukkan beberapa tolok ukur, di mana ia mengklaim bahwa chip baru tersebut dapat mencapai kinerja yang jauh lebih tinggi daripada CPU seluler empat atau delapan inti - secara khusus mengutip Qualcomm Snapdragon 800 (MSM8974), Apple A7 (kadang-kadang disebut Cyclone) yang digunakan dalam iPhone 5s - dan bahkan beberapa prosesor PC arus utama. Nvidia mengatakan itu mengungguli prosesor Atom (Bay Trail) dan mirip dengan prosesor Intel Dual-core Celeron (Haswell) 1.4GHz. Tentu saja, saya cenderung untuk mengambil angka kinerja vendor dengan sebutir garam: tidak hanya vendor memilih tolok ukur, itu sama sekali tidak jelas bahwa kita berbicara tentang kecepatan jam yang sama atau penarikan daya yang sama.

Sementara itu, dalam chip yang lebih banyak ditujukan pada server, AMD berbicara lebih banyak tentang Opteron A1100, yang dikenal sebagai "Seattle, " dengan perusahaan mengatakan saat ini sedang mengambil sampel dan harus tersedia di server sekitar akhir tahun ini. Chip ini memiliki delapan core CPU Cortex A57 64-bit; 4MB L2 cache dan 8MB L3 cache; dua saluran memori untuk memori DDR3 atau DDR4 hingga 128GB dengan koreksi kesalahan; banyak I / O terintegrasi (masing-masing 8 jalur PCIe Gen3 dan 6Gbps SATA dan dua port Ethernet 10Gbps); "prosesor sistem kontrol" Cortex A5 untuk boot aman; dan akselerator untuk mempercepat enkripsi dan dekripsi. Itu diproduksi pada proses 28nm GlobalFoundries. AMD belum memberikan perincian tentang frekuensi, daya, atau kinerja chip, tetapi menunjukkan diagram dasar chip tersebut. (atas)

Applied Micro telah lama mengklaim memiliki chip server ARM pertama di pasar, dengan X-Gene 1 (dikenal sebagai Storm) yang mengandung 8 core ARMv8 2.4GHz, empat pengontrol memori DDR3, PCIe Gen3 dan 6Gbps SATA, dan 10Gbps Ethernet. Saat ini sedang dalam produksi pada proses 40nm TSMC, kata perusahaan.

Di Hot Chips, Applied Micro mendorong desain X-Gene 2 (Shadowcat), yang akan tersedia dengan delapan atau 16 core "ditingkatkan", berjalan pada kecepatan 2, 4 hingga 2, 8GHz, dan menambahkan host RoCE (RDMA melalui Converged Ethernet) Channel Adapter sebagai interkoneksi yang dirancang untuk mengaktifkan koneksi latensi rendah di antara kelompok-kelompok microserver. Ini dirancang untuk digunakan dalam cluster, dengan rak server tunggal yang mendukung hingga 6.480 benang dan memori 50TB, semuanya berbagi satu kumpulan penyimpanan. Perusahaan mengatakan X-Gene 2 akan menawarkan sekitar 60 persen kinerja integer yang lebih baik, dua kali kinerja pada Memcache, dan sekitar 25 persen lebih baik melayani Web Apache. Itu diproduksi pada proses 28nm dan saat ini pengambilan sampel.

Applied Micro mengatakan X-Gene 2 mengisi celah antara microservers yang bersaing (Cavium ThunderX, Intel Atom C2000 "Avoton, " dan AMD Opteron A1100 "Seattle") dan server Xeon ukuran penuh. Itu memberi beberapa detail pada generasi berikutnya, X-Gene 3 (Skylark), yang dijadwalkan untuk memulai pengambilan sampel tahun depan. Chip ini akan memiliki 16 core ARMv8 yang berjalan hingga 3 GHz, dan akan diproduksi menggunakan teknologi FinFet 16nm.