Video: Document Understanding AI on Google Cloud (Cloud Next '19) (Desember 2024)
Dalam beberapa minggu terakhir, ada sejumlah perkenalan penting dari platform komputasi baru yang dirancang khusus untuk bekerja pada jaringan saraf yang dalam untuk pembelajaran mesin, termasuk "cloud TPU" baru Google dan desain Volta baru Nvidia.
Bagi saya, ini adalah tren paling menarik dalam arsitektur komputer - bahkan lebih dari AMD dan sekarang Intel memperkenalkan CPU 16-core dan 18-core. Tentu saja, ada pendekatan alternatif lain, tetapi Nvidia dan Google pantas mendapatkan banyak perhatian untuk pendekatan unik mereka.
Di Google I / O, saya melihatnya memperkenalkan "cloud TPU" (untuk Tensor Processing Unit, yang menunjukkan bahwa ia dioptimalkan untuk kerangka pembelajaran mesin TensorFlow Google). TPU generasi sebelumnya, yang diperkenalkan pada acara tahun lalu, adalah ASIC yang dirancang terutama untuk menyimpulkan - menjalankan operasi pembelajaran mesin - tetapi versi baru dirancang untuk menyimpulkan dan melatih algoritma tersebut.
Dalam sebuah makalah baru-baru ini, Google memberikan rincian lebih lanjut tentang TPU asli, yang digambarkan sebagai berisi matriks 256-by-256 unit multi-akumulasi (MAC) (total 65.536) dengan kinerja puncak 92 teraops (triliun operasi per kedua). Ia mendapat instruksi dari CPU host melalui bus PCIe Gen 3. Google mengatakan ini adalah die 28nm yang kurang dari setengah ukuran prosesor 22nm Intel Haswell Xeon, dan mengungguli prosesor itu dan prosesor N80ia K80 28nm.
Versi baru, dijuluki TPU 2.0 atau cloud TPU, (terlihat di atas), sebenarnya berisi empat prosesor di papan tulis, dan Google mengatakan setiap papan mampu mencapai 180 teraflops (180 triliun operasi floating point per detik). Sama pentingnya, papan dirancang untuk bekerja bersama, menggunakan jaringan berkecepatan tinggi khusus, sehingga mereka bertindak sebagai satu mesin pembelajaran superkomputer yang disebut Google sebagai "pod TPU".
Pod TPU ini berisi 64 TPU generasi kedua dan menyediakan hingga 11, 5 petaflops untuk mempercepat pelatihan model pembelajaran mesin besar tunggal. Pada konferensi tersebut, Fei Fei Li, yang mengepalai penelitian AI Google, mengatakan bahwa sementara salah satu model pembelajaran berskala besar perusahaan untuk penerjemahan membutuhkan waktu sehari penuh untuk melatih 32 GPU yang tersedia secara komersial terbaik, sekarang dapat menjadi pelatihan bagi akurasi yang sama dalam satu sore menggunakan seperdelapan pod TPU. Itu lompatan besar.
Pahamilah bahwa ini bukan sistem yang kecil - Pod terlihat seukuran empat rak komputasi normal.
Dan masing-masing prosesor tampaknya memiliki heat sink yang sangat besar, yang berarti papan tidak dapat ditumpuk terlalu erat. Google belum memberikan banyak detail tentang apa yang telah berubah dalam versi prosesor atau interkoneksi ini, tetapi kemungkinan ini juga didasarkan pada MAC 8-bit.
Seminggu sebelumnya, Nvidia memperkenalkan entri terbarunya dalam kategori ini, sebuah chip besar yang dikenal sebagai Telsa V100 Volta, yang digambarkan sebagai CPU pertama dengan arsitektur Volta baru ini, yang dirancang untuk GPU kelas atas.
Nvidia mengatakan chip baru ini mampu memuat 120 TensorFlow teraflops (atau 15 TFLOPS 32-bit atau 7, 5 64-bit.) Ini menggunakan arsitektur baru yang mencakup 80 Streaming Multiprocessors (SM), yang masing-masing mencakup delapan "Tensor Cores" baru. dan merupakan array 4x4x4 yang mampu melakukan operasi 64 FMA (Fused Multiply-Add) per jam. Nvidia mengatakan akan menawarkan chip di workstation DGX-1V dengan 8 V100 board pada kuartal ketiga, mengikuti DGX-1 perusahaan sebelumnya yang menggunakan arsitektur P100 sebelumnya.
Perusahaan mengatakan kotak $ 149.000 ini harus memberikan kinerja pelatihan 960 teraflops, menggunakan 3200 watt. Kemudian, yang pertama mengatakan, itu akan mengirimkan Stasiun DGX Pribadi dengan empat V100, dan pada kuartal keempat, dikatakan vendor server besar akan mengirimkan server V100.
Chip ini adalah yang pertama diumumkan untuk menggunakan prosesor 12nm TSMC, dan itu akan menjadi chip besar dengan 21, 1 miliar transistor pada 815 milimeter persegi mati. Nvidia mengutip Microsoft dan Amazon sebagai pelanggan awal untuk chip tersebut.
Perhatikan ada perbedaan besar antara pendekatan ini. Google TPUs benar-benar chip khusus, dirancang untuk aplikasi TensorFlow, sementara Nvidia V100 adalah chip yang agak lebih umum, yang mampu berbagai jenis matematika untuk aplikasi lain.
Sementara itu, penyedia cloud besar lainnya mencari alternatif, dengan Microsoft menggunakan kedua GPU untuk pelatihan dan array gerbang yang dapat diprogram di lapangan (FPGA) untuk menyimpulkan, dan menawarkan keduanya kepada pelanggan. Amazon Web Services sekarang membuat instance GPU dan FPGA tersedia untuk pengembang. Dan Intel telah mendorong FPGA dan sejumlah teknik lainnya. Sementara itu, sejumlah start-up baru bekerja pada pendekatan alternatif.
Dalam beberapa hal, ini adalah perubahan paling drastis yang pernah kami lihat di workstation dan prosesor server selama bertahun-tahun, setidaknya sejak pengembang mulai menggunakan "GPU compute" beberapa tahun yang lalu. Akan sangat menarik untuk melihat bagaimana ini berkembang.