Video: Machine Learning With A $10 AI Processor | Sipeed M1n AI Development Kit (Desember 2024)
Topik terpanas dalam komputasi akhir-akhir ini adalah pembelajaran mesin, dan itu jelas terlihat di sisi perangkat keras. Dalam beberapa minggu terakhir, kami telah mendengar banyak tentang chip baru yang dirancang untuk pembelajaran mendalam, mulai dari Tesla P100 dan Drive PX 2 Nvidia hingga Unit Pemroses Tensor Google hingga Xeon Phi dari Intel. Jadi, tidak mengherankan bahwa pada konferensi Hot Chips minggu lalu kami mendengar dari sejumlah perusahaan yang berbeda dengan beberapa pendekatan yang sangat berbeda untuk desain yang dirancang untuk pembelajaran mesin dan pemrosesan visi.
Mungkin berita terbesar adalah pengungkapan Nvidia lebih detail pada chip Parker-nya, yang digunakan dalam modul Drive PX 2 untuk mobil self-driving dan ditujukan untuk pembelajaran mendalam untuk mesin otonom. Chip ini menggunakan dua inti CPU Denver kompatibel ARM yang dibuat khusus, empat core ARM Cortex-A57, dan 256 dari apa yang disebut Nvidia sebagai core Pascal CUDA (grafis).
Nvidia mengatakan ini adalah chip pertama yang dirancang dan diberi peringkat untuk penggunaan otomotif, dengan fitur ketahanan khusus, dan berbicara tentang kecepatan dan memori yang lebih cepat, mencatat bahwa inti Denver memberikan peningkatan signifikan dalam kinerja per watt. Di antara fitur-fitur baru adalah virtualisasi berbantuan perangkat keras, dengan hingga 8 VMS untuk memungkinkan integrasi fitur-fitur mobil yang secara tradisional dilakukan pada komputer yang terpisah. Secara keseluruhan, perusahaan mengatakan model Drive PX 2 dapat memiliki dua chip Parker dan dua GPU diskrit, dengan kinerja total 8 teraflop (presisi ganda) atau 24 operasi pembelajaran dalam (8-bit, atau setengah presisi). perusahaan menyertakan tolok ukur yang membandingkannya dengan pemrosesan seluler saat ini menggunakan SpecInt_2000, tolok ukur yang relatif lama. Tetapi kinerjanya memang terlihat mengesankan, dan Volvo baru-baru ini mengatakan akan menggunakannya untuk menguji kendaraan otonom mulai tahun depan.
Tentu saja, ada banyak pendekatan lain.
Startup Cina DeePhi membahas platform berbasis FPGA untuk jaringan saraf, dengan dua arsitektur berbeda tergantung pada jenis jaringan yang terlibat. Aristoteles dirancang untuk jaringan saraf convolutional yang relatif kecil dan didasarkan pada Xilinx Zynq 7000, sementara Descartes dirancang untuk jaringan saraf berulang yang lebih besar menggunakan memori jangka pendek (RNN-LSTM), berdasarkan Kintex Ultrascale FPGA. DeePhi mengklaim bahwa kompiler dan arsitekturnya memangkas waktu pengembangan dibandingkan dengan sebagian besar penggunaan FPGA dan juga bahwa menggunakan FPGA dapat memberikan kinerja yang lebih baik daripada solusi Tegra K1 dan K40 Nvidia.
Pendekatan lain adalah dengan menggunakan prosesor sinyal digital atau DSP, yang biasanya melakukan fungsi tertentu atau serangkaian fungsi sangat cepat, menggunakan energi yang sangat sedikit. Seringkali ini tertanam ke dalam chip lain yang lebih kompleks untuk mempercepat fungsi-fungsi tertentu, seperti pemrosesan visi. Sejumlah perusahaan, termasuk Movidius, CEVA, dan Cadence berbagi solusi di Hot Chips.
Movidius menunjukkan solusi berbasis DSP yang dikenal sebagai unit pemrosesan visi Myriad 2, dan dipamerkan di drone DJI Phantom 4. Ini juga menunjukkan bagaimana Myriad 2 mengungguli GPU dan jaringan saraf dalam GoogLeNet yang digunakan dalam kontes ImageNet 2014.
CEVA mempromosikan CEVA-XM4 Vision DSP, yang secara khusus disesuaikan untuk pemrosesan visi dan ditujukan untuk pasar otomotif, bersama dengan platform CEVA Deep Neural Network 2, yang katanya dapat mengambil apa pun yang ditulis untuk kerangka kerja Caffe atau TensorFlow dan mengoptimalkannya untuk dijalankan pada DSP-nya. Prosesor baru harus di SoCs tahun depan.
Sementara itu, Cadence, yang membuat rangkaian prosesor penglihatan Tensilica (yang dapat disematkan ke produk lain), membahas versi terbarunya, Vision P6, yang telah menambahkan fitur baru seperti dukungan vektor floating-point dan fitur lain untuk jaringan saraf convolutional. Produk pertama harus segera keluar.
Microsoft berbicara tentang perincian perangkat keras untuk headset HoloLens-nya, dengan mengatakan ia menggunakan prosesor Intel Atom Cherry Trail 14nm yang menjalankan Windows 10 dan hub sensor Unit Pemrosesan Holografik (HPU 1.0), yang diproduksi oleh TSMC pada proses 28nm. Ini termasuk 24 inti Tensilica DSP.
Saya terutama diambil oleh salah satu slide Cadence yang menunjukkan perbedaan dalam throughput dan efisiensi GPU, FPGA, dan berbagai jenis DSP dalam hal operasi multiply-add, salah satu blok bangunan utama untuk jaringan saraf. Meskipun jelas mementingkan diri sendiri (seperti semua presentasi vendor), itu menunjukkan bagaimana berbagai teknik berbeda dalam hal kecepatan dan efisiensi (kinerja per watt), belum lagi biaya dan kemudahan pemrograman. Ada banyak solusi untuk pendekatan yang berbeda di sini, dan akan menarik untuk melihat bagaimana ini bergetar selama beberapa tahun ke depan.