Rumah Bisnis Database Ai: apa itu dan mengapa bisnis Anda harus peduli

Database Ai: apa itu dan mengapa bisnis Anda harus peduli

Daftar Isi:

Video: (Sesi 24) SOCIETY 5.0 (Desember 2024)

Video: (Sesi 24) SOCIETY 5.0 (Desember 2024)
Anonim

Data dan intelijen bisnis (BI) adalah dua sisi dari mata uang yang sama. Kemajuan dalam penyimpanan, pemrosesan, dan analisis telah mendemokrasikan data ke titik di mana Anda tidak perlu menjadi profesional basis data atau ilmuwan data untuk bekerja dengan kumpulan data besar dan memperoleh wawasan. Masih ada kurva belajar, tetapi BI swalayan dan alat visualisasi data sedang mendefinisikan kembali cara bisnis memanfaatkan semua data yang mereka kumpulkan menjadi analitik yang dapat ditindaklanjuti. Namun, ada perbedaan antara BI atau perusahaan basis data yang menjajaki analitik canggih dan basis data kecerdasan buatan (AI) yang dibuat khusus untuk pelatihan pembelajaran mesin (ML) dan model pembelajaran dalam.

Algoritma ML sedang ditenun menjadi bahan dari banyak perangkat lunak saat ini. Pengalaman konsumen menyatu dengan AI melalui asisten virtual dan, dalam perangkat lunak bisnis, ada contoh-contoh seperti Salesforce Einstein yang bertindak sebagai lapisan cerdas di bawah seluruh portofolio manajemen hubungan pelanggan (CRM) perusahaan. Raksasa teknologi, termasuk Google dan Microsoft, mendorong masa depan cerdas kita lebih jauh, tidak hanya dengan penelitian tetapi dengan menulis ulang bagaimana teknologi mereka bekerja dari bawah ke atas dengan AI.

Salah satu tantangan dengan mesin pelatihan dan model pembelajaran yang mendalam adalah volume data dan kekuatan pemrosesan yang Anda butuhkan untuk melatih jaringan saraf, misalnya, pada pengenalan pola yang kompleks di bidang-bidang seperti klasifikasi gambar atau pemrosesan bahasa alami (NLP). Oleh karena itu, basis data AI mulai muncul di pasar sebagai cara untuk mengoptimalkan proses pembelajaran dan pelatihan AI untuk bisnis. Kami berbicara dengan penyedia basis data relasional berakselerasi GPU, Kinetica, yang telah membangun sendiri basis data AI-nya, dan residen BI dan pakar basis data PCMag Pam Baker untuk menjelaskan apa itu basis data AI dan cara kerjanya dibandingkan dengan basis data tradisional. Lebih penting lagi, kami meminta bantuan mereka untuk memilah-milah hype dan pemasaran berbicara untuk menentukan apakah teknologi yang muncul ini memiliki nilai bisnis nyata atau tidak.

Apa itu Database AI?

Sifat ruang AI yang berubah dengan cepat dapat membuatnya sulit untuk menetapkan terminologi. Anda sering mendengar istilah seperti ML, deep learning, dan AI yang digunakan secara bergantian ketika, pada kenyataannya, mereka masih mengembangkan teknik di bawah payung AI yang lebih besar. Dengan demikian, Baker mengatakan ada dua definisi yang sangat berbeda tentang apa basis data AI tergantung pada siapa yang Anda ajak bicara: yang satu praktis dan yang lainnya lebih pai di langit.

"Ada semacam konsensus longgar di industri bahwa basis data AI akan menjadi yang sepenuhnya berfungsi dari permintaan bahasa alami. Antarmuka pengguna akan sedemikian rupa sehingga Anda tidak perlu bergantung pada istilah pencarian dan frase kunci untuk menemukan informasi yang Anda butuhkan, memungkinkan pengguna untuk memanggil set data dengan NLP, "kata Baker. "Anda bisa membuat argumen yang sangat terbatas bahwa IBM Watson dapat mengajukan pertanyaan bahasa alami ke sistem, tetapi Anda harus sudah terhubung ke data dan memilih data sendiri. Jadi, sekarang, definisi itu adalah peregangan."

Definisi yang lebih praktis, dan subjek penjelasan ini, pada dasarnya menggunakan basis data yang dibangun untuk mempercepat pelatihan model ML. Sejumlah perusahaan teknologi telah mengembangkan chip AI khusus untuk mengurangi beban pemrosesan yang berat pada produk perangkat keras baru karena vendor meluncurkan lebih banyak fitur berbasis AI yang membutuhkan daya komputasi yang signifikan. Di sisi data, menggunakan basis data AI dapat membantu Anda mengatasi lebih baik volume, kecepatan, dan tantangan tata kelola data yang kompleks serta tantangan manajemen yang terkait dengan pelatihan ML dan model pembelajaran yang mendalam untuk menghemat waktu dan mengoptimalkan sumber daya.

Kredit gambar: Todd Jaquith di Futurism.com. Klik untuk memperluas infografis lengkap

"Saat ini ada banyak upaya untuk mempercepat pelatihan ML melalui beberapa taktik yang berbeda, " jelas Baker. "Salah satunya adalah untuk memisahkan infrastruktur dari para peneliti AI yang melakukan pengkodean, sehingga fungsi-fungsi otomatis menangani infrastruktur dan melatih model ML. Jadi, alih-alih menghabiskan sekitar tiga bulan, Anda mungkin melihat 30 hari atau 30 menit."

Kinetica memecah ide itu menjadi platform basis data terintegrasi yang dioptimalkan untuk ML dan pemodelan pembelajaran yang mendalam. Basis data AI menggabungkan pergudangan data, analitik canggih, dan visualisasi dalam basis data dalam memori. Mate Radalj, Wakil Presiden dan Insinyur Perangkat Lunak Utama dari Advanced Technology Group Kinetica, menjelaskan bahwa basis data AI harus dapat secara bersamaan menelan, mengeksplorasi, menganalisis, dan memvisualisasikan data kompleks yang bergerak cepat, dalam milidetik. Tujuannya adalah untuk menurunkan biaya, menghasilkan pendapatan baru, dan mengintegrasikan model ML sehingga bisnis dapat membuat keputusan yang lebih efisien dan digerakkan oleh data.

"Basis data AI adalah bagian dari basis data umum, " kata Radalj. "Saat ini, basis data AI sangat populer. Tetapi banyak solusi menggunakan komponen terdistribusi. Spark, MapReduce dan HDFS selalu berputar bolak-balik daripada di dalam memori. Mereka tidak memiliki pertemuan faktor seperti basis data kami, yang dibangun dari bawah ke atas dengan CPU dan GPU terintegrasi ketat pada satu platform.Keuntungan tingkat tinggi bagi kami adalah penyediaan yang lebih cepat dan jejak perangkat keras yang lebih rendah dari pelatihan berbasis model, dengan perputaran cepat dan analitik yang terintegrasi ke dalam platform yang sama."

Bagaimana Database AI Bekerja

Ada beberapa contoh database AI dalam praktiknya. Microsoft Batch AI menawarkan infrastruktur berbasis cloud untuk pelatihan pembelajaran mendalam dan model ML yang berjalan pada Microsoft Azure GPU. Perusahaan ini juga memiliki produk Danau Data Azure untuk memudahkan bisnis dan ilmuwan data untuk memproses dan menganalisis data di seluruh arsitektur terdistribusi.

Contoh lain adalah pendekatan AutoML Google, yang secara fundamental merekayasa ulang cara model ML dilatih. Google AutoML mengotomatiskan desain model ML untuk menghasilkan arsitektur jaringan saraf baru berdasarkan kumpulan data tertentu, dan kemudian menguji dan mengulanginya ribuan kali untuk kode sistem yang lebih baik. Bahkan, AI Google sekarang dapat membuat model yang lebih baik daripada peneliti manusia.

"Lihatlah Google AutoML: ML menulis kode ML sehingga Anda bahkan tidak perlu orang, " kata Baker. "Ini memberi Anda gambaran tentang perbedaan ekstrem dalam apa yang dilakukan vendor. Beberapa mencoba untuk memberikan analitik canggih sebagai ML - dan ternyata tidak. Dan yang lain melakukan ML pada tingkat lanjut seperti itu di luar apa yang kebanyakan bisnis dapat memahami saat ini."

Lalu ada Kinetica. Startup yang berbasis di San Francisco, yang telah mengumpulkan dana $ 63 juta dalam modal ventura (VC), menyediakan database SQL berkinerja tinggi yang dioptimalkan untuk pengambilan data yang cepat dan analitik. Kinetica adalah apa yang Radalj gambarkan sebagai basis data pemrosesan masalvely (MPP) yang didistribusikan dan platform komputasi di mana setiap node menampilkan data memori, CPU, dan GPU yang terletak di tempat bersama.

Apa yang membuat database AI berbeda dari database tradisional, Radalj menjelaskan, berujung pada tiga elemen inti:

  • Konsumsi data yang dipercepat,
  • Co-lokalitas data dalam memori (pemrosesan paralel di seluruh basis data), dan
  • Platform umum untuk ilmuwan data, insinyur perangkat lunak, dan administrator basis data untuk beralih dan menguji model dengan lebih cepat dan menerapkan hasil secara langsung ke analitik.

Untuk semua pakar non-database dan pelatihan model AI yang membaca ini, Radalj memecah masing-masing dari tiga elemen inti ini dan menjelaskan bagaimana database AI mengikat ke nilai bisnis yang nyata. Ketersediaan data dan konsumsi data adalah kunci, katanya, karena kemampuan untuk memproses data streaming real-time memungkinkan perusahaan mengambil tindakan cepat pada wawasan yang digerakkan oleh AI.

"Kami memiliki pelanggan ritel yang ingin melacak harga jual berdasarkan toko, setiap lima menit, " kata Radalj. "Kami ingin menggunakan AI untuk memperkirakan, berdasarkan beberapa jam terakhir dari data historis, apakah mereka harus mengisi persediaan dan mengoptimalkan proses itu. Tetapi untuk melakukan itu pengisian persediaan yang digerakkan mesin memerlukan untuk mendukung 600-1200 permintaan per detik. Kami "Itu adalah database SQL dan database AI, jadi kita bisa mengambil data pada tingkat itu. Kita memenuhi misi bisnis yang menghasilkan aplikasi yang mendorong ROI lebih banyak."

Baker setuju bahwa ML membutuhkan sejumlah besar data sehingga menelannya dengan cepat akan sangat penting untuk database AI. Faktor kedua, konsep "co-locality of in-memory data, " membutuhkan sedikit penjelasan. Database dalam memori menyimpan data dalam memori utama daripada di penyimpanan disk terpisah. Itu melakukannya untuk memproses permintaan lebih cepat, terutama dalam analitik dan database BI. Oleh co-locality, Radalj menjelaskan bahwa Kinetica tidak memisahkan CPU dan GPU menghitung node versus node penyimpanan.

Sebagai hasilnya, basis data AI mendukung pemrosesan paralel - yang meniru kemampuan otak manusia untuk memproses rangsangan berganda - sementara juga tetap didistribusikan di seluruh infrastruktur basis data yang dapat diskalakan. Ini mencegah jejak perangkat keras yang lebih besar, yang dihasilkan dari apa yang disebut Radalj "pengiriman data" atau kebutuhan untuk mengirim data bolak-balik antara berbagai komponen database.

"Beberapa solusi menggunakan orkestrator seperti IBM Symphony untuk menjadwalkan pekerjaan di berbagai komponen sedangkan Kinetica menekankan pengiriman fungsi terhadap sumber daya yang terletak bersama, dengan optimasi lanjutan untuk meminimalkan pengiriman data, " kata Radalj. "Itu co-locality cocok untuk kinerja dan throughput yang unggul, terutama untuk query berat yang sangat bersamaan pada set data besar."

Dalam hal perangkat keras basis data yang sebenarnya, Kinetica bermitra dengan Nvidia, yang memiliki jajaran GPU AI yang berkembang dan sedang menjajaki peluang dengan Intel. Radalj juga mengatakan perusahaan mengawasi perangkat keras AI yang baru muncul dan infrastruktur berbasis cloud seperti Google Tensor Processing Units (TPUs).

Akhirnya, ada ide proses pelatihan model terpadu. Database AI hanya efektif jika manfaat dari konsumsi dan pemrosesan yang lebih cepat melayani tujuan yang lebih besar dan berorientasi bisnis untuk ML perusahaan dan upaya pembelajaran yang mendalam. Radalj merujuk ke basis data AI Kinetica sebagai "platform pipeline model" yang melakukan hosting data yang didorong oleh ilmu pengetahuan.

Ini semua cocok untuk pengujian lebih cepat dan iterasi untuk mengembangkan model ML yang lebih akurat. Pada titik ini, Baker mengatakan berkolaborasi dengan cara yang terpadu dapat membantu semua insinyur dan peneliti yang bekerja untuk melatih ML atau model pembelajaran mendalam iterate lebih cepat dengan menggabungkan apa yang berhasil, sebagai lawan untuk terus-menerus menemukan kembali semua langkah dalam proses pelatihan. Radalj mengatakan tujuannya adalah untuk menciptakan alur kerja di mana konsumsi batch yang lebih cepat, streaming, dan permintaan menghasilkan hasil model yang dapat segera diterapkan ke BI.

"Ilmuwan data, insinyur perangkat lunak, dan administrator basis data memiliki satu platform di mana pekerjaan dapat dengan bersih digambarkan pada ilmu data itu sendiri, penulisan program perangkat lunak, dan model dan pertanyaan data SQL, " kata Radalj. "Orang-orang bekerja lebih bersih bersama dalam berbagai domain ketika itu adalah platform bersama. Tujuannya lebih sering daripada tidak menjalankan ML dan pembelajaran yang dalam adalah, Anda ingin menggunakan hasil itu - koefisien dan variabel - dalam hubungannya dengan analitik, dan gunakan output untuk hal-hal seperti mencetak atau untuk memprediksi sesuatu yang bermanfaat."

Hype atau Realitas?

Nilai garis bawah dari basis data AI, setidaknya dalam cara Kinetica mendefinisikannya, adalah dalam mengoptimalkan sumber daya komputasi dan basis data. Ini, pada gilirannya, memungkinkan Anda membuat model pembelajaran ML yang lebih baik dan mendalam, melatih mereka lebih cepat dan lebih efisien, dan mempertahankan garis melalui bagaimana AI akan diterapkan pada bisnis Anda.

Radalj memberi contoh manajemen armada atau perusahaan angkutan truk. Dalam hal ini, basis data AI dapat memproses aliran besar informasi waktu-nyata dari armada kendaraan. Kemudian, dengan memodelkan data geospasial itu dan menggabungkannya dengan analitik, database secara dinamis dapat merutekan ulang truk dan mengoptimalkan rute.

"Lebih mudah untuk secara cepat menyediakan, membuat prototipe, dan menguji. Kata 'modeling' dilemparkan ke dalam AI, tetapi semuanya tentang bersepeda melalui berbagai pendekatan - semakin banyak data, semakin baik - menjalankannya berulang-ulang, menguji, membandingkan, dan datang dengan model terbaik, "kata Radalj. "Jaringan saraf telah diberikan kehidupan karena ada lebih banyak data daripada sebelumnya. Dan kita belajar untuk dapat menghitung melalui itu."

Pada akhirnya, database co-located Kinetica dan platform model pipa hanyalah satu pendekatan dalam ruang yang dapat berarti banyak hal yang berbeda tergantung pada siapa yang Anda tanyakan. Baker mengatakan tantangan bagi pembeli di pasar yang masih berkembang dan eksperimental adalah untuk mengetahui dengan tepat apa yang dilemparkan oleh vendor database AI.

"Sebagai konsep bisnis, pembelajaran mendalam, ML, dan semua itu adalah konsep yang solid. Apa yang kami kerjakan adalah masalah teknologi yang dapat dipecahkan, bahkan jika kami belum menyelesaikannya, " kata Baker. "Itu bukan untuk mengatakan ini adalah ruang matang karena jelas bukan. Saya akan mengatakan 'pembeli waspada' karena sesuatu yang bernada ML mungkin atau mungkin tidak. Mungkin saja itu adalah analitik canggih yang beragam di taman."

Mengenai apakah basis data AI semuanya hype saat ini atau apakah mereka mewakili tren penting di mana bisnis akan berjalan, Baker mengatakan itu sedikit dari keduanya. Dia mengatakan Big Data, sebagai istilah pemasaran, tidak disukai sekarang. Baker mengatakan sekarang ada beberapa perselisihan pasar antara canggih, analitik yang digerakkan oleh data dan algoritma ML serta pembelajaran yang dalam. Apapun, apakah Anda berbicara tentang database untuk pemodelan ML atau AI sadar diri yang diimpikan oleh budaya pop, semuanya dimulai dan diakhiri dengan data.

"Data akan digunakan dalam bisnis sampai waktu berakhir, hanya saja pusat untuk melakukan bisnis, " kata Baker. "Ketika Anda berbicara dalam hal fiksi ilmiah, AI adalah kecerdasan yang disadari sendiri. Saat itulah Anda mulai berbicara tentang singularitas dan robot yang mengambil alih dunia. Entah itu terjadi atau tidak, saya tidak tahu. Saya akan pergi itu untuk Stephen Hawking."

Database Ai: apa itu dan mengapa bisnis Anda harus peduli