Rumah Bisnis Danau data, dijelaskan

Danau data, dijelaskan

Video: What is a Data Lake? (Desember 2024)

Video: What is a Data Lake? (Desember 2024)
Anonim

Revolusi Big Data telah mendefinisikan kembali cara perusahaan bekerja; data mendukung segalanya. Tidak hanya memiliki alat open-source seperti Apache Hadoop dan Spark yang membuat sejumlah besar data lebih mudah untuk mengumpulkan, memproses, dan menyimpan secara real time, tetapi intelijen bisnis (BI) dan alat visualisasi data telah mulai membantu kita menggaruk permukaan analisis dan mentransformasikan data tersebut untuk menginformasikan keputusan bisnis inti.

Meskipun, terlepas dari seberapa besar Big Data dan teknologi BI telah berevolusi, kami masih berhadapan dengan volume besar data yang terus bertambah yang menemukan bahwa poin yang tepat untuk dianalisis masih terasa seperti menyelam untuk jarum di tumpukan jerami yang tidak pernah berakhir. Solusinya? Mendesain ulang tumpukan jerami.

Masukkan danau data, tipe baru arsitektur perusahaan berbasis cloud yang menyusun data dengan cara yang lebih skalabel yang membuatnya lebih mudah untuk bereksperimen; membuatnya lebih terbuka untuk eksplorasi dan manipulasi daripada terkunci dalam skema dan silo yang kaku. Nasry Angel, Peneliti Arsitektur Perusahaan di Forrester Research, menjelaskan mengapa perusahaan merangkul arsitektur danau data.

"Kedengarannya klise, tetapi ketika Anda berpikir tentang lingkungan data modern yang efektif, itu jauh lebih eksperimental, " kata Angel. "Anda harus bisa belajar cepat dan gagal cepat. Di masa lalu, mengelola data, terutama di gudang, adalah soal kualitas, hingga titik desimal; memastikan semuanya benar-benar akurat dan benar. Ini disebut mengejar satu versi kebenaran.Kemudian menghasilkan laporan pixel-sempurna dan meledakkannya ke 5.000 pengguna.

"Saat ini, ini adalah proses yang lebih ilmiah. Anda berjalan dengan hipotesis tentang data yang ingin Anda uji dan Anda ingin dapat bermain dengan data, mencampur dan mencocokkan, untuk mencoba hal-hal yang berbeda sebelum Anda pergi dan menghasilkan sesuatu."

Apa yang Ada di Danau Data?

Danau data adalah repositori penyimpanan. Meskipun, tidak seperti gudang data atau "data mart, " Angel menjelaskan bahwa danau data didistribusikan lebih dari beberapa node daripada di lingkungan yang tetap dan terstruktur dari gudang data yang mengandalkan skema (lihat infografis di bawah).

"Danau data memungkinkan Anda untuk menerapkan skema ketika Anda menulis data versus gudang data yang mengharuskan Anda untuk melakukan skema saat dibaca. Jadi, pada dasarnya, gudang data mengharuskan Anda untuk memodelkan data sebelum Anda memahami konteksnya, yang tidak benar-benar masuk akal, "kata Angel.

Sumber: JustOne Database, Inc. (Klik pada gambar di atas untuk melihat tampilan penuh.)

"Biasanya, di gudang, Anda memiliki profesional TI yang datang dengan apa yang mereka anggap sebagai model data terbaik, dan mereka bukan pengguna data yang akhirnya. Anda dapat dengan cepat melihat bagaimana hal itu menghambat produktivitas dan nilai bisnis, " tambahnya. "Pada akhirnya, Anda dan pengguna bisnis haruslah orang-orang yang membuat keputusan tentang struktur data, dan, dalam sebuah danau data, Anda dapat terlebih dahulu menjelajahi dan mencari tahu apa yang ada di sana dan kemudian mencari skema untuk mengaturnya dengan baik."

Danau data biasanya dibangun di atas Hadoop, dan distribusi Hadoop perusahaan seperti Hortonworks dan MapR menawarkan arsitektur danau data. Bisnis juga dapat membangun danau data dengan menggunakan cloud Infrastructure-as-a-Service (IaaS) termasuk Amazon Web Services (AWS) dan Microsoft Azure. Elastic Compute Cloud (EC2) Amazon mendukung danau data sementara Microsoft memiliki platform Azure Data Lake khusus untuk menyimpan dan menganalisis data waktu-nyata. Angel mengatakan danau data semakin matang ke titik dalam ruang Big Data di mana bisnis dapat mulai berinvestasi di dalamnya dengan keyakinan yang wajar.

"Beberapa tahun yang lalu, Hadoop sangat marah. Sekarang kita sampai pada titik di mana Hadoop dikomodifikasi, " kata Angel. "Pertanyaannya bukan apakah Hadoop tetapi kapan, dan apa yang akan Anda lakukan dengannya. Jenis aplikasi apa yang akan Anda bangun di atas Hadoop setelah Anda mendapatkan data ke tempat umum seperti danau data? Pada titik ini, ini tentang menggunakan data untuk mengembangkan aplikasi untuk memenuhi kebutuhan bisnis spesifik Anda."

Membangun Di Atas Waduk Data

Bagian yang paling menarik tentang Big Data adalah semua kemungkinannya terbuka. Setelah menyiapkan danau data untuk bermain dan bereksperimen dengan berbagai kombinasi data dan hasil bisnis, Anda dapat mulai melapis teknik analisis inovatif di atas.

Algoritma machine learning (ML) sudah menjadi bagian dari struktur infrastruktur cloud, dan para peneliti terus meningkatkan teknik pembelajaran mendalam dan jaringan saraf untuk melatih mesin dan sistem data untuk mengenali pola yang kompleks. Analitik prediktif sedang dimasukkan ke dalam semakin banyak alat data dan platform perusahaan juga, yang digunakan untuk semuanya, mulai dari penilaian prediktif dan segmentasi otomatis untuk manajemen hubungan pelanggan (CRM) untuk mengidentifikasi tren pasar keuangan dan secara dini menangkap kegagalan mekanis dalam permesinan.

Semua ini terjadi di atas penyimpanan data apa pun yang disuplai bisnis Anda dan ditingkatkan sesuai kebutuhannya. Angel berbicara tentang beberapa kasus penggunaan dunia nyata di mana dia melihat data danau mengubah cara fungsi organisasi.

"Saya bekerja dengan perusahaan penerbitan yang memiliki portofolio majalah yang berbeda - mereka memiliki publikasi untuk pengacara, yang lain untuk akuntan, yang lain untuk konsultan, dll. - dan setiap publikasi memiliki gudang data sendiri. Secara efektif, setiap publikasi memiliki sendiri silo, "jelas Angel.

"Jadi kami mengekstraksi semua data dari gudang dan memasukkannya ke dalam data lake, dan data lake memungkinkan mereka untuk melihat silo. Mereka dapat menjelajahi data dan melakukan penemuan data, dan menyadari bahwa di semua publikasi yang berbeda ini, pelanggan dari setiap majalah tertarik pada cybersecurity. Pembaca cybersecurity kuat di semua peran yang berbeda ini. Jadi apa yang mereka lakukan? Mereka menjadikan cybersecurity tema konferensi tahunan mereka."

Contoh lain yang dibicarakan Angel adalah e-commerce. Klien lain, pengecer seni online, membuang banyak informasi ke dalam data lake dan menggunakannya tidak hanya sebagai repositori tetapi juga sebagai semacam kanvas untuk menyatukan wawasan bisnis. Pengecer membawa data transaksi (pesanan, faktur, pembayaran, dll.), Data clickstream (berturut-turut pengunjung situs web klik dan halaman), dan data dari gudang data pengecer semua ke dalam danau, dan menggunakannya dalam konser untuk memerangi keranjang belanja pengabaian dan konversi.

"Anda ingin membangun di atas danau data dan menggunakannya untuk merumuskan wawasan bisnis yang kompleks, " kata Angel. "Pengecer seni dapat melihat data clickstream pelanggan dan mencocokkan klik dengan profil pelanggan, kemudian menggunakan data transaksional untuk melihat apa yang pelanggan beli di masa lalu dan menggunakan wawasan tersebut untuk menjalankan kampanye email yang sangat spesifik. Jadi, jika pelanggan meninggalkan kereta mereka, pengecer bisa menindaklanjuti dua jam kemudian dan berkata, 'Kami melihat Anda memeriksa Picasso ini; inilah tautannya jika Anda ingin melihatnya lagi.'"

Danau data dapat diterapkan secara universal di semua jenis kasus penggunaan bisnis. Tapi, untuk seorang Chief Technical Officer (CTO) atau Chief Information Security Officer (CISO) yang mempertimbangkan untuk bermigrasi ke arsitektur, Angel menekankan bahwa gudang data belum usang, bukan oleh peregangan apa pun. Untuk sebagian besar organisasi perusahaan, apakah Anda menggunakan penyedia cloud atau distribusi Hadoop khusus, bisnis masih membutuhkan keduanya.

Danau data memberi Anda akses ke wawasan yang tak tertandingi dengan menghapus batas kesesuaian data dengan skema tertentu, dan datang dengan total biaya kepemilikan yang jauh lebih rendah mengingat penggunaan penyimpanan cloud yang murah dan fleksibel seperti AWS untuk naik dan turun - sementara hanya membayar daya pemrosesan yang sebenarnya Anda gunakan. Menjalankan data warehouse lebih mahal dan, akibatnya, membuat profesional TI lebih selektif tentang data yang masuk dan keluar. Tetapi untuk data misi-perusahaan yang paling kritis, itu bukan hal yang buruk.

"Gudang data memiliki keunggulan dalam hal keamanan dan menjadi alat yang sangat mudah untuk mengontrol tata kelola data, " kata Angel. "Jadi, kamu masih ingin menyimpan informasi yang paling sensitif di gudang, hal-hal yang sangat penting untuk misi. Tetapi ketika menyangkut peluang bisnis baru dan menemukan wawasan tersembunyi, kau ingin memanfaatkan data lake."

Danau data, dijelaskan