Rumah Bisnis Dasar-dasar big data: bagaimana membangun rencana tata kelola data

Dasar-dasar big data: bagaimana membangun rencana tata kelola data

Video: Tata Kelola Data dan Pemanfaatan Big Data Pemerintahan | SIAPSPBE Webinar Series (Desember 2024)

Video: Tata Kelola Data dan Pemanfaatan Big Data Pemerintahan | SIAPSPBE Webinar Series (Desember 2024)
Anonim

Kami telah menulis banyak tentang peran data dalam bisnis modern. Dari perusahaan pemula dan usaha kecil hingga menengah (UKM) hingga perusahaan besar, wawasan dan analisis data lebih mudah diakses oleh bisnis dari semua ukuran daripada sebelumnya. Ini, sebagian, berkat kebangkitan intelijen bisnis swalayan (BI) dan alat visualisasi data.

Padahal, sebelum Anda bisa menggunakan alat BI atau menjalankan analitik prediktif pada kumpulan data, ada sejumlah faktor yang harus disingkirkan. Itu dimulai dengan hanya memahami apa itu Big Data, apa yang bukan (petunjuk: bukan bola kristal), dan bagaimana mengelola penyimpanan data, organisasi, izin, dan keamanan dalam arsitektur data perusahaan Anda. Di sinilah tata kelola data masuk. Proses di mana Anda memastikan tata kelola dalam suatu perusahaan berbeda tergantung pada siapa Anda berbicara. Tetapi, pada intinya, tata kelola data adalah tentang kepercayaan dan akuntabilitas data, menikah dengan praktik terbaik keamanan data yang komprehensif.

Saya berbicara dengan Hortonworks dan MapR, dua vendor perusahaan Hadoop terbesar di pasar. Scott Gnau, Kepala Teknologi di Hortonworks, dan Jack Norris, Wakil Presiden Senior Data dan Aplikasi di MapR, masing-masing menjelaskan apa arti tata kelola data bagi organisasi mereka. Mereka membahas bagaimana mengatasi tantangan kompleks untuk memastikan tata kelola data dalam arsitektur data yang kompleks dan hierarki organisasi perusahaan besar.

Apa Yang Tepat Tata Kelola Data dan Mengapa Kita Membutuhkannya?

Tata kelola berarti memastikan data perusahaan diotorisasi, diorganisasi, dan diizinkan dalam database dengan sesedikit mungkin kesalahan, sambil menjaga privasi dan keamanan. Bukan keseimbangan yang mudah untuk dipukul, terutama ketika realitas di mana dan bagaimana data disimpan dan diproses secara terus-menerus berubah. MapR's Norris menjelaskan mengapa bisnis perlu melihat tata kelola data dari tingkat yang lebih tinggi dan fokus pada pipa data yang lebih besar saat ini.

"Ketika Anda mulai mengukur variasi dan kecepatan dari Big Data yang sedang kita hadapi, Anda harus memiliki tata kelola data tetapi dalam konteks yang lebih luas ini. Data apa yang Anda miliki, siapa yang memiliki akses ke sana, dan apa kabar Anda mengelola garis silsilah data itu dari waktu ke waktu? " kata Norris. "Dari sudut pandang tata kelola data, Anda dapat memiliki berbagai tahapan data yang ada dalam suatu sistem yang dapat snapshotted sehingga Anda dapat kembali kapan saja dalam pipa. Ini tentang membangun kemampuan audit dan kontrol akses ke dalam platform data untuk membuat yakin penemuan data dan analisisnya transparan, apakah Anda seorang manajer bisnis yang melihat set data keuangan atau seorang ilmuwan data yang bekerja dengan data hulu mentah."

Sumber: Rimes. Klik gambar untuk tampilan penuh.

Gnau Hortonworks memasukkan pada titik yang sama. Apakah Anda sedang berurusan dengan data warehouse atau arsitektur data lake, tata kelola data adalah tentang menyeimbangkan kekuatan yang berlawanan. Ini tentang akses data yang tidak dibatasi untuk mendorong inovasi dan mendapatkan wawasan, dan izin granular dan privasi untuk secara bersamaan melindungi data itu dari ujung ke ujung.

"Bandingkan dan kontraskan dunia lama tata kelola tradisional dalam ruang data; itu sedikit lebih mudah, " kata Gnau. "Data dulu didefinisikan dengan baik oleh peran pekerjaan atau aplikasi. Di dunia baru, Anda mendapatkan nilai terbaik ketika para ilmuwan data memiliki akses ke data sebanyak mungkin, dan menemukan bahwa media bahagia sangat penting.

"Ini mendorong paradigma yang sama sekali baru tentang bagaimana Anda perlu mendekati tata kelola, " tambah Gnau. "Di dunia baru ini, saya menganggap topik tata kelola dan keamanan yang perlu dibahas bersama. Banyak perusahaan masih berjuang untuk mengatasinya agar para ilmuwan data mereka menjadi efektif dalam menemukan kasus penggunaan baru tersebut sementara, pada saat yang sama, memahami bagaimana menangani keamanan, privasi, tata kelola - semua hal yang penting dari perspektif bottom-line dan juga dari perspektif reputasi perusahaan."

Bagaimana rencana tata kelola data perusahaan mencakup dan memuaskan semua kekuatan yang berlawanan itu? Dengan menangani setiap persyaratan secara metodis, selangkah demi selangkah.

Cara Membangun Rencana Tata Kelola Data

Hortonworks, MapR, dan Cloudera adalah tiga pemain independen terbesar di ruang Hadoop. Perusahaan memiliki lingkup pengaruh mereka sendiri dalam hal tata kelola data. MapR telah merilis sejumlah kertas putih tentang masalah ini dan membangun tata kelola data di seluruh Platform Data Konvergennya, sementara Hortonworks memiliki solusi keamanan dan tata kelola data sendiri dan turut mendirikan Inisiatif Tata Kelola Data (DGI) pada tahun 2015. Hal ini menyebabkan terbukanya -sumber proyek Apache Atlas yang menyediakan kerangka kerja tata kelola data terbuka untuk Hadoop.

Tetapi ketika menyangkut bagaimana masing-masing vendor menyusun tata kelola data yang komprehensif dan strategi keamanan, Gnau dan Norris keduanya berbicara dengan cara yang sama. Berikut ini adalah langkah-langkah gabungan yang direkomendasikan Hortonworks dan MapR untuk diingat bisnis saat membangun rencana tata kelola data.

Yang Besar: Akses dan Otorisasi Data Granular

Kedua perusahaan sepakat bahwa Anda tidak dapat memiliki tata kelola data yang efektif tanpa kontrol granular. MapR menyelesaikan ini terutama melalui Access Control Expressions (ACEs). Seperti yang dijelaskan Norris, ACE menggunakan pengelompokan dan logika Boolean untuk mengontrol akses data dan otorisasi yang fleksibel, dengan izin berbasis peran dan pengaturan visibilitas.

Dia mengatakan menganggapnya seperti model Gartner. Pada sumbu Y di ujung bawah adalah tata kelola yang ketat dan kelincahan yang rendah, dan pada sumbu X di ujung atas adalah kelincahan yang lebih tinggi dan tata kelola yang lebih sedikit.

"Pada level rendah, Anda melindungi data sensitif dengan mengaburkannya. Di atas, Anda memiliki kontrak rahasia untuk ilmuwan data dan analis BI, " kata Norris. "Kami cenderung melakukan ini dengan menutupi kemampuan dan pandangan berbeda di mana Anda mengunci data mentah di bagian bawah sebanyak mungkin dan secara bertahap memberikan lebih banyak akses sampai, di ujung atas, Anda memberi administrator visibilitas yang lebih luas. Tetapi bagaimana Anda memberi akses ke orang yang tepat?

"Jika Anda melihat daftar kontrol akses hari ini, itu akan mengatakan sesuatu seperti 'semua orang di bidang teknik dapat mengakses ini, '" tambah Norris. "Tetapi jika Anda ingin beberapa direktur terpilih pada proyek di dalam TI untuk memiliki akses atau semua orang kecuali orang, Anda harus membuat grup khusus. Ini cara yang terlalu rumit dan berbelit-belit untuk melihat akses."

Di situlah pemberian hak akses ke berbagai tingkatan dan kelompok masuk, menurut Norris. "Kami telah menggabungkan ACE dengan berbagai cara Anda dapat mengakses data - melalui file, tabel, stream, dll - dan mengimplementasikan tampilan tanpa salinan data yang terpisah. Jadi kami menyediakan Tampilan pada data mentah yang sama dan Views dapat memiliki tingkat akses yang berbeda. Ini memberi Anda keamanan terintegrasi yang lebih langsung."

Hortonworks menangani akses granular dengan cara yang serupa. Dengan mengintegrasikan Apache Atlas untuk tata kelola dan Apache Ranger, Gnau mengatakan perusahaan menangani otorisasi di tingkat perusahaan melalui satu panel kaca. Kuncinya, katanya, adalah kemampuan untuk memberikan akses secara kontekstual ke database dan pada tag metadata tertentu dengan menggunakan kebijakan berbasis tag.

"Begitu seseorang ada di dalam basis data, ini tentang membimbing mereka melalui data yang seharusnya mereka miliki aksesnya, " kata Gnau. "Kebijakan keamanan Ranger di tingkat objek, halus, dan di mana-mana di antaranya dapat mengatasinya. Mengikat keamanan ke dalam tata kelola adalah hal-hal yang menjadi sangat menarik.

"Untuk meningkatkan skala dalam organisasi besar, Anda perlu mengintegrasikan peran-peran itu dengan tata kelola dan penandaan metadata, " tambah Gnau. "Jika saya masuk dari Singapura, mungkin ada aturan berbeda berdasarkan undang-undang privasi lokal atau strategi perusahaan. Setelah perusahaan mendefinisikan, menetapkan, dan memahami aturan-aturan itu dari perspektif top-down holistik, Anda dapat membatalkan akses berdasarkan set aturan khusus saat menjalankan segala sesuatu di dalam platform inti."

Sumber: IBM Big Data & Analytics Hub. Klik gambar untuk tampilan penuh.

2. Keamanan Perimeter, Perlindungan Data, dan Otentikasi Terintegrasi

Tata kelola tidak terjadi tanpa keamanan titik akhir. Gnau mengatakan penting untuk membangun perimeter dan firewall yang baik di sekitar data yang terintegrasi dengan sistem dan standar otentikasi yang ada. Norris setuju bahwa, ketika menyangkut otentikasi, penting bagi perusahaan untuk melakukan sinkronisasi dengan sistem yang sudah teruji.

"Di bawah otentikasi, ini tentang bagaimana Anda mengintegrasikan dengan LDAP, Direktori Aktif, dan layanan direktori pihak ketiga, " kata Norris. "Kami juga mendukung nama pengguna dan kata sandi Kerberos. Yang penting adalah tidak menciptakan infrastruktur yang terpisah, tetapi bagaimana Anda mengintegrasikannya dengan struktur dan sistem leverage yang ada seperti Kerberos."

3. Enkripsi dan Tokenisasi Data

Langkah selanjutnya setelah mengamankan perimeter Anda dan mengautentikasi semua akses data granular yang Anda berikan: Pastikan file dan informasi pengenal pribadi (PII) dienkripsi dan tokenized dari ujung ke ujung melalui pipa data Anda. Gnau membahas bagaimana Hortonworks mengamankan data PII.

"Setelah Anda melewati perimeter dan memiliki akses ke sistem, dapat melindungi data PII sangat penting, " kata Gnau. "Anda perlu mengenkripsi dan tokenize data itu sehingga, terlepas dari siapa yang memiliki akses ke sana, mereka dapat menjalankan analitik yang mereka butuhkan tanpa memaparkan data PII itu sepanjang garis."

Mengenai cara Anda mengakses data terenkripsi secara aman baik saat bergerak maupun diam, Norris dari MapR menjelaskan bahwa penting untuk selalu mengingat kasus penggunaan seperti cadangan dan pemulihan bencana (DR) juga. Dia membahas konsep volume logis yang disebut MapR, yang dapat menerapkan kebijakan tata kelola untuk sekelompok file dan direktori yang berkembang.

"Pada level terendah, MapR telah merancang replikasi WAN untuk DR, dan snapshot yang konsisten waktu di semua data yang dapat diatur pada frekuensi yang berbeda berdasarkan direktori atau volume, " kata Norris. "Ini lebih luas dari sekedar tata kelola data. Anda dapat memiliki klaster fisik dengan direktori, dan kemudian konsep volume logis adalah unit manajemen yang sangat menarik dan cara untuk mengelompokkan berbagai hal sambil mengendalikan perlindungan dan frekuensi data. Ini adalah panah lain dalam data admin TI pemerintahan quiver."

4. Audit dan Analisis Konstan

Melihat gambaran tata kelola yang lebih luas, Hortonworks dan MapR mengatakan bahwa strateginya tidak akan berhasil tanpa audit. Tingkat kelonggaran dan akuntabilitas ke dalam setiap langkah proses adalah yang memungkinkan TI untuk benar-benar "mengatur" data sebagai lawan dari hanya menetapkan kebijakan dan mengakses kontrol dan berharap untuk yang terbaik. Ini juga bagaimana perusahaan dapat menjaga strategi mereka saat ini dalam lingkungan di mana cara kita melihat data dan teknologi yang kita gunakan untuk mengelola dan menganalisisnya berubah setiap hari.

"Bagian terakhir dari strategi tata kelola modern adalah pembalakan dan pelacakan, " kata Gnau. "Kami berada dalam masa awal Big Data dan IoT, dan sangat penting untuk dapat melacak akses dan mengenali pola dalam data sehingga, karena strategi perlu diperbarui, kami berada di depan kurva."

Norris mengatakan audit dan analisis bisa semudah melacak file JavaScript Object Notation (JSON). Tidak setiap bagian data akan layak untuk dilacak dan dianalisis, tetapi bisnis Anda tidak akan pernah tahu yang mana - sampai Anda mengidentifikasi wawasan yang mengubah permainan atau terjadi krisis dan Anda perlu menjalankan jejak audit.

"Setiap file log JSON dibuka untuk analisis dan kami memiliki Apache Drill untuk meminta file JSON dengan skema, jadi itu bukan langkah TI manual untuk mengatur analisis metadata, " kata Norris. "Ketika Anda memasukkan semua peristiwa akses data dan setiap tindakan administratif, ada berbagai analitik yang mungkin."

5. Arsitektur Data Terpadu

Pada akhirnya, petugas teknologi atau admin TI yang mengawasi strategi tata kelola data perusahaan harus memikirkan secara spesifik akses granular, otentikasi, keamanan, enkripsi, dan audit. Tetapi petugas teknologi atau admin TI tidak boleh berhenti di situ; alih-alih, orang itu juga harus berpikir tentang bagaimana masing-masing komponen ini dimasukkan ke dalam arsitektur data yang lebih besar. Ia juga harus memikirkan tentang bagaimana infrastruktur itu harus dapat diskalakan dan aman - mulai dari pengumpulan data dan penyimpanan hingga BI, analitik, dan layanan pihak ketiga. Gnau mengatakan tata kelola data adalah tentang memikirkan kembali strategi dan eksekusi seperti halnya tentang teknologi itu sendiri.

" Itu melampaui satu panel kaca atau kumpulan aturan keamanan, " kata Gnau. "Ini adalah arsitektur tunggal di mana Anda membuat peran-peran ini dan mereka menyinkronkan seluruh platform dan semua alat yang Anda bawa. Keindahan infrastruktur yang diatur secara aman adalah kelincahan dengan metode baru yang dibuat. Pada setiap level platform, atau bahkan dalam lingkungan cloud hybrid, Anda punya satu titik referensi untuk memahami bagaimana Anda menerapkan aturan Anda. Semua data melewati lapisan keamanan dan tata kelola ini."

Dasar-dasar big data: bagaimana membangun rencana tata kelola data