Rumah fitur Para advokat ini ingin memastikan data kami tidak hilang

Para advokat ini ingin memastikan data kami tidak hilang

Daftar Isi:

Video: UPDET TERBARU VTUBE DARI OJK (Oktober 2024)

Video: UPDET TERBARU VTUBE DARI OJK (Oktober 2024)
Anonim

Pada akhir Mei tahun ini, tepat lima bulan sejak pelantikan Presiden Amerika Serikat ke-45, sekelompok orang yang peduli dengan sikap pemerintahan baru terhadap ilmu pengetahuan dan perubahan iklim menandai ulang tahunnya yang spesial.

Tidak jauh dari kampus University of North Texas, di dataran utara Dallas, beberapa lusin orang bertemu di Data Rescue Denton untuk mengidentifikasi dan mengunduh salinan data iklim dan lingkungan federal. Pertemuan gaya hackathon ini mendapat banyak perhatian pada hari-hari sebelum pelantikan; Denton adalah acara ke 50 sejak Januari.

Mengorganisir awalnya karena kekhawatiran bahwa pemerintahan baru mungkin menghapus atau mengaburkan data iklim dan lingkungan lainnya, ketakutan terburuk penyelamat data tampaknya menjadi kenyataan ketika salah satu tindakan pertama Gedung Putih Trump adalah menghapus halaman perubahan iklim dari situs webnya. Kemudian Departemen Pertanian AS, setelah mengeluarkan laporan inspeksi kesejahteraan hewan dari situs webnya, menanggapi permintaan Undang-Undang Kebebasan Informasi Geografis Nasional dengan 1.771 halaman materi yang sepenuhnya dihapus.

Siapa pun dapat mengakses lebih dari 153.000 kumpulan data federal melalui portal data terbuka pemerintah pusat di data.gov. Tapi itu hanya sebagian kecil dari data yang ada di nebula birokrasi pemerintah, apalagi fraksi yang lebih kecil yang ada di server.

"Di suatu tempat sekitar 20 persen info pemerintah dapat diakses melalui web, " kata Jim Jacobs, Pustakawan Informasi Pemerintah Federal di Perpustakaan Universitas Stanford. "Itu adalah kumpulan barang yang cukup besar yang tidak tersedia. Meskipun agensi memiliki wiki dan sistem manajemen konten mereka sendiri, satu-satunya waktu Anda mengetahui tentang beberapa hal itu adalah jika seseorang FOIA melakukannya."

Yang pasti, banyak sekali informasi yang ditangkap dan sekarang berada di server non-pemerintah. Antara acara Refuge Data dan proyek-proyek seperti Penjelajahan Akhir Jangka Waktu 2016, lebih dari 200TB situs web pemerintah dan data diarsipkan. Tetapi para penyelamat mulai menyadari bahwa upaya sedikit demi sedikit untuk membuat salinan terabyte lengkap dari data sains lembaga pemerintah tidak dapat secara realistis dipertahankan dalam jangka panjang - itu seperti memberi bantuan kepada Titanic dengan bidal.

Jadi meskipun Penyelamatan Data Denton akhirnya menjadi salah satu acara terorganisir final dari jenisnya, upaya kolektif telah mendorong komunitas yang lebih luas untuk bekerja bersama untuk membuat lebih banyak data pemerintah dapat ditemukan, dimengerti, dan dapat digunakan, Jacobs menulis dalam posting blog.

Mencari ke Perpustakaan

Di Universitas Pennsylvania, Bethany Wiggin adalah direktur Program Penn dalam Humaniora Lingkungan, di mana ia menjadi pusat gerakan Perlindungan Data, pencetus acara Penyelamatan Data. Fokusnya sekarang telah bergeser, katanya, menuju pengungkit kerangka kerja nasional untuk upaya jangka panjang alih-alih berbasis lokal, episode berkala.

"Kami menyadari keterampilan yang muncul di berbagai tempat melakukan peristiwa penyelamatan data sesuatu yang bisa ditingkatkan, " kata Wiggin, terutama di seluruh perpustakaan penelitian. "Tapi semua upaya ini terjadi sebelum kita diluncurkan. Kekuatan Perlindungan Data adalah untuk mengentalkan koneksi-koneksi itu; mengkatalisasi proyek-proyek lama yang berjalan lambat; dan menyoroti seberapa pentingnya mereka."

Wiggin akhir-akhir ini telah membantu mempelopori Libraries + Network, kemitraan yang muncul antara perpustakaan penelitian, organisasi perpustakaan dan kelompok data terbuka yang dikatalisasi untuk memperluas peran tradisional perpustakaan dalam menjaga akses ke informasi. Peserta termasuk perpustakaan penelitian Universitas Stanford, Perpustakaan Digital California, dan Yayasan Mozilla, dengan masukan dan kolaborasi dari entitas seluas seperti Arsip Nasional dan kepala petugas data dari beberapa biro federal.

Salah satu proyek, misalnya, adalah LOCKSS ("banyak salinan menjaga barang-barang aman") yang telah dikoordinasikan Jacobs selama beberapa tahun. Ini didasarkan pada prinsip yang sama dengan jaringan perpustakaan berusia 200 tahun yang dikenal sebagai Program Perpustakaan Penyimpanan Federal; perpustakaan ini adalah repositori resmi publikasi oleh Kantor Percetakan Pemerintah AS (GPO).

LOCKSS, sebaliknya, adalah versi digital pribadi dari sistem ini, yang sejauh ini terdiri dari 36 perpustakaan yang mengumpulkan publikasi dari GPO dengan kerjasamanya. Ini adalah model untuk bagaimana informasi digital dapat dilindungi dari penghapusan atau gangguan dengan penyebaran fisik yang luas.

"Anda tidak dapat memastikan pelestarian kecuali Anda memiliki kendali atas kontennya, " kata Jacobs. "Bagian dari apa yang membuat perpustakaan penyimpanan penting dan berguna selama 200 tahun terakhir adalah bahwa tidak ada seorang pun di pemerintahan yang dapat mengedit dokumen tanpa benar-benar pergi ke 1.500 perpustakaan dan berkata 'Ya, ubah halaman yang satu ini di sini.'"

Perangkat lunak LOCKSS menggunakan cache pemeriksaan konten pada tingkat bit dan membandingkannya dengan konten yang dimiliki oleh perpustakaan lain, yang menurut Jacobs membantu memastikan pelestarian jangka panjang melalui perbaikan file yang rusak.

John Chodacki, kolaborator lain dengan Libraries + Network, adalah direktur kurasi untuk California Digital Library, fasilitas informasi virtual yang melayani semua 10 kampus sistem University of California. Bekerja dengan pengembang Code for Science and Society Max Ogden dan Philip Ashlock, kepala arsitek di data.gov, Chodacki mengatakan fokus mereka adalah menggunakan data.gov sebagai jalan dua arah.

Mereka pertama kali menunjukkan bahwa penyelamatan data itu sendiri bisa jauh lebih efisien dengan mengambil salinan data.gov sendiri dan menempatkannya di situs luar, datamirror.org, dengan skrip pemantauan yang memeriksa pembaruan. Kemudian Chodacki dan kolaborator juga mulai melihat apakah set data dan metadata yang dikontribusikan ke cermin dapat dimasukkan ke dalam data agensi yang ada. Alur kerjaovov melalui halaman rintisan di cermin.

Sesuai perintah eksekutif Obama 2013 yang mengamanatkan publikasi data yang dapat dibaca mesin pada data.gov, agensi masih akan bertanggung jawab untuk pembuatan catatan yang terdaftar di portal itu; Ide Chodacki dan Ogden adalah bahwa crowdsourcing menyarankan dataset hanya membantu untuk menyebarkan beban kerja.

"Kami tidak perlu meniru seluruh ekosistem, " kata Chodacki. "Pemerintah federal dan agen-agen ini telah menangani data lebih lama daripada layak untuk berbicara tentang data besar, dengan cara yang jauh lebih kuat daripada orang lain."

Kemitraan Pemerintah-Swasta

Pertanyaan tentang biaya adalah yang jelas ketika datang ke bagaimana lembaga dapat mengidentifikasi dataset mana yang paling berharga bagi publik, kemudian menerbitkan tautan ke metadata mereka atau dataset aktual melalui portal pemerintah. Sebuah laporan Kantor Anggaran Kongres (CBO) untuk RUU UU Data Pemerintah OPEN saat ini di Senat - yang akan mengkodifikasi perintah eksekutif Obama menjadi hukum - memperkirakan implementasi penuh akan menelan biaya $ 2 juta antara 2018 dan 2021.

Dalam hal uang pemerintah, yang pada dasarnya mewakili tidak ada peningkatan nyata dalam pengeluaran, CBO menyimpulkan.

Efisiensi, bagaimanapun, adalah pertanyaan yang berbeda, yang Ed Kearns di National Oceanic and Atmospheric Administration sedang bereksperimen bersama dengan mitra swasta termasuk Amazon Web Services dan Google. Kearns, chief data officer NOAA, mengatakan peningkatan ketersediaan publik dan penggunaan data NOAA adalah tujuan utama dari Big Data Project.

Perusahaan mengidentifikasi set data mana yang mereka inginkan, dan NOAA meneruskannya tanpa biaya tambahan kepada publik. Apa pun yang dimiliki NOAA ada di atas meja, kata Kearns, tetapi tujuan kemitraan lima tahun bukanlah untuk mengeluarkan semua data NOAA di atas awan - hanya potongan strategis.

Hosting dataset seperti itu pada layanan cloud perusahaan swasta menawarkan beberapa keuntungan untuk akses FTP gaya 80-an yang masih standar untuk transfer dataset besar dari agen-agen federal. Untuk memulai, dataset NOAA cenderung luas - agensi memantau lautan, atmosfer, matahari, dan cuaca antariksa Bumi - dan kadang-kadang membutuhkan berminggu-minggu atau berbulan-bulan untuk pengiriman publik.

Salah satu contohnya adalah arsip radar Doppler NEXRAD Level-II beresolusi tinggi. Menurut sebuah penelitian yang diterbitkan pada bulan Mei oleh American Meteorological Society, mentransfer seluruh arsip NEXRAD 270-terabyte ke satu pelanggan pada Oktober 2015 akan memakan waktu 540 hari dengan biaya $ 203.310. Salinan lengkap arsip tidak pernah tersedia untuk analisis eksternal sebelum NOAA bekerja dengan Amazon dan Google untuk meletakkannya di cloud.

Eksperimen ini juga memiliki beberapa hasil awal yang menarik dengan peningkatan penggunaan. Halaman web prakiraan cuaca dan cuaca NOAA telah menerima beberapa tingkat lalu lintas tertinggi di antara situs pemerintah, tetapi setelah Google baru-baru ini mengintegrasikan satu set data iklim dan cuaca, tentang ukuran pertunjukan, ke dalam database BigQuery, perusahaan melaporkan pengiriman 1, 2 petabytes set data ini dari 1 Januari hingga 30 April - jauh lebih banyak daripada yang pernah diakses dalam jangka waktu yang sama dari server NOAA.

"Google dapat membukanya untuk audiens yang sama sekali baru, " kata Kearns.

Bukan hanya hujan dan suhu musiman. Kumpulan data sekarang tersedia melalui mitra Big Data termasuk informasi perikanan, cuaca laut, dan katalog yang diselenggarakan oleh IBM yang berisi daftar dataset terkini, historis, historis dan geospasial dari pusat-pusat NOAA. Dataset masa depan bahkan dapat mencakup informasi tentang ekosistem dan genomik perikanan.

Tetapi dengan desain, kemitraan ini memungkinkan kolaborator untuk memilih apa yang paling mereka inginkan, yang membawa risiko yang tidak jelas, namun berpotensi set data bernilai tinggi, tidak akan melihat banyak sinar matahari. Kearns mengatakan masih terlalu dini untuk mengatakan apa yang akhirnya diidentifikasi sebagai berharga.

"Skala dan jangkauan apa yang bisa dilakukan dengan data ini mengejutkan bagi kami, " tambahnya. "Kita tidak bisa membayangkan semua kegunaan yang mungkin."

Pada skala yang lebih kecil, Kota Philadelphia juga telah bekerja dengan entitas swasta untuk menerbitkan dataset yang menurut publik akan bermanfaat. Meskipun ukuran sebuah kota memberikan lebih banyak kemampuan manuver operasional sehari-hari daripada entitas federal, model Philly mewakili satu pendekatan untuk menyusun strategi pelepasan set data yang belum dipublikasikan.

Azavea, sebuah perusahaan perangkat lunak berbasis Philly yang berspesialisasi dalam visualisasi data, berkolaborasi dengan chief information officer kota, Tim Wisniewski, untuk mengembangkan daftar dataset yang tidak dipublikasikan yang mungkin diminati oleh organisasi nirlaba di kota itu. Wisniewski dan Azavea menggunakan katalog metadata online kota dan masukan dari departemen kota untuk mengembangkan daftar. Azavea dan mitra lainnya kemudian mengirimkan daftar itu ke Philadelphia nirlaba dan meluncurkan OpenDataVote, sebuah kompetisi untuk publik untuk memilih proyek yang diajukan oleh organisasi nirlaba itu untuk bagaimana mereka akan menggunakan set data pilihan mereka.

Pemenang baru-baru ini adalah proposal yang diajukan oleh MicroSociety nirlaba pendidikan untuk menggunakan data kota pada donor ke Philadelphia School District untuk mengukur dampak program nirlaba di sekolah.

"Kita dapat mengatakan bahwa kota ini nirlaba tertarik pada set data tertentu karena mereka dapat melakukan sesuatu dengan itu, dan bahwa ini banyak orang memilih untuk mendukung mereka, " kata Wisniewski. "Ini memungkinkan kita pergi ke departemen dengan case use solid di tangan daripada mengatakan, hei, lepaskan data ini hanya karena."

Data Lama dan Baru

Tetapi apa yang terjadi bahkan ketika ada banyak akses ke data yang sudah ada di sana, ketika kebijakan baru dan arahan pendanaan berarti bahwa data itu sendiri tidak dihasilkan lagi? Itu adalah masalah nyata, kata Ann Dunkin, yang menjabat sebagai kepala informasi di Badan Perlindungan Lingkungan di bawah Presiden Obama dan sekarang memimpin TI untuk Santa Clara County di California.

"Orang-orang khawatir tentang data lama, tetapi yang paling membuat saya khawatir adalah bahwa data baru tidak tersedia pada tingkat yang sama seperti sebelumnya, atau tidak dihasilkan sama sekali, " kata Dunkin.

Dalam satu analisis usulan anggaran federal 2018 oleh majalah Science, banyak lembaga pemerintah akan menyadari pengurangan signifikan dalam anggaran penelitian mereka jika anggaran itu disahkan seperti yang diusulkan. Pemotongan sekitar 22 persen di National Institutes of Health akan mengukir pembayaran ke universitas riset; permintaan anggaran NASA akan menghilangkan inisiatif untuk memantau emisi gas rumah kaca dan program ilmu bumi lainnya. Program iklim di NOAA juga bisa ditutup dengan tingkat pemotongan yang sama.

Selama masa jabatannya, EPA telah berupaya membuat pengumpulan datanya menjadi alat bagi siapa saja untuk memahami kesehatan lingkungan mereka, dan bagaimana bereaksi terhadapnya. Hari udara buruk? Jangan keluar. Mengalir ke bawah cara tercemar? Jauhkan anak-anak.

"Harapan saya adalah itu akan bergerak mundur, " Dunkin menambahkan. "Saya bisa saja salah, tetapi jika Anda mengatakan kami tidak akan membuat data tersedia, kesimpulan logisnya adalah kumpulan data yang dapat membantu anggota masyarakat juga tidak akan tersedia atau tidak dihasilkan sejak awal."

Wiggin Data Refuge sedang mengerjakan proyek pendongengan yang terkait dengan masalah ini yang ia harap akan mengkatalisasi lebih banyak orang untuk menuntut rilis data yang berkelanjutan, dan menciptakan gelombang dukungan untuk melanjutkan program pengumpulan data yang ada di seluruh pemerintah federal. "Three Stories in Our Town" narasi akan menggambarkan dampak data federal yang seringkali tersembunyi di tempat-tempat yang tak terduga, mulai pertama di Philadelphia, kemudian di tempat lain di seluruh negeri.

"Sepotong penting dari gerakan Pengungsian Data, saat kami pindah ke fase berikutnya, membantu orang memahami betapa banyak data yang diproduksi secara federal digunakan dalam kehidupan mereka, " kata Wiggin. "Apakah kamu menyebutnya iklim atau kesehatan atau keselamatan publik, itu masih data federal. Itu di masyarakat, di balai kota, dalam upaya pemolisian, di militer. Kita harus terus mengingat betapa pentingnya data itu."

Sumber:

  • Gateway Dataset Lingkungan EPA: Portal metadata Badan Perlindungan Lingkungan.
  • Open Data @ DOE: Portal data terbuka Departemen Energi.
  • Portal Data Layanan Penelitian Ekonomi USDA
  • Sumber Daya Data Besar NOAA: Tautan ke halaman platform mitra Data Besar yang meng-host data yang dihasilkan oleh NOAA.
  • University of North Texas: Cyber ​​Cemetery: Arsip situs web pemerintah yang mati, ketinggalan jaman atau tertutup.
  • Proyek Pengarsipan Prakarsa Data & Tata Kelola Lingkungan Halaman: Alat, kode, dan aplikasi yang terkait dengan penemuan dan pengarsipan data pemerintah.
  • Mesin Wayback Arsip Internet
  • Internet Archive: Cara Menyimpan Halaman di Mesin Wayback: Enam cara untuk menominasikan halaman untuk pengarsipan.
  • Perpustakaan Digital California: Arsip Web Akhir Masa: Kumpulan situs web Pemerintah AS yang disimpan dari Penjelajahan Akhir Masa, dari 2008 hingga saat ini.
  • FreeGovInfo.info: Konten yang luas dengan informasi tentang portal data di tingkat negara bagian dan federal, dan arsip berita berita tentang masalah data terbuka.
  • Cermin Iklim: Kumpulan data iklim yang dikumpulkan secara sukarela.

Kisah ini pertama kali muncul di PC Magazine Digital Edition. Berlangganan hari ini untuk mendapatkan lebih banyak fitur cerita asli, berita, ulasan, dan bagaimana caranya!

Para advokat ini ingin memastikan data kami tidak hilang