Teknologi
Big Data adalah manajemen aset informasi dengan volume tinggi,
kecepatan tinggi dan kompleks yang membantu perusahaan mengelola data
dengan biaya efektif dan mendorong inovasi pengolahan informasi untuk
pengambilan keputusan dan peningkatan pengetahuan atau wawasan. Big Data
menjamin pemrosesan solusi data dengan varian baru maupun eksisting
untuk memberikan manfaat nyata bagi bisnis. Namun pengolahan data dengan
ukuran dan kompleksitas besar tetap sekedar solusi teknologi kecuali
jika dikaitkan dengan tujuan bisnis. Hal terpenting dari Big Data
bukanlah sekedar kemampuan teknis untuk mengolah data melainkan manfaat
yang dapat disadari oleh perusahaan dengan menggunakan Big Data
Analytics Terminologi Big Data diyakini berasal dari perusahaan
pencarian web yang mengolah data dengana gregasi yang terdistribusi
sangat besar dan tidak terstruktur.
Contoh
Big Data dapat berupa data yang berukuran hingga petabytes (1,024
terabytes) atau exabytes (1,024 petabytes), seperti milyaran hingga
triliunan catatan personal orang yang semuanya berasal dari sumber
berbeda seperti web, sales, customer service, social media, data mobile
dan sebagainya. Data-data ini biasanya tidak terstruktur, sering tidak
lengkap dan tidak dapat diakses. Pada saat berhadapan dengan kelompok
data yang lebih besar, perusahaan menghadapi kesulitan membuat,
memanipulasi dan mengelola Big Data. Big Data sesungguhnya masalah
dalaman alisis bisnis karena tools dan prosedur standar tidak didesain
untuk mencari dan menganalisa kumpulan data yang massive.
Menurut
studi McKinsey Global Institute tentang Big Data di 5 jenis industri,
yaitu industri kesehatan di US, sektor pemerintahaan di Eropa, industri
retail di US dan manufakturing skala global adalah Big Data dapat
menghasilkan nilai yang cukup besar. Seperti bisnis retail yang
menggunakan Big Data dapat meningkatkan margin operasi lebih dari 60%.
Memperkuat peran Big Data dalam sektor publik memiliki potensi yang
besar juga.Jika sektor kesehatan US menggunakan Big Data dengan kreatif
dan efektif untuk mendorong efisiensi dan kulitas, maka sektor ini akan
menghasilkan nilai lebih dari $300 milyar setiap tahun. Dua pertiga dari
nilai tersebut merupakan pengurangan pengeluaran sebesar 8%. Dalam
pengembangan ekonomi di Eropa, administrasi pemerintahan dapat menyimpan
lebih dari $149 milyar dalam perbaikan efisiensi operasional dengan
menggunakan Big Data, ini tidak termasuk menggunakan Big Data dalam
pengurangan fraud dan kesalahan dan mendorong pengumpulan pendapatan
pajak. Kemudian pengguna data layanan personal location mendapatkan $600
milyar dalam surplus konsumen.
1. Ekspansi berkesinambungan dan unifikasi pada SQL dalam Hadoop.
Sejumlah
perusahaan teknologi sedang bekerja keras membangun layer teknologi
solusi Big Data non-SQL seperti Hadoop. Besarnya dukungan bahasa SQL
cukup bervariasi, tapi developer SQL yang cerdas akan mampu memperoleh
manfaat dan kapabilitas ini untuk memampukan SQL interaktif pada Big
Data. Contohnya termasuk Hadapt, Teradata Aster dan EMC Greenplums
Pivotal HD.
2. Dukungan terpadu bagi data terstruktur, semi terstruktur dan tidak terstruktur telah berkembang terus.
Proyek
IDC dengan jumlah data digital yang kebanyakan tidak terstruktur akan
tumbuh 40-50% per tahun. Tahun 2020, jumlah data total akan mencapai 40
zettabytes. Data yang tidak terstruktur berasal dari email, forum, blog,
social networks, sistem POS (Point of Sales) dan mesin penghasil data.
Untuk meng-capture dan menganalisa banyak jenis data massal, inovator
memperluas solusi Big Data melampaui sekedar pengambilan data saja.
Sebagai tambahan, kita akan melihat kemunculan dana dopsi solusi seperti
Oracle MDEX engine, Accumulo dan Attivio untuk mengambil jenis data ini
dalam satu penyimpanan.
3. Kemajuan dalam pencarian.
Menyaring
sejumlah besar data massal bukanlah hal mudah, ini seperti menemukan
jarum dalam jerami. Seiring waktu kita akan melihat solusi Big Data yang
lebih banyak memasukkan dukungan pencarian ke dalam solusi mereka.
Industri yang menjadi leading usaha ini adalah LucidWorks, IBM dan
Oracle melalui akuisisi Endeca, Autonomy dan MarkLogic. LucidWorks
menggabungkan open source stack dari Lucene/Solr, Hadoop, Mahout dan
NLP.
4. Perluasan ETL (extract-transform-load)dan dukungan ELT (extract-load-transform).
Beberapa
pendapat mengungkapkan kasus penggunaan Hadoop yang utama adalah
melakukan workflow ETL karena sifat batch Hadoop. Bagaimanapunjuga, jika
kita melihat bagian penyusunin frastruktur yang dibutuhkan membangun
dan mengelola Hadoop yang kompleks berdasarkan solusi ETL, maka kita
akan lebih memilih menggunakan solusi ETL dari Informatica, Talend,
Syncsort, CloverETL. Bertahun-tahun mereka telah berfokus membangun
solusi ETL terbaik dari awal yang saat ini lebih sering disebut solusi
integrasi data. Vendor pemain murni ETL telah bekerja dengan tekun untuk
memastikan dukungan solusi Big Data. Dukungan ini tidak hanya ET tapi
juga ELT yang mana transformasi dieksekusi oleh Hadoop di dalam Hadoop.
Hal ini memungkinkan pengguna lebih memilih solusi ETL yang sudah ramai
digunakan dibandingkan kapabilitas kuat Hadoop. Kedepan, ETL murni ini
akan mendukung berbagai solusi Big Data dari penyedia NewSQL dan NoSQL.
5. Big Data “In Motion”tetap berjalan.
In
motion mewakili aliran informasi real-time untuk menangani aliran besar
data saat ini dalam varian bisnis, termasuk pasar modal, kesehatan,
energi dan social media. Kerangka open source Apache Hadoop secara
tradisional telah digunakan sebagai pemrosesan batch data yang sangat
besar dalam lingkungan terdistribusi terutama dalam konteks analitikal.
6. Data mining tambahan dan fungsi analitik.
Pemimpin
industri dalam ruang Big Data mengerti kebutuhan untuk memperluas
kapabilitas yang mendasari analisis dan statistik dalam platform mereka.
Ini melampaui analisis fungsi khusus ke dunia fungsionalitas data
mining yang sangat canggih. Teradata As terdata mencakup berbagai
kemampuan analitik termasuk dukungan untuk statistik, analisisteks,
grafik, analisis sentimen dandi-database PMML eksekusi melalui dukungan
Zementis. Perusahaan lain termasuk IBM Netezza telah menanam dukungan
untuk bahasa statistik R yang popular serta mesin Matrix dan paket
aljabar linear yang diparalelkan. Seiring waktu, kita akan melihat
ekspansi yang signifikan dari kemampuan ini di berbagai solusi data yang
besar.
7. Kenaikan popularitas bahasa R.
Tidak
ada keraguan bahwa bahasa R menjadi lebih populer sebagai bahasa
statistik terbuka. Revolusi analytics telah membuat kemajuan yang
signifikan dalam mengembangkan “production-grade” versi R dengan
peningkatan kinerja danfitur enterprise lainnya. Selain itu, telah
dikembangkan solusi Runtuk Hadoop, Runtuk IBMP ureData serta Runtuk Big
Data. Universitas juga telah membuka mata kuliah tentang bahasa R yang
akan mengekspos mahasiswa dengan kemampuan kuat dari bahasa ini dan
membekali mereka dengan keterampilan yang diperlukan untuk melakukan
analisis statistik yang kompleks.
Kita
akan melihat bahasa R akan tertanam dalam banyak solusi Big Data yang
lebih banyak bersama perbaikan signifikan dan kemampuan yang lebih
tinggi dari bahasa ini. Sebagai mana ekosistem Big Data sedang
berkembang, maka seharusnya bisnis menerapkan strategi data-driven untuk
melampaui kompetisi dan berkembang di pasar saat ini.
Referensi : http://lawencon.com/big-data/
Big Data memang menjajikan prospek yang luar biasa jika kita bisa memberdayakannya dengan tepat yang sangat bergantung pada ketersediaan data dan penguasaan teknologi Big Data yang memadai.
BalasHapusUntuk itu saya telah menulis buku tentang "Teknologi Big Data: Sistem Canggih dibalik Google, Yahoo!, Facebook, IBM", pertama dan satu-satunya di Indonesia (berbahasa Indonesia).
Dapat di download dari Google Books dan Google Play
Silakan cek sinopsisnya di blog saya
http://vijjam.blogspot.com/2015/04/buku-tentang-teknologi-big-data-sistem.html
terima kasih, lumayan untuk tambahan referensi
BalasHapus