Eksplorasi Data dengan R

Dalam data science sebelum dilakukan analisis data lebih lanjut, ada baiknya dilakukan dahulu eksplorasi data. Eksplorasi data juga disarankan untuk yang baru memasuki data science. Dengan eksplorasi data, dapat diketahui apa saja atribut pada dataset, bagaimana nilai-nilai yang ada dalam dataset, distribusi data, atau keterhubungan suatu atribut dengan atribut lainnya. Pada tulisan ini saya mencoba untuk eksplorasi data dan beberapa visualisasinya untuk dataset Iris dari UCI Machine Learning Repository. Berikut adalah ekplorasi data yang saya lakukan untuk dataset iris. ...

December 12, 2016 · 3 min · 526 words · Me

SparkR Installation and Setup on RStudio

Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R. Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio. Pastikan RStudio, R, dan Java JDK telah terpasang. Ringkasan tentang RStudio dapat dibaca pada tulisan RStudio : IDE untuk R, jika belum terpasang silakan pasang melalui manajemen paket atau installer pada situs resminya. ...

December 10, 2016 · 1 min · 196 words · Me

Pengalaman Membuat E-Commerce Scraper dengan Scrapy

Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko. Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase). Pada awal dijalankannya proyek ini, saya menggunakan Scrapy sebagai framework crawlernya. Kenapa Scrapy? Pertama saya mulai riset dari skala kecil, kedua Scrapy cukup mudah dalam pengaplikasiannya, ketiga dapat dilakukan scaling out tanpa merubah banyak kode. ...

November 3, 2016 · 3 min · 538 words · Me

Ekosistem Hadoop pada Big Data

Big Data, Hadoop? Kata Big Data sempat menjadi hype di kalangan scientist dan IT enthusiast. Adapun salah satu yang banyak dibicarakan dan didiskusikan salah satunya terkait dengan infrastruktur Big Data. Bagi yang pernah mencoba belajar infrastruktur Big Data, setidaknya akan terdengar kata seperti Hadoop, Cluster, NoSQL, dan Distributed System (setidaknya itu yang pertama kali terdengar oleh saya saat akan belajar infrastruktur Big Data :D). Ekosistem Hadoop Hadoop salah satu proyek yang dikembangkan oleh Apache Foundation. Ketika berbicara tentang Apache Hadoop yang tergambar adalah sebuah proyek inti itu sendiri. Sementara itu, akan ada istilah Hadoop Ecosystem karena pada aplikasinya ternyata sekumpulan perangkat lunak juga terlibat di ekosistem ini. Sekumpulan perangkat lunak ini dapat saling terhubung atau tidak, tergantung dari aplikasinya bagaimana. ...

November 2, 2016 · 3 min · 452 words · Me

Deploy Ghost Blog di CPanel

Ghost adalah blogging platform berbasis nodejs. Blog rizkidoank.com menggunakan Ghost, dan jujur saja saya sangat menikmati blogging dengan platform ini. Biasanya Ghost dipasang di VPS atau PaaS seperti Heroku misalnya. Di Indonesia, harga sewa VPS masih cukup tinggi, selain itu performa yang diberikan juga masih lebih lambat dari VPS di provider luar. Oleh karena itu, masih banyak yang memanfaatkan hosting dikarenakan harga yang lebih terjangkau dan pengguna tidak perlu pusing dalam konfigurasi server. ...

October 24, 2016 · 2 min · 259 words · Me