Posts

Immutable Infrastructure using Terraform

What is Terraform? Terraform is a tool for building, changing, and versioning infrastructure safely and efficiently. OK, that’s the first answer when you questioning about “what is Terraform”. Terraform is a tool built by Hashicorp for infrastructure management. It’s based on Go, so you can easily install it by downloading the binary into your machine. Why Using Terraform? This is a good question, we know that there are some tools besides Terraform for infrastructure management that commonly used out there like Ansible, Chef, or CloudFormation (if you use AWS). ...

Eksplorasi Data dengan R

Dalam data science sebelum dilakukan analisis data lebih lanjut, ada baiknya dilakukan dahulu eksplorasi data. Eksplorasi data juga disarankan untuk yang baru memasuki data science. Dengan eksplorasi data, dapat diketahui apa saja atribut pada dataset, bagaimana nilai-nilai yang ada dalam dataset, distribusi data, atau keterhubungan suatu atribut dengan atribut lainnya. Pada tulisan ini saya mencoba untuk eksplorasi data dan beberapa visualisasinya untuk dataset Iris dari UCI Machine Learning Repository. Berikut adalah ekplorasi data yang saya lakukan untuk dataset iris. ...

SparkR Installation and Setup on RStudio

Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R. Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio. Pastikan RStudio, R, dan Java JDK telah terpasang. Ringkasan tentang RStudio dapat dibaca pada tulisan RStudio : IDE untuk R, jika belum terpasang silakan pasang melalui manajemen paket atau installer pada situs resminya. ...

Pengalaman Membuat E-Commerce Scraper dengan Scrapy

Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko. Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase). Pada awal dijalankannya proyek ini, saya menggunakan Scrapy sebagai framework crawlernya. Kenapa Scrapy? Pertama saya mulai riset dari skala kecil, kedua Scrapy cukup mudah dalam pengaplikasiannya, ketiga dapat dilakukan scaling out tanpa merubah banyak kode. ...

Ekosistem Hadoop pada Big Data

Big Data, Hadoop? Kata Big Data sempat menjadi hype di kalangan scientist dan IT enthusiast. Adapun salah satu yang banyak dibicarakan dan didiskusikan salah satunya terkait dengan infrastruktur Big Data. Bagi yang pernah mencoba belajar infrastruktur Big Data, setidaknya akan terdengar kata seperti Hadoop, Cluster, NoSQL, dan Distributed System (setidaknya itu yang pertama kali terdengar oleh saya saat akan belajar infrastruktur Big Data :D). Ekosistem Hadoop Hadoop salah satu proyek yang dikembangkan oleh Apache Foundation. Ketika berbicara tentang Apache Hadoop yang tergambar adalah sebuah proyek inti itu sendiri. Sementara itu, akan ada istilah Hadoop Ecosystem karena pada aplikasinya ternyata sekumpulan perangkat lunak juga terlibat di ekosistem ini. Sekumpulan perangkat lunak ini dapat saling terhubung atau tidak, tergantung dari aplikasinya bagaimana. ...