SparkR Installation and Setup on RStudio

Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R. Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio. Pastikan RStudio, R, dan Java JDK telah terpasang. Ringkasan tentang RStudio dapat dibaca pada tulisan RStudio : IDE untuk R, jika belum terpasang silakan pasang melalui manajemen paket atau installer pada situs resminya. ...

December 10, 2016 · 1 min · 196 words · Me

Pengalaman Membuat E-Commerce Scraper dengan Scrapy

Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko. Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase). Pada awal dijalankannya proyek ini, saya menggunakan Scrapy sebagai framework crawlernya. Kenapa Scrapy? Pertama saya mulai riset dari skala kecil, kedua Scrapy cukup mudah dalam pengaplikasiannya, ketiga dapat dilakukan scaling out tanpa merubah banyak kode. ...

November 3, 2016 · 3 min · 538 words · Me

Ekosistem Hadoop pada Big Data

Big Data, Hadoop? Kata Big Data sempat menjadi hype di kalangan scientist dan IT enthusiast. Adapun salah satu yang banyak dibicarakan dan didiskusikan salah satunya terkait dengan infrastruktur Big Data. Bagi yang pernah mencoba belajar infrastruktur Big Data, setidaknya akan terdengar kata seperti Hadoop, Cluster, NoSQL, dan Distributed System (setidaknya itu yang pertama kali terdengar oleh saya saat akan belajar infrastruktur Big Data :D). Ekosistem Hadoop Hadoop salah satu proyek yang dikembangkan oleh Apache Foundation. Ketika berbicara tentang Apache Hadoop yang tergambar adalah sebuah proyek inti itu sendiri. Sementara itu, akan ada istilah Hadoop Ecosystem karena pada aplikasinya ternyata sekumpulan perangkat lunak juga terlibat di ekosistem ini. Sekumpulan perangkat lunak ini dapat saling terhubung atau tidak, tergantung dari aplikasinya bagaimana. ...

November 2, 2016 · 3 min · 452 words · Me

Deploy Ghost Blog di CPanel

Ghost adalah blogging platform berbasis nodejs. Blog rizkidoank.com menggunakan Ghost, dan jujur saja saya sangat menikmati blogging dengan platform ini. Biasanya Ghost dipasang di VPS atau PaaS seperti Heroku misalnya. Di Indonesia, harga sewa VPS masih cukup tinggi, selain itu performa yang diberikan juga masih lebih lambat dari VPS di provider luar. Oleh karena itu, masih banyak yang memanfaatkan hosting dikarenakan harga yang lebih terjangkau dan pengguna tidak perlu pusing dalam konfigurasi server. ...

October 24, 2016 · 2 min · 259 words · Me

Double Linked List

Pengenalan Double Linked List Pengertian Double Linked List adalah sekumpulan node data yang terurut linear atau sekuensial dengan dua buah pointer yaitu prev dan next. Double Linked List adalah linked list dengan node yang memiliki data dan dua buah reference link (biasanya disebut next dan prev) yang menunjuk ke node sebelum dan node sesudahnya. Pada implementasinya, terdapat dua variasi double linked list yaitu circular dan non-circular layaknya pada single linked list. ...

October 17, 2016 · 2 min · 327 words · Me