SparkR Installation and Setup on RStudio

Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R. Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio. Pastikan RStudio, R, dan Java JDK telah terpasang. Ringkasan tentang RStudio dapat dibaca pada tulisan RStudio : IDE untuk R, jika belum terpasang silakan pasang melalui manajemen paket atau installer pada situs resminya. ...

December 10, 2016 · 1 min · 196 words · Me

Pengalaman Membuat E-Commerce Scraper dengan Scrapy

Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko. Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase). Pada awal dijalankannya proyek ini, saya menggunakan Scrapy sebagai framework crawlernya. Kenapa Scrapy? Pertama saya mulai riset dari skala kecil, kedua Scrapy cukup mudah dalam pengaplikasiannya, ketiga dapat dilakukan scaling out tanpa merubah banyak kode. ...

November 3, 2016 · 3 min · 538 words · Me

Double Linked List

Pengenalan Double Linked List Pengertian Double Linked List adalah sekumpulan node data yang terurut linear atau sekuensial dengan dua buah pointer yaitu prev dan next. Double Linked List adalah linked list dengan node yang memiliki data dan dua buah reference link (biasanya disebut next dan prev) yang menunjuk ke node sebelum dan node sesudahnya. Pada implementasinya, terdapat dua variasi double linked list yaitu circular dan non-circular layaknya pada single linked list. ...

October 17, 2016 · 2 min · 327 words · Me

Single Linked List

Pengertian Single Linked List Linked List adalah sekumpulan node data yang terurut linear atau sekuensial. Node adalah istilah untuk elemen pada suatu list. Pada kondisi paling sederhana,node memiliki setidaknya dua atribut yaitu data dan referensi untuk node selanjutnya. Single Linked List adalah linked list dengan node yang memiliki data dan reference link (biasanya disebut next) yang menunjuk ke node lain pada list. Pada implementasinya, terdapat dua variasi single linked list yaitu circular dan non-circular. ...

October 11, 2016 · 2 min · 280 words · Me

Memasang Oracle JDK di Linux

Oracle JDK (Java Development Kit) adalah development kit Java yang disediakan oleh Oracle. Oracle JDK banyak digunakan untuk proyek berbasis Java di skala enterprise, Oracle JDK juga menyediakan library yang hanya tersedia dibawah distribusi paket ini. Pada distribusi Linux, JDK yang disediakan pada repositori adalah OpenJDK. Pada beberapa kondisi, OpenJDK tidak dapat digunakan oleh aplikasi tertentu. Pada tulisan ini saya akan berbagi cara memasang Oracle JDK di sistem operasi Linux dengan sampel distribusi yaitu Ubuntu. ...

October 10, 2016 · 2 min · 313 words · Me