Pengalaman Membuat E-Commerce Scraper dengan Scrapy

Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko. Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase). Pada awal dijalankannya proyek ini, saya menggunakan Scrapy sebagai framework crawlernya. Kenapa Scrapy? Pertama saya mulai riset dari skala kecil, kedua Scrapy cukup mudah dalam pengaplikasiannya, ketiga dapat dilakukan scaling out tanpa merubah banyak kode. ...

November 3, 2016 · 3 min · 538 words · Me

Ekosistem Hadoop pada Big Data

Big Data, Hadoop? Kata Big Data sempat menjadi hype di kalangan scientist dan IT enthusiast. Adapun salah satu yang banyak dibicarakan dan didiskusikan salah satunya terkait dengan infrastruktur Big Data. Bagi yang pernah mencoba belajar infrastruktur Big Data, setidaknya akan terdengar kata seperti Hadoop, Cluster, NoSQL, dan Distributed System (setidaknya itu yang pertama kali terdengar oleh saya saat akan belajar infrastruktur Big Data :D). Ekosistem Hadoop Hadoop salah satu proyek yang dikembangkan oleh Apache Foundation. Ketika berbicara tentang Apache Hadoop yang tergambar adalah sebuah proyek inti itu sendiri. Sementara itu, akan ada istilah Hadoop Ecosystem karena pada aplikasinya ternyata sekumpulan perangkat lunak juga terlibat di ekosistem ini. Sekumpulan perangkat lunak ini dapat saling terhubung atau tidak, tergantung dari aplikasinya bagaimana. ...

November 2, 2016 · 3 min · 452 words · Me

Deploy Ghost Blog di CPanel

Ghost adalah blogging platform berbasis nodejs. Blog rizkidoank.com menggunakan Ghost, dan jujur saja saya sangat menikmati blogging dengan platform ini. Biasanya Ghost dipasang di VPS atau PaaS seperti Heroku misalnya. Di Indonesia, harga sewa VPS masih cukup tinggi, selain itu performa yang diberikan juga masih lebih lambat dari VPS di provider luar. Oleh karena itu, masih banyak yang memanfaatkan hosting dikarenakan harga yang lebih terjangkau dan pengguna tidak perlu pusing dalam konfigurasi server. ...

October 24, 2016 · 2 min · 259 words · Me

Remote Desktop Real Display dengan VNC

Beberapa minggu lalu sempat ramai berita tentang videotron di Jakarta Selatan yang di “retas” oleh seseorang. Berdasarkan dari berita-berita terakhir, pelaku melakukan aksinya dikarenakan tahu akses ke videotron tersebut karena saat ia melintas, username dan password terlihat di videotron tersebut. Sebenarnya, kejadian tersebut cukup menggelitik bagi saya. Nah, pada tulisan ini saya akan berbagi salah satu solusi yang mungkin bisa diterapkan pada videotron tersebut tanpa khawatir akses terlihat. VNC (Virtual Network Computing) adalah sistem desktop sharing yang memanfaatkan protokol Remote Frame Buffer. VNC terdapat klien dan server, pada server umumnya VNC akan membuat virtual X11 server yang kemudian dapat diakses dengan menggunakan klien VNC untuk mengakses virtual desktop tersebut. ...

October 14, 2016 · 2 min · 278 words · Me

MariaDB Load Balancing

MySQL atau MariaDB seringkali digunakan untuk DBMS relasional. Pada penggunaan pribadi atau skala kecil menengah, satu instance MySQL atau MariaDB sudah cukup untuk memenuhi kebutuhan. Namun, pada skala besar, seringkali ditemukan kendala seperti tidak mampu menangani rekues, eksekusi kueri yang lambat, dan lain-lain. Dalam menanggapi permasalahan tersebut, terdapat beberapa solusi yang dapat diterapkan antara lain tuning di DBMS,tuning di level sistem operasi, scale-up,atau load balancing. Pada tulisan ini saya akan mencoba melakukan load balancing MariaDB. ...

October 13, 2016 · 2 min · 336 words · Me