Eksplorasi Data dengan R

Dalam data science sebelum dilakukan analisis data lebih lanjut, ada baiknya dilakukan dahulu eksplorasi data. Eksplorasi data juga disarankan untuk yang baru memasuki data science. Dengan eksplorasi data, dapat diketahui apa saja atribut pada dataset, bagaimana nilai-nilai yang ada dalam dataset, distribusi data, atau keterhubungan suatu atribut dengan atribut lainnya. Pada tulisan ini saya mencoba untuk eksplorasi data dan beberapa visualisasinya untuk dataset Iris dari UCI Machine Learning Repository. Berikut adalah ekplorasi data yang saya lakukan untuk dataset iris. ...

December 12, 2016 · 3 min · 526 words · Me

SparkR Installation and Setup on RStudio

Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R. Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio. Pastikan RStudio, R, dan Java JDK telah terpasang. Ringkasan tentang RStudio dapat dibaca pada tulisan RStudio : IDE untuk R, jika belum terpasang silakan pasang melalui manajemen paket atau installer pada situs resminya. ...

December 10, 2016 · 1 min · 196 words · Me

Twitter Mining with R : Tweet Analysis, Bagian 3

Pada post sebelumnya di Twitter Mining with R : Tweet Analysis, Bagian 2, saya sudah mencoba untuk melakukan Text Cleaning untuk dataset yang ada. Selanjutnya, pada bagian ini saya akan mencoba membuat statistik term frequency dan juga membuat wordcloud dari term document frequency. Statistik Terms Frequency Sebelumnya, saya memiliki variabel tdm yang merupakan term document frequency. Nah, untuk membuat plot statistik frekuensi term saya menggunakan ggplot2, terlebih dahulu install paket ggplot2 dengan perintah install.package("ggplot2") di RStudio. Kemudian, setelah terpasang saya membuat grafik dengan kode seperti berikut : ...

June 13, 2016 · 2 min · 299 words · Me

Twitter Mining with R : Tweet Analysis, Bagian 2

Pengantar Pada tulisan ini akan melanjutkan proses selanjutnya setelah mendapatkan data dengan Twitter API. Jika ingin mengunduh dataset tanpa mengambil online dari twitter, silakan unduh melalui link berikut : Tweet @RadioElshinta Stopwords Indonesia Text Cleaning Setelah akuisisi data, langkah selanjutnya adalah Text Cleaning . Tahapan ini meliputi sub-proses antara lain stopwords removal, whitespaces stripping, dan stemming. library(tm) library(SnowballC) load(file = "elshinta.RData") tweets.df <- twListToDF(tweets_data) corpus <- Corpus(VectorSource(tweets.df$text)) # lowercase konten corpus <- tm_map(corpus,content_transformer(tolower)) # hapus url, dan tanda baca removeURL <- function(x) gsub("http[^[:space:]]*", "", x) corpus <- tm_map(corpus, content_transformer(removeURL)) corpus <- tm_map(corpus, removePunctuation) # buat stopwords Indonesia file_stop <- file("stopwords.txt",open = "r") id_stopwords <- readLines(file_stop) close(file_stop) id_stopwords = c(id_stopwords, "amp") # hapus stopwords, angka, whitespace corpus <- tm_map(corpus, removeWords, id_stopwords) corpus <- tm_map(corpus, removeNumbers) corpus <- tm_map(corpus, stripWhitespace) corpus <- tm_map(corpus, PlainTextDocument) # tampilkan konten tweet ke 125 writeLines(strwrap(corpus[[125]]$content)) # TDF dan DTF untuk corpus dataset elshinta dtm = DocumentTermMatrix(corpus) tdm = TermDocumentMatrix(corpus) Untuk kasus ini, bahasa yang digunakan adalah bahasa Indonesia. Sedangkan pada R tidak tersedia untuk bahasa Indonesia. Sehingga, perlu membuat sendiri stopwords custom. ...

June 12, 2016 · 1 min · 199 words · Me

Twitter Mining with R : Tweet Analysis, Bagian 1

Pengantar Pada tulisan sebelumnya, Introduction to Twitter Mining with R telah dipaparkan pengantar tentang Text Mining pada Twitter dengan R. Pada tulisan ini akan dibahas tentang Tweet Analysis. Secara utuh, yang akan saya lakukan adalah : Mengambil data tweet dengan R menggunakan paket twitteR. Text cleaning dengan paket tm pada R. Menampilkan Terms Frequency Membuat wordcloud berdasar term yang didapat. Mengambil Data Tweets Sebelumnya, pastikan telah membuat Twitter App seperti pada tulisan sebelumnya. Kemudian, pada tulisan ini saya menggunakan RStudio. ...

June 11, 2016 · 2 min · 266 words · Me