Kompas.com vs Detik.com Lanjutan (bagian 2)


Web scraping adalah salah satu teknik yang digunakan oleh untuk mengekstrasi informasi dari website.
Kali ini akan dilakukan scraping kepada media daring kompas.com dan detik.com menggunakan java sebagai bahasa pemograman dan mysql sebagai database, scrapping dilakukan dari Wed Apr 13 13:48:03 SAMT 2016 sampai dengan Thu Apr 14 19:20:03 SAMT 2016 dengan interval 3 kali scraping/ 2-3 detik
Data yang diambil dari kedua website tersebut adalah data berita dengan rincian: Waktu berita, Judul berita, link berita secara berturut-turut berdasarkan waktu posting. Dan data scraping tersebut telah mengalami sortir sehingga tidak terjadi duplikasi terhadap link berita. Jumlah data yg berhasil discraping sebanyak 1338 Judul berita dengan kompas.com sebanyak 721 dan detik.com sebanyak 616 judul berita
Salah satu tujuan dari scraping website tersebut adalah ingin mengetahui seberapa sering nama-nama ditulis dalam Judul berita berdasarkan kata kunci sebagai berikut:
gambar 1,2,3: joko, ahok, yusril, lulung, griezmann, jk, rio, messi, sunny, nyalla, zaskia, aguan
gambar 3,4,5: kpk, polri, jaksa, presiden, dpr, dprd, bpk, bumn, gubernur, menteri, kejagung, polisi
Hasil yang didapatkan sebagai berikut:

f

e

d

c

b

a

Advertisements

Author: ridhobustami

orang ngak jelas

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s