A. Data Mining
Kemajuan dalam pengumpulan data dan teknologi penyimpanan
yang cepat
memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang
tradisional tidak dapat digunakan untuk
mengektrak informasi dari data yang sangat besar. Untuk itu diperlukan
suatu metoda baru yang dapat menjawab kebutuhan tersebut. Data mining
merupakan teknologi yang menggabungkan metoda analisis tradisional dengan
algoritma yang canggih untuk memproses data dengan volume besar.
Definisi Data mining
Data mining adalah serangkaian
proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama
ini tidak diketahui secara
manual. Kata mining berarti usaha untuk mendapatkan sedikit barang
berharga dari sejumlah besar material dasar Data mining merupakan proses pencarian pola dan
relasi-relasi yang tersembunyi dalam sejumlah
data yang besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, association rule,
clustering, deskripsi dan visualisasi.
Secara garis besar data mining dapat dikelompokkan
menjadi 2 kategori utama,
yaitu.
Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining.
Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi.
Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining.
Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi.
Secara sederhana
data mining bisa dikatakan sebagai proses menyaring atau "menambang" pengetahuan dari
sejumlah data yang besar. Istilah lain untuk data mining adalah Knowledge
Discovery in Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian dari
tahapan proses dalam KDD
Knowledge Discovery in Database (KDD)
A. Definisi
KDD adalah
keseluruhan proses untuk mengkonversi data mentah
menjadi suatu pengetahuan yang bermanfaat
Gambar 1. Proses KDD
B. Proses KDD
Proses KDD secara garis besar
dapat dijelaskan sebagai berikut:
A. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam
suatu berkas, terpisah dari basis data operasional.
B. Pre-processing/ Cleaning
Sebelum proses data mining dapat
dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak
(tipografi).
Selain itu dilakukan proses enrichment,
yaitu proses "memperkaya" data yang sudah ada dengan data atau
informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau
informasi eksternal.
C. Transformation
Coding adalah proses transformasi pada data yang
telah dipilih, sehingga data tersebut sesuai untuk proses Data mining.
Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau
pola informasi yang akan dicari dalam
basis data, sebagai contoh yaitu jika pada
WEKA, mengubah bentuk save as data dari Microsoft Excel Worksheet menjadi CSV (Comma Delimited) sebelum
melakukan proses ke data mining.
D. Data mining
Data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode
atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
E. Interpretation/ Evaluation
Pola informasi yang dihasilkan
dari proses data mining perlu ditampilkan dalam bentuk yang mudah
dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup
pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
B. Manfaat Data
Mining
Pemanfaatan data mining dapat dilihat dari dua
sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Dari
sudut pandang komersial, pemanfaatan dataming dapat digunakan dalam menangani
meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta
memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan
informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk
meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan
untuk menangani persoalan menumpuknya data/informasi dan bagaimana
menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data
mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan
bisnis itu sendiri, misalnya:
·
Bagaimana
mengetahui hilangnya pelanggan karena pesaing
·
Bagaimana
mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
·
Bagaimana
mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.
·
Bagaimana
memprediski tingkat penjualan
·
Bagaimana menilai
tingkat resiko dalam menentukan jumlah produksi suatu item.
·
Bagaimana
memprediksi prilaku bisnis di masa yang akan dating Dari sudut pandang
keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis serta
menyimpan data yang bersifat real time dan sangat besar, misalnya:
·
Remote sensor
yang ditempatkan pada suatu satelitP
·
Telescope yang
digunakan untuk memindai langit
·
Simulasi
saintifik yang membangkitkan data dalam ukuran terabytes
FUNGSI PREDIKSI/ FORECASTING
A. Pengertian
Prediksi/Forecasting
Proses pengestimasian nilai prediksi
berdasarkan pola-pola di dalam sekumpulan data. Prediksi menggunakan beberapa
variabel atatu field-field basis data untuk memprediksi nilai-nilai variabel
masa mendatang yang diperlukan, yang belum diketahui saat ini.
B. Algoritma
Naive Bayes
Bayesian classification adalah
pengklasifikasian statistik yang dapat digunakan untuk memprediski probabilitas
keanggotaan suatu class. Bayesian classification didasarkan pada teorema Bayes
yang memiliki kemampuan klasifikasi serupa dengan decesion tree dan neural
network. Bayesian classification terbukti memiliki akurasai dan kecepatan yang
tinggi saat diaplikasikan ke dalam database dengan data yang besar.
(Kusrini,2009).
Teorema Bayes memiliki bentuk umum sebagai
berikut :
X =
Data dengan class yang belum diketahui
H =
Hipotesis data X merupakan suatu class spesifik
P(H|X)
=Probabilitas hipotesis H berdasarkan kondisi x (posteriori prob.)
P(H) =
Probabilitas hipotesis H (prior prob.)
P(X|H) =
Probabilitas X berdasarkan kondisi tersebut
P(X) =
Probabilitas dari X
D. Penelitian Bidang Prediksi Lama Studi
Setiap mahasiswa mempunyai lama
studi yang bisa sama ataupun berbeda dengan mahasiswa lain dengan berbagai
faktor penyebab. Seperti penelitian yang dilakukan oleh Nuqson Masykur Huda,
dalam penelitiannya aplikasi data mining unutk menampilkan tingkat kelulusan
mahasiswa dengan studi kasus FMIPA Universitas Diponegoro menyebutkan bahwa
data proses masuk, asal sekolah, kota asal dan program studi menjadi
pertimbangan dalam menghitung tingkat kelulusan. Nuqson dalam penelitiannya
menggunakan metoda associasion rule serta algoritma apriori.
Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut dicari
nilai support dan confidence nya sehingga akan diperoleh faktor
mana yang paling berperan atau paling mempunyai pengarauh yang cukup besar
berkaitan dengan tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief
Meinanda dkk, dalam penelitiannya tentang prediksi masa studi sarjana dengan artificial
neural network menyebutkan bahwa masa studi seorang sarjana dipengaruhi
oleh IPK, jumlah matakuliah yang diambil, jumah matakuliah yang mengulang,
jumlah matakuliah tertentu. Metoda penelitian yang digunakan merupakan adopsi
dari CRISP-DM atau Cross-Idustry Standard Process for Data Mining,
dimana di dalamnya terdapat enam fase yaitu Businnes Understanding,Data
Understanding, Data Preparation, Modeling, Evaluation dan Deployment. Dalam.
Setelah memahami masalahnya kemudian melakukan processing data dengan membuat cross-tabulation,
koreksi data yang misclasification , mising value maupun outlier.
1. Melakukan studi kepustakaan
terhadap berbagai referensi yang berkaitan dengan penelitian yang dilakukan.
Topik-topik yang dikaji antara lain meliputi : database, data mining,
klasifikasi, dan beberapa algoritma lain yang mungkin dapat digunakan, serta perangkat
lunak yang digunakan untuk proses mining.
2. Menyiapkan data-data yang
dibutuhkan, yaitu data berkaitan dengan identitas pribadi dari mahasiswa dan
nilai matakuliah yang telah ditempuh oleh mahasiswa hingga mencapai 146 sks dan
telah dinyatakan lulus. Data nilai matakuliah yang telah ditempuh hanya diambil
sampai dengan semester IV dan kemudian dihitung indeks prestasinya (IPK) secara
kumulatif sampai dengan semester IV.. Data ini nantinnya merupakan data
training dan testing. Mendapatkan tahun lulus dari setiap mahasiswa yang telah
lulus tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau
tidak.
3. Mengolah data yang telah
disiapkan menggunakan beberapa perangkat lunak bantu seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan
data dan mining data yang telah dilakukan untuk memghasilkan informasi mengenai
prediksi lama studi dari mahasiswa maupun informasi lain yang dapat digunakan
sebagai bahan analisa untuk pengambilan keputusan.
KESIMPULAN
Berdasarkan dari percobaan yang telah dilakukan maka dapat diambil
beberapa kesimpulan sebagai berikut :
1. Lama masa studi atau dalam hal
ini yaitu ketepatan masa studi setiap mahasiswa dapat diprediksi berdasarkan
faktor-faktor yang berkaitan dengan latar belakang sekolah sebelumnya dan data
akademik serta pribadi saat berada di perguruan tinggi.
2. Fungsi prediksi dengan
memanfaatkan teknik data mining menggunakan algoritma naive bayes telah dapat
dibuat dan digunakan untuk memprediksi (menenutkan kelas) dari masa studi atau
ketepatan masa studi dari mahasiswa dengan data training dan data testing yang
telah diperoleh.
3. Tingkat kesalahan dari fungsi
klasifikasi yang digunakan untuk prediksi masih berkisar pada 20% hingga 34%
yang hal ini dimungkinkan dapat dipengaruhi oleh jumlah data training maupun
testing yang digunakan serta tingkat konsisten data yang digunakan.
Tidak ada komentar:
Posting Komentar