Kamis, 20 Februari 2014

Data Mining FUNGSI PREDIKSI/ FORECASTING



A.     Data Mining
Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepat memungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis data yang tradisional tidak dapat digunakan untuk mengektrak informasi dari data yang sangat besar. Untuk itu diperlukan suatu metoda baru yang dapat menjawab kebutuhan tersebut. Data mining merupakan teknologi yang menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk memproses data dengan volume besar.



Definisi Data mining
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Kata mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar Data mining merupakan proses pencarian pola dan relasi-relasi yang tersembunyi dalam sejumlah data yang besar dengan tujuan untuk melakukan klasifikasi, estimasi, prediksi, association rule, clustering, deskripsi dan visualisasi.
Secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama, yaitu.      
Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Teknik data mining yang termasuk dalam descriptive mining adalah clustering, association, dan sequential mining. 
Predictive, yaitu proses untuk menemukan pola dari data dengan menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat dalam predictive mining adalah klasifikasi.
Secara sederhana data mining bisa dikatakan sebagai proses menyaring atau "menambang" pengetahuan dari sejumlah data yang besar. Istilah lain untuk data mining adalah Knowledge Discovery in Database atau KDD. Walaupun sebenarnya data mining sendiri adalah bagian dari tahapan proses dalam KDD

Knowledge Discovery in Database (KDD)


A. Definisi
KDD adalah keseluruhan proses untuk mengkonversi data mentah
menjadi suatu pengetahuan yang bermanfaat



Gambar 1. Proses KDD

B. Proses KDD
Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
A. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
B. Pre-processing/ Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang


inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak
(tipografi).
Selain itu dilakukan proses enrichment, yaitu proses "memperkaya" data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
C. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses Data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data, sebagai contoh yaitu jika pada WEKA, mengubah bentuk save as data dari Microsoft Excel Worksheet menjadi CSV (Comma Delimited) sebelum melakukan proses ke data mining.
D. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
E. Interpretation/ Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

B. Manfaat Data Mining
Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, pemanfaatan dataming dapat digunakan dalam menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Berbagai teknik komputasi dapat digunakan menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi asset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani persoalan menumpuknya data/informasi dan bagaimana menggudangkannya tanpa kehilangan informasi yang penting (warehousing). Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis itu sendiri, misalnya:
·         Bagaimana mengetahui hilangnya pelanggan karena pesaing
·         Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik
·         Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.
·         Bagaimana memprediski tingkat penjualan
·         Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.
·         Bagaimana memprediksi prilaku bisnis di masa yang akan dating Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real time dan sangat besar, misalnya:
·         Remote sensor yang ditempatkan pada suatu satelitP
·         Telescope yang digunakan untuk memindai langit
·         Simulasi saintifik yang membangkitkan data dalam ukuran terabytes


FUNGSI PREDIKSI/ FORECASTING

A.     Pengertian Prediksi/Forecasting
Proses pengestimasian nilai prediksi berdasarkan pola-pola di dalam sekumpulan data. Prediksi menggunakan beberapa variabel atatu field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini.

B.      Algoritma Naive Bayes
Bayesian classification adalah pengklasifikasian statistik yang dapat digunakan untuk memprediski probabilitas keanggotaan suatu class. Bayesian classification didasarkan pada teorema Bayes yang memiliki kemampuan klasifikasi serupa dengan decesion tree dan neural network. Bayesian classification terbukti memiliki akurasai dan kecepatan yang tinggi saat diaplikasikan ke dalam database dengan data yang besar. (Kusrini,2009).
Teorema Bayes memiliki bentuk umum sebagai berikut :

X                    = Data dengan class yang belum diketahui
H                   = Hipotesis data X merupakan suatu class spesifik
P(H|X)   =Probabilitas hipotesis H berdasarkan kondisi x (posteriori   prob.)
P(H)               = Probabilitas hipotesis H (prior prob.)
P(X|H)           = Probabilitas X berdasarkan kondisi tersebut
P(X)               = Probabilitas dari X



D.    Penelitian Bidang Prediksi Lama Studi
Setiap mahasiswa mempunyai lama studi yang bisa sama ataupun berbeda dengan mahasiswa lain dengan berbagai faktor penyebab. Seperti penelitian yang dilakukan oleh Nuqson Masykur Huda, dalam penelitiannya aplikasi data mining unutk menampilkan tingkat kelulusan mahasiswa dengan studi kasus FMIPA Universitas Diponegoro menyebutkan bahwa data proses masuk, asal sekolah, kota asal dan program studi menjadi pertimbangan dalam menghitung tingkat kelulusan. Nuqson dalam penelitiannya menggunakan metoda associasion rule serta algoritma apriori. Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut dicari nilai support dan confidence nya sehingga akan diperoleh faktor mana yang paling berperan atau paling mempunyai pengarauh yang cukup besar berkaitan dengan tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief Meinanda dkk, dalam penelitiannya tentang prediksi masa studi sarjana dengan artificial neural network menyebutkan bahwa masa studi seorang sarjana dipengaruhi oleh IPK, jumlah matakuliah yang diambil, jumah matakuliah yang mengulang, jumlah matakuliah tertentu. Metoda penelitian yang digunakan merupakan adopsi dari CRISP-DM atau Cross-Idustry Standard Process for Data Mining, dimana di dalamnya terdapat enam fase yaitu Businnes Understanding,Data Understanding, Data Preparation, Modeling, Evaluation dan Deployment. Dalam. Setelah memahami masalahnya kemudian melakukan processing data dengan membuat cross-tabulation, koreksi data yang misclasification , mising value maupun outlier.
1. Melakukan studi kepustakaan terhadap berbagai referensi yang berkaitan dengan penelitian yang dilakukan. Topik-topik yang dikaji antara lain meliputi : database, data mining, klasifikasi, dan beberapa algoritma lain yang mungkin dapat digunakan, serta perangkat lunak yang digunakan untuk proses mining.
2. Menyiapkan data-data yang dibutuhkan, yaitu data berkaitan dengan identitas pribadi dari mahasiswa dan nilai matakuliah yang telah ditempuh oleh mahasiswa hingga mencapai 146 sks dan telah dinyatakan lulus. Data nilai matakuliah yang telah ditempuh hanya diambil sampai dengan semester IV dan kemudian dihitung indeks prestasinya (IPK) secara kumulatif sampai dengan semester IV.. Data ini nantinnya merupakan data training dan testing. Mendapatkan tahun lulus dari setiap mahasiswa yang telah lulus tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau tidak.
3. Mengolah data yang telah disiapkan menggunakan beberapa perangkat lunak bantu seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan data dan mining data yang telah dilakukan untuk memghasilkan informasi mengenai prediksi lama studi dari mahasiswa maupun informasi lain yang dapat digunakan sebagai bahan analisa untuk pengambilan keputusan.




KESIMPULAN

Berdasarkan dari percobaan yang telah dilakukan maka dapat diambil beberapa kesimpulan sebagai berikut :

1. Lama masa studi atau dalam hal ini yaitu ketepatan masa studi setiap mahasiswa dapat diprediksi berdasarkan faktor-faktor yang berkaitan dengan latar belakang sekolah sebelumnya dan data akademik serta pribadi saat berada di perguruan tinggi.

2. Fungsi prediksi dengan memanfaatkan teknik data mining menggunakan algoritma naive bayes telah dapat dibuat dan digunakan untuk memprediksi (menenutkan kelas) dari masa studi atau ketepatan masa studi dari mahasiswa dengan data training dan data testing yang telah diperoleh.

3. Tingkat kesalahan dari fungsi klasifikasi yang digunakan untuk prediksi masih berkisar pada 20% hingga 34% yang hal ini dimungkinkan dapat dipengaruhi oleh jumlah data training maupun testing yang digunakan serta tingkat konsisten data yang digunakan.

Tidak ada komentar:

Posting Komentar