Data Mining
Data Mining adalah serangkaian
proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan
yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining
sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik dan database. Data mining adalah proses menerapkan
metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi.
Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari
data. Data mining menjadi alat yang semakin penting untuk mengubah data
tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek
profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah.
Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk
menyaring volume data seperti catatan perjalanan penumpang penerbangan, data
sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.
Untuk memanfaatkan data mining dan
untuk mempelajari pola dari data yang dimiliki oleh suatu perusahaan dan mampu
memberikan prediksi berdasarkan pola data yang ada, maka diperlukan
langkah-langkah penentuan definisi data mining dari awal sampai dengan data
mining siap untuk memberikan prediksi. Langkah-langkah tersebut adalah :
1. Definisi permasalahan bisnis yang ingin diketahui.
Langkah pertama dalam pembuatan data
mining adalah definisi permasalahan bisnis yang ingin dijawab, misalnya ingin
mengetahui apakah seorang customer berpotensi memiliki kredit macet, atau
mengidentifikasi seorang customer apakah akan pindah ke kompetitor bisnis kita,
dan lain sebagainya. Setelah menemukan pertanyaan bisnis yang perlu dijawab
oleh data mining, selanjutnya tentukan tipe tugas dasar untuk menjawab
pertanyaan bisnis tersebut. Tugas dasar yang menjadi dasar algoritma data
mining adalah klasifikasi, regresi, segmentasi, asosiasi dan sequence analysis.
Dengan mengetahui tugas dasar, anda memiliki pedoman kira-kira algoritma mana
yang bisa digunakan untuk menjawab pertanyaan bisnis.
2. Mempersiapkan data yang menjadi sumber untuk data mining untuk dipelajari polanya.
Setelah menentukan definisi masalah, langkah berikutnya adalah mencari data yang mendukung definisi masalah anda. Sumber data dapat berasal dari OLTP maupun dari cube OLAP. Bila sumber data berasal dari OLTP, sebaiknya pastikan datanya telah konsisten. Bila belum konsisten, SSIS bisa digunakan untuk melakukan cleansing data sampai data tersebut konsisten.
3. Menentukan porsi data yang digunakan men-training data mining berdasarkan algoritma data mining yang telah dibuat.
Setelah persiapan data selesai
dilakukan, langkah berikutnya adalah memberikan sebagian data kedalam algoritma
data mining. Algoritma data mining perlu mempelajari pola data yang diberikan
guna menarik informasi dan trend dari data tersebut. Istilah itu dikenal dengan
sebutan training data mining.
4. Validasi apakah data mining
memberikan prediksi yang akurat.
Setelah training data selesai
dilakukan, data mining tersebut perlu di-“uji” atau di-validasi keakuratannya
terhadap data testing. Biasanya tidak hanya 1 algoritma data mining yang
diimplementasikan ke dalam suatu data mining. Berarti data yang dipersiapkan pada
persiapan data mengandung data yang digunakan untuk training dan data yang
digunakan untuk testing. Pemilihan data training dan data testing dapat
dilakukan secara manual ataupun secara acak oleh SQL Server.
1.Association Rule Mining
Association rule mining adalah
teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter,
support yaitu persentase kombinasi item tsb. dalam database dan confidence
yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Algoritma yang paling populer
dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat
kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah
kombinasi item tersebut memenuhi syarat support minimum. Kombinasi item yang
memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk
membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru
yang lebih efisien bernama FP-Tree.
2. Classification
2. Classification
Classification adalah proses untuk
menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas
data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”,
berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu
metode classification yang paling populer karena mudah untuk diinterpretasi
oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi
dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling
terkenal adalah C4.5, tetapi akhirakhir ini telah dikembangkan algoritma yang
mampu menangani data skala besar yang tidak dapat ditampung di main memory
seperti RainForest. Metode-metode classification yang lain adalah Bayesian,
neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest
neighbor.
Proses classification biasanya
dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data
yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan.
Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data
lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi
model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
3. Clustering
Berbeda dengan association rule
mining dan classification dimana kelas data telah ditentukan sebelumnya,
clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu.
Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode
unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan
antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster.
Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan
sebagai ruang multidimensi.
Banyak algoritma clustering
memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga
metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori
algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai
harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk
dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah
metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster
kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar
menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah
satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat
didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah
menggabungkan metode hierarki dengan metode clustering lainnya seperti yang
dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar
kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi
dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari
nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode
ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah
DBSCAN.
1. Pembersihan data untuk membuang data yang tidak konsisten dan noise.
2. Integrasi data merupakan penggabungan data dari beberapa sumber.
3. Transformasi data yaitu data diubah menjadi bentuk yang sesuai untuk di-mining.
4. Aplikasi teknik Data Mining
§ Pemasaran/ Penyewaan
–Identifikasi pola pembayaran pelanggan
–Menemukan asosiasi diantara karakteristik demografik pelanggan
–Analisis keranjang pemasaran
§Perbankan
–Mendeteksi pola penyalahgunaan kartu kredit
–Identifikasi pelanggan yang loyal
–Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan
§ Asuransi & Pelayanan Kesehatan
–Analisis dari klaim
–Memprediksi pelanggan yang akan membeli polis baru
–Identifikasi pola perilaku pelanggan yang berbahaya
§ Transformasi
–Menentukan jadual distribusi ke outlet-outlet
5. Evaluasi pola yang ditemukan untuk menemukan yang menarik/bernilai.
6. Presentasi pengetahuan menggunakan dengan teknik visualisasi.
1. Pembersihan data untuk membuang data yang tidak konsisten dan noise.
2. Integrasi data merupakan penggabungan data dari beberapa sumber.
3. Transformasi data yaitu data diubah menjadi bentuk yang sesuai untuk di-mining.
4. Aplikasi teknik Data Mining
§ Pemasaran/ Penyewaan
–Identifikasi pola pembayaran pelanggan
–Menemukan asosiasi diantara karakteristik demografik pelanggan
–Analisis keranjang pemasaran
§Perbankan
–Mendeteksi pola penyalahgunaan kartu kredit
–Identifikasi pelanggan yang loyal
–Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan
§ Asuransi & Pelayanan Kesehatan
–Analisis dari klaim
–Memprediksi pelanggan yang akan membeli polis baru
–Identifikasi pola perilaku pelanggan yang berbahaya
§ Transformasi
–Menentukan jadual distribusi ke outlet-outlet
5. Evaluasi pola yang ditemukan untuk menemukan yang menarik/bernilai.
6. Presentasi pengetahuan menggunakan dengan teknik visualisasi.
Sumber: http://garethdata.blogspot.com/