Klasifikasi ing Data Mining

Klasifikasi minangka teknik penggalian data sing nyedhiyakake kategori kanggo kumpulan data supaya bisa nyedhiyakake ramalan lan analisis sing luwih akurat. Uga diarani kadhangkala disebut Panyenang Keputusan , klasifikasi minangka salah siji saka pirang-pirang metode sing dimaksudake kanggo nggawe analisis dataset sing gedhe banget.

Apa klasifikasi?

Database gedhe banget dadi norma ing donya "data amba". Mbayangno basis data kanthi pirang-pirang terabyte data -a terabyte yaiku siji triliun byte data.

Facebook dhewe crunches 600 terabytes data anyar saben dina sabanjure (ing 2014, ing wekdal pungkasan kedhaftar iki spek). Tantangan utama data amba yaiku carane ngerteni babagan kasebut.

Lan volume sing gedhene ora mung masalah: data amba uga cenderung beda, ora diwangun lan cepet-cepet. Coba data audio lan video, kiriman sosial media, data 3D utawa data geospasial. Iki jenis data ora gampang dikategorikaké utawa diatur.

Kanggo ngatasi tantangan iki, sawetara cara otomatis kanggo ngekstrak informasi migunani wis dikembangake, ing antarane klasifikasi kasebut .

Cara Nggawe Klasifikasi

Ing bebaya pindhah adoh menyang tech-ngomong, ayo ngrembuk babagan klasifikasi. Tujuane kanggo nggawe sakumpulan aturan klasifikasi sing bakal njawab pitakonan, nggawe kaputusan, utawa prédhiksi prilaku. Kanggo miwiti, seperangkat data latihan dikembangake sing ngemot atribut atribut tartamtu uga asil sing luwih apik.

Proyek saka algoritma klasifikasi iki kanggo nemtokake cara sing atribut wis tekan kesimpulan.

Senario : Mbok menawa perusahaan kertu kredit wis nyoba nemtokake prospek sing kudu nampa penawaran kertu kredit.

Iki bisa dadi data latihan:

Data Latihan
Jeneng Umur Gender Annual Income Penawaran Kartu Kredit
John Doe 25 M $ 39,500 Ora Ana
Jane Doe 56 F $ 125.000 Ya

Ing kolom "prediktor" Umur , Jenis Kelamin , lan Income Tahunan nemtokake nilai "atribut prediktor" Penawaran Kartu Kredit . Ing latihan, atribut prediktor dikenal. Algoritma klasifikasi banjur nyoba kanggo nemtokake cara nilai atribut prediktor wis tekan: apa sesambetan ana ing antarane prediktor lan kaputusan? Bakal ngembangake aturan prediksi, biasane statement IF / THEN, contone:

IF (Usia> 18 OR Umur <75) Lan Pendapatan Tahunan> 40.000 THEN Offer Kartu Kredit = ya

Temenan, iki minangka conto sing prasaja, lan algoritma butuh sampling data luwih gedhe tinimbang rong cathetan sing ditampilake ing kene. Luwih, aturan prediksi cenderung luwih rumit, kalebu sub-aturan kanggo njupuk rincian atribut.

Sabanjure, algoritma diwenehi "prediksi" data kanggo nganalisis, nanging ora ana atribut prediksi (utawa keputusane):

Prediksi Data
Jeneng Umur Gender Annual Income Penawaran Kartu Kredit
Jack Frost 42 M $ 88.000
Maria Murray 16 F $ 0

Data prediktor iki mbantu ngestimasi akurasi aturan prediksi, lan aturan banjur dianyarake nganti pangembang nganggep prediksi kasebut efektif lan bermanfaat.

Contoh-contoh Klasifikasi

Klasifikasi, lan teknik penambangan data liyane, isih akeh pengalaman saben dinane minangka konsumen.

Prediksi cuaca bisa nggunakake klasifikasi kanggo laporan manawa dina iku bakal udan, panas utawa mendhung. Profesi medis bisa nganalisis kahanan kesehatan kanggo prédhiksi hasil medis. Jenis klasifikasi, Naive Bayesian, migunakaké kemungkinan bersyarat kanggo ngategorikake email spam. Saka deteksi penipuan kanggo penawaran produk, klasifikasi adhedhasar adegan saben dina nganalisa data lan ngasilake ramalan.