Klasifikasi di Data Pertambangan

Klasifikasi nyaeta teknik data pertambangan nu nangtukeun kategori pikeun kumpulan data guna rojong dina prediksi langkung akurat jeung analisis. Disebut oge kadangkala disebut hiji Tangkal Putusan, klasifikasi téh salah sahiji sababaraha métode dimaksudkeun sangkan analisis datasets kacida gedéna éféktif.

Naha Klasifikasi?

basis data anu kacida gedéna téh jadi norma di dunya dinten ieu tina "data badag". Ngabayangkeun database sareng sababaraha terabytes data -a terabyte hiji triliun bait data.

Facebook nyalira crunches 600 terabytes data anyar unggal poé tunggal (kawas 2014, panungtungan waktu eta dilaporkeun specs ieu). Tangtangan primér data badag nyaeta kumaha carana sangkan rasa eta.

Sarta volume sheer teu hijina masalah: data badag ogé nuju janten beragam, henteu kaduga jeung gancang-ngarobah. Mertimbangkeun data audio jeung video, tulisan média sosial, data 3D atanapi data geospatial. jenis ieu data henteu gampang categorized atawa diayakeun.

Papanggih tantangan ieu, sauntuyan métode otomatis pikeun extracting informasi mangpaat geus maju, di antarana klasifikasi.

Kumaha Klasifikasi Works

Di bahaya pindah teuing tebih kana tech-nyarita, hayu urang bahas kumaha klasifikasi jalan. Tujuanana nya éta pikeun nyieun hiji set aturan klasifikasi anu bakal ngajawab pertanyaan, nyieun kaputusan, atawa prediksi behavior.To mimiti, susunan data latihan ieu dimekarkeun anu ngandung hiji set tangtu atribut ogé hasil kamungkinan.

Pakasaban anu algoritma klasifikasi téh pikeun manggihan cara nu susunan atribut ngahontal kacindekan na.

Skenario: Sugan hiji parusahaan kartu kiridit téh rék nangtukeun prospek nu kedah nampi tawaran kartu kiridit.

Hal ieu bisa jadi set na data latihan:

Data latihan
nami umur génder panghasilan taunan Tawarkeun Card kiridit
John Doe 25 M $ 39.500 teu
Jane Doe 56 F $ 125.000 nuhun

The "prediktor" kolom umur, gender, jeung panghasilan taunan nangtukeun nilai tina "atribut prediktor" tawarkeun kartu kiridit. Dina set latihan, nu atribut prediktor geus dipikawanoh. Algoritma klasifikasi lajeng nyoba keur nangtukeun sabaraha nilai atribut prediktor ieu ngahontal: naon hubungan aya antara predictors sarta kaputusan? Bakal ngamekarkeun set aturan prediksi, biasana hiji IF / lajeng pernyataan, contona:

IF (Jaman> 18 OR Jaman <75) AND Taunan panghasilan> 40.000 lajeng kartu kiridit tawarkeun = yes

Jelas, ieu téh conto basajan, sarta algoritma nu bakal perlu sampling data tebih leuwih badag batan dua rékaman ditémbongkeun di dieu. Salajengna, aturan prediksi anu dipikaresep janten jauh leuwih pajeulit, kaasup sub-aturan pikeun moto rinci atribut.

Salajengna, algoritma kasebut dibéré "prediksi set" data pikeun nganalisis, tapi set ieu lacks nu atribut prediksi (atawa putusan):

Data prediktor
nami umur génder panghasilan taunan Tawarkeun Card kiridit
Jack Frost 42 M $ 88.000
Mary Murray 16 F $ 0

data prediktor ieu mantuan estimasi akurasi aturan prediksi, sarta aturan anu lajeng tweaked dugi pamekar nu ngemutan di prediksi éféktif jeung mangpaat.

Dintenna pikeun dinten Conto Klasifikasi

Klasifikasi, jeung téhnik data pertambangan lianna, geus burit loba pangalaman dinten-ka poé urang salaku pamakéna.

prediksi Cuaca bisa ngagunakeun klasifikasi ngalaporkeun naha poé bakal hujan, cerah atawa mendung. Profesi médis bisa nganalisis kaayaan kaséhatan keur prediksi hasil médis. A tipe metoda klasifikasi, Bayesian naif, migunakeun probabiliti kondisional mun ngararangkay surelek spam. Ti beungeut panipuan ka nawaran produk, klasifikasi téh balik layar unggal dintenna analisa data sarta ngahasilkeun prediksi.