Naon Dupi k-hartina clustering?

pertambangan Data jeung algoritma k-hartosna

K- hartina algoritma clustering mangrupakeun alat pertambangan data jeung learning mesin dipaké pikeun klaster observasi kana Grup observasi patali tanpa pangaweruh awal ngeunaan hubungan maranéhanana. Ku sampling, algoritma nu nyoba keur nunjukkeun nu kategori, atawa cluster, data milik, jeung Jumlah klaster keur diartikeun ku nilai k.

K- hartina algoritma anu salah sahiji téhnik clustering basajan jeung eta ilahar dipaké dina Imaging médis, biometrics, sarta widang patali. Kauntungannana k- hartina clustering téh nya éta ngabejaan ngeunaan data anjeun (maké formulir unsupervised na) tinimbang anjeun ngabogaan ngalatih algoritma ngeunaan data dina mimiti (ngagunakeun formulir diawasan tina algoritma nu).

Hal ieu kadang disebut salaku Algoritma Lloyd urang, utamana di kalangan elmu komputer alatan algoritma baku munggaran diajukeun ku Stuart Lloyd dina 1957. Istilah "k-hartosna" ieu dikedalkeun taun 1967 ku James Mcqueen.

Kumaha nu k-hartina Algoritma Fungsi

Algoritma hartosna k- mangrupa algoritma évolusionér nu gains ngaranna tina metoda na operasi. Klaster algoritma observasi kana Grup k, dimana k ieu disadiakeun salaku hiji parameter input. Ieu lajeng nangtukeun unggal observasi kana klaster dumasar kana jarak observasi urang jeung mean dina klaster. mean klaster urang satuluyna recomputed sarta prosesna dimimitian deui. Di dieu nu kumaha algoritma nu gawéna:

  1. Algoritma wenang milih k titik salaku puseur klaster awal (sarana).
  2. Unggal titik dina dataset ieu ditugaskeun ka klaster katutup, dumasar kana jarak Euclidean antara tiap titik sarta unggal puseur klaster.
  3. Unggal puseur cluster ieu recomputed salaku rata tina titik dina klaster éta.
  4. Léngkah 2 sarta 3 ulang dugi klaster konvergen. Konvergénsi bisa dihartikeun béda gumantung kana palaksanaan, tapi eta ilaharna maksudna euweuh observasi ngarobah klaster lamun lengkah 2 sarta 3 anu terus-terusan, atawa yén parobahan ulah ngadamel bédana bahan dina harti tina klaster.

Milih nu Jumlah klaster

Salah sahiji kalemahan utama pikeun k- hartosna clustering nyaéta kanyataan yén anjeun kudu nangtukeun jumlah klaster jadi hiji input pikeun Algoritma dina. Salaku dirancang, algoritma nu teu sanggup nangtukeun jumlah luyu tina klaster jeung gumantung pamaké pikeun ngaidentipikasi ieu sateuacanna.

Contona, lamun miboga sakumpulan jalma anu bisa dimaksud dumasar kana identitas gender binér saperti jalu atawa bikang, nelepon k- hartina algoritma ngagunakeun input k = 3 bakal maksa rakyat kana tilu klaster lamun ngan dua, atawa hiji input ti k = 2, bakal nyadiakeun fit leuwih alami.

Nya kitu, upami grup individu anu gampang dimaksud dumasar kana kaayaan imah jeung anjeun disebut k- hartina algoritma jeung input k = 20, hasil bisa jadi teuing digeneralisasi janten éféktif.

Ku sabab kitu, éta mindeng mangrupakeun ide nu sae pikeun ékspérimén kalawan nilai béda tina k mun nangtukeun nilai nu pangsaena cocog ka data anjeun. Anjeun oge bisa hayang ngajajah pamakéan algoritma data pertambangan lianna di quest anjeun pangaweruh mesin-diajar.