Apa k-berarti Clustering?

Data pertambangan kanthi algoritma k-means

Algoritma k- means clustering yaiku alat pertambangan data lan alat-alat mesin sing digunakake kanggo nggayuh pengamatan ing klompok-klompok observasi sing ana hubungane tanpa kawruh sadurunge. Kanthi sampling, algoritma usaha kanggo nuduhaké kategori, utawa klompok, data kasebut, kanthi nomer kluster sing didéfinisekake dening nilai k.

Algoritma k- means minangka salah sawijining teknik clustering sing paling gampang lan umum digunakake ing imaging medis, biometrik, lan kolom sing gegandhengan. Keuntungan saka k- berarti clustering yaiku babagan data sampeyan (nggunakake wangun sing ora dikontrol) tinimbang sampeyan kudu nglatih algoritma babagan data ing wiwitan (nggunakake wangun sing diawasi saka algoritma).

Bab iki kadhangkala diarani Algoritma Lloyd, utamane ing kalangan ilmu komputer amarga algoritma standar pisanan diusulake dening Stuart Lloyd ing taun 1957. Tembung "k-means" diciptakake ing taun 1967 dening James McQueen.

Fungsi k-means Fungsi Algoritma

Algoritma k- means minangka algoritma evolusi sing entuk jeneng saka cara operasinya. Penglalian algoritma ngisi menyang kelompok k , ing ngendi k diwenehake minangka parameter input. Iku banjur nemtokake saben observasi kanggo kelompok kasebut adhedhasar jarak observasi menyang tegese kluster kasebut. Tegese kluster kasebut banjur direkam ulang lan proses kasebut wiwit maneh. Mangkene carane algoritma bisa:

  1. Algoritma arbitrarily milih k poin minangka pusat klaster awal (sarana).
  2. Saben titik ing détet ditugasake ing cluster tertutup, adhedhasar jarak Euclidean antarane saben titik lan saben cluster center.
  3. Saben cluster center diurai minangka rata-rata titik ing cluster kasebut.
  4. Langkah 2 lan 3 baleni nganti kluster ngumpul. Konvergensi bisa didéfinisekake kanthi beda-beda gumantung marang implementasine, nanging biasane tegese manawa ora ana pengamatan ngowahi kluster nalika langkah 2 lan 3 diulang, utawa owah-owahan ora nggawe bedane materi ing definisi cluster kasebut.

Milih Jumlah Klompok

Salah sijine cacat utama kanggo k- tegese clustering yaiku nyatane sampeyan kudu nemtokake nomer kluster minangka input kanggo algoritma. Kaya sing dirancang, algoritma ora bisa nemtokake nomer kluster sing cocog lan gumantung marang pangguna kanggo ngenali babagan iki.

Contone, yen sampeyan duwe klompok wong sing bakal dikelompokake miturut identitas gender binary minangka lanang utawa wadon, nelpon algoritma k- berarti nggunakake input k = 3 bakal meksa wong dadi telung kluster nalika mung loro, utawa Input saka k = 2, bakal nyedhiyakake pas sing luwih alami.

Kajaba iku, manawa klompok individu gampang clustered adhedhasar marang negara ngarep lan sampeyan disebut algoritma k- tegese karo input k = 20, asil uga banget umum kanggo dadi efektif.

Mulane, iku asring becik kanggo eksprimen karo nilai k beda kanggo ngenali nilai sing paling cocog karo data sampeyan. Sampeyan uga pengin mangerteni panggunaan algoritma penambangan data liyane ing nggoleki kanggo mangerteni mesin.