Skip to main content

Podatkovno rudarjenje s kliničnimi skupinami K-Means

Anonim

The k- pomeni skupni algoritem je orodje za podatkovno miniranje in strojno učenje, ki se uporablja za opazovanje grozdov v skupine s sorodnimi opazovanji brez predhodnega poznavanja teh odnosov. Z vzorčenjem algoritem poskuša prikazati, v katero kategorijo ali skupino pripadajo podatki, s številom grozdov, ki jih definira vrednost k.

The k- pomeni algoritem ena najpreprostejših tehnik klasteriranja in se običajno uporablja v medicinskem slikanju, biometriji in sorodnih področjih. Prednost k- pomeni grozdenje je, da pove svoje podatke (z uporabo nenadzorovane oblike), namesto da morate navesti algoritem o podatkih na začetku (z uporabo nadzorovane oblike algoritma).

Včasih se imenuje Lloydov algoritem, zlasti v računalniških krogih, ker je standardni algoritem prvič predlagal Stuart Lloyd leta 1957. Izraz "k-sredstva" je leta 1967 skoval James McQueen.

Kako funkcije K-pomeni algoritem

The k- pomeni algoritem evolucijski algoritem, ki dobi ime iz načina delovanja. Algoritem združuje opazovanja v k skupine, kjer k je kot vhodni parameter. Vsako opazovanje nato dodeli grozdom na podlagi bližine opazovanja srednji vrednosti grozda. Sredina grozda se nato ponovno izračuna in proces se začne znova. Evo, kako deluje algoritem:

  1. Algoritem samovoljno izbere k točke kot začetna grozdna središča (sredstva).
  2. Vsaka točka nabora podatkov je dodeljena zaprtemu grudu, ki temelji na evklidski razdalji med vsako točko in središčem klastera.
  3. Vsako središče grozda se ponovno izračuna kot povprečje točk v tej skupini.
  4. 2. in 3. korak ponavljata, dokler se ne združita grozdov. Konvergenca se lahko določi drugače, odvisno od izvedbe, vendar običajno pomeni, da bodisi nobena opazovanja ne spremenijo grozdov, ko se ponovita koraka 2 in 3 ali da spremembe ne bistveno razlikujejo v opredelitvi grozdov.

Izbira števila grozdov

Ena glavnih pomanjkljivosti za k- pomeni grozdenje je dejstvo, da morate določiti število grozdov kot vhod v algoritem. Kot je bilo načrtovano, algoritem ni zmožen določiti ustreznega števila grozdov in je odvisen od uporabnika, da ga vnaprej določi.

Na primer, če ste imeli skupino ljudi, ki jih je treba združiti na podlagi binarne spolne identitete kot moški ali ženske, k- pomeni algoritem z vhodom k = 3 bi ljudi prisilili v tri skupine, če bi le dve, ali vhod k = 2, bi zagotovila bolj naravno prileganje.

Podobno, če je bila skupina posameznikov zlahka združena na podlagi matične države in ste jo poklicali k- pomeni algoritem z vnosom k = 20, rezultati so lahko preveč posplošeni, da bi bili učinkoviti.

Iz tega razloga je pogosto dobra ideja za eksperimentiranje z različnimi vrednostmi k za identifikacijo vrednosti, ki najbolje ustreza vašim podatkom. Prav tako boste morda želeli raziskati uporabo drugih algoritmov za iskanje podatkov v vašem iskanju strojno pridobljenega znanja.