Skip to main content

Uporaba klasifikacije v podatkovnem rudarstvu

Anonim

Razvrščanje je tehnika rudarjenja podatkov, ki kategorijam dodeli zbirko podatkov, da bi pomagali pri natančnejših napovedih in analizah. Včasih se imenuje tudi Drevo odločanja , je razvrstitev ena izmed več metod, ki omogočajo učinkovito analizo zelo velikih podatkovnih nizov.

Zakaj razvrstitev?

Zelo velike zbirke podatkov postajajo norma v današnjem svetu veliki podatki . Predstavljajte si bazo podatkov z več terabajtov podatkov - terabyte je ena trilijon bajtov podatkov.

Facebook samo enkrat črpa 600 terabajtov novih podatkov (od leta 2014, ko je nazadnje poročal o teh specifikacijah). Glavni izziv velikih podatkov je, kako to razumeti.

In velik obseg ni edini problem: veliki podatki prav tako kažejo raznolike, nestrukturirane in hitro spreminjajoče se. Razmislite o avdio in video podatkih, objavah družabnih omrežij, 3D-podatkih ali geoprostorskih podatkih. Te vrste podatkov ni mogoče enostavno razvrstiti ali organizirati.

Za rešitev tega izziva je bil razvit vrsto avtomatskih metod za pridobivanje koristnih informacij razvrstitev .

Kako deluje razvrstitev

Ob nevarnosti, da se preveč odmaknemo v tech-govor, se pogovorimo, kako deluje klasifikacija. Cilj je ustvariti niz klasifikacijskih pravil, ki bodo odgovarjali na vprašanje, odločali ali predvideli vedenje. Za začetek je razvit niz podatkov o usposabljanju, ki vsebuje določen niz atributov in verjeten izid.

Naloga klasifikacijskega algoritma je ugotoviti, kako ta niz atributov doseže svoj zaključek.

Scenarij: Morda družba za kreditne kartice poskuša določiti, katere možnosti bi morala ponuditi kreditno kartico.

To je lahko niza podatkov o usposabljanju:

Podatki o vadbi
ImeStarostSpolLetni prihodekPonudba za kreditne kartice
John Doe25M$39,500Ne
Jane Doe56F$125,000Ja

Stebri "napovedovalca" Starost , Spol , in Letni prihodek določi vrednost "atributa napovedovalca" Ponudba za kreditne kartice . V sklopu usposabljanja je znacilen atribut napovedovalca. Algoritem klasifikacije nato poskuša določiti, kako je bila dosežena vrednost atributa napovedovalca: kakšne so povezave med prediktorji in odločitvijo? Razvila bo niz pravil za napovedovanje, ponavadi izjavo IF / THEN, na primer:

IF (starost> 18 AL Starost <75) IN letni dohodek> 40.000 THEN Ponudba s kreditno kartico = da

Očitno je to preprost primer, algoritem pa bi potreboval precej večje vzorčenje podatkov kot dve prikazani dokumenti. Poleg tega bodo pravila za napovedovanje verjetno precej bolj zapletena, vključno s podrejenimi pravili za zajem podrobnosti atributov.

Nato je algoritem podan "napovedani niz" podatkov, ki jih je treba analizirati, toda za ta niz ni naveden atribut napovedi (ali odločitev):

Podatki o napovednikih
ImeStarostSpolLetni prihodekPonudba za kreditne kartice
Jack Frost42M$88,000
Mary Murray16F$0

Ti podatki napovedovalca pomagajo oceniti natančnost pravil za napovedovanje in pravila se nato spreminjajo, dokler razvijalec meni, da so napovedi učinkovite in uporabne.

Primeri klasifikacije vsak dan

Razvrščanje in druge tehnike rudarjenja podatkov zaostajajo za večino naših vsakodnevnih izkušenj kot potrošniki.

Napovedi vremena lahko uporabljajo razvrstitev, da poročajo, ali bo dan deževen, sončen ali oblačno. Zdravstveni poklic bi lahko analiziral zdravstvene pogoje za napovedovanje medicinskih izidov. Vrsta metode razvrščanja, Naive Bayesian, uporablja pogojno verjetnost, da razvršča spam e-pošto. Od odkritja goljufij do ponudbe izdelkov je vsakodnevno klasificiranje podatkov za analizo podatkov in izdelavo napovedi.