Data Mining təsnifatı

Təsnifat daha doğru proqnozlar və təhlillərə kömək etmək üçün məlumatların toplusuna kateqoriyalar təyin edən bir məlumat mədən üsuludur. Həmçinin bəzən Qərar ağacı adlanır, təsnifat çox böyük məlumatların təsirini təhlil etmək üçün nəzərdə tutulmuş bir neçə metoddan biridir.

Niyə təsnif?

Çox böyük verilənlər bazaları günümüz dünyasında "böyük məlumatlar" kimi normaya çevrilir. Birdən çox terabayt məlumat verə bilən bir verilənlər bazası düşünün - bir terabayt bir trilyon bayt məlumatdır.

Yalnız Facebook hər gün bir dəfə 600 terabayt yeni məlumat yayır (2014-cü ildən etibarən, bu məlumatları bildirən son dəfə). Böyük məlumatların əsas problemi bunun necə hiss olunmasına gətirib çıxarır.

Və şəffaf həcm bir problem deyil: böyük məlumat da müxtəlif, qeyri-strukturlaşdırılmış və sürətli dəyişir. Audio və video məlumatlarını, sosial media mesajlarını, 3D məlumatlarını və ya coğrafi məlumatları nəzərdən keçirin. Bu cür məlumat asanlıqla təsnifləşdirilmir və ya təşkil olunmur.

Bu çağırışa cavab vermək üçün, təsnifat arasında faydalı məlumatlar çıxarmaq üçün bir sıra avtomatik üsullar hazırlanmışdır.

Təsnifatı necə işləyir?

Texnoloji danışmaq üçün çox uzaqlaşmaq təhlükəsi altında, təsnifatın necə işlədiyini müzakirə edək. Məqsəd, bir suala cavab verəcək, qərar qəbul edəcək və ya davranışları öngörecek bir sıra təsnifat qaydaları yaratmaqdır. Başlamaq üçün müəyyən bir xüsusiyyətləri və ehtimal nəticəsini ehtiva edən bir sıra təlim məlumatları hazırlanır.

Təsnifat alqoritminin işi, bu xüsusiyyət xüsusiyyətlərinin nəticəsinə necə çatdığını tapmaqdır.

Ssenari : Yəqin ki, bir kredit kartı şirkəti hansı perspektivləri kredit kartı təklifi almalı olduğunu müəyyən etməyə çalışır.

Bu, təlim məlumatlarının dəsti ola bilər:

Təlim məlumatları
Adı Yaş Cinsiyyət İllik gəlir Kredit kartı təklifi
John Doe 25 M 39,500 dollar Yox
Jane Doe 56 F $ 125,000 Bəli

Yaş , cinsillik gəlirin "proqnozlaşdırıcı" sütunları "predictor attribute" kredit kartı təklifinin dəyərini müəyyən edir. Bir təlim setində predictor xüsusiyyət tanınır. Təsnifat alqoritmi daha sonra predictor xüsusiyyətinin dəyərinin necə əldə olunduğunu müəyyənləşdirməyə çalışır: yəqinçilərlə qərarın arasında hansı əlaqələr var? Məsələn, bir IF / THEN bəyanatı, məsələn:

IF (Yaş 18 və ya Yaşı 75) Və illik gəliri> 40,000 THEN kredit kartı təklif = yes

Aydındır ki, bu, sadə bir nümunədir və alqoritm burada göstərilən iki qeyddən daha geniş bir məlumat nümunəsinə ehtiyac duyacaq. Bundan əlavə, proqnozlaşdırma qaydaları, daha çox mürəkkəb olacağı ehtimal olunur, o cümlədən atribut məlumatlarını tutmaq üçün alt qaydalar.

Daha sonra, alqoritm analizi üçün məlumatların "proqnozlaşdırma dəsti" verilir, lakin bu müəyyən predmet xüsusiyyətindən (və ya qərarından) məhrumdur:

Predictor Data
Adı Yaş Cinsiyyət İllik gəlir Kredit kartı təklifi
Jack Frost 42 M 88 min dollar
Mary Murray 16 F $ 0

Bu proqnozlaşdırıcı məlumatlar proqnozlaşdırma qaydalarının düzgünlüyünü qiymətləndirməyə kömək edir və qaydalar daha sonra geliştiricinin proqnozları effektiv və faydalı hesab edəcəyinə qədər tweaked olunur.

Gündən günə təsnifat nümunələri

Təsnifat və digər məlumatların madenciliği metodları istehlakçı kimi gündəlik təcrübəmizin çox hissəsidir.

Hava proqnozları günün yağışlı, günəşli və ya buludlu olacağı barədə hesabat vermək üçün təsnifatdan istifadə edə bilər. Tibbi peşə tibbi nəticələrin proqnozlaşdırılması üçün sağlamlıq şəraitini təhlil edə bilər. Bir təsnifat üsulu olan Naive Bayesian, spam e-poçtlarını təsnif etmək üçün şərti ehtimal istifadə edir. Dolandırıcılığın aşkarlanmasından məhsul təkliflərinə qədər, təsnifat hər gün səhnə arxasında, məlumatları təhlil edir və proqnozlar verir.