Bayesian Spam Filtering haqqında bilmək lazımdır

by Heinz Tschabitscher

İstatistikler, gelen kutunuzun temiz kalmasını nasıl sağladığını öğrenin

Bayesian spam filtrləri mesajın məzmununa əsasən spam olma ehtimalını hesablayır. Sadə content əsaslı filtrlərdən fərqli olaraq, Bayesian spam filtrasiyası spam və yaxşı poçtdan öyrənir, nəticədə, hər şeydən əvvəl, hər hansı bir yanlış pozitivə dönən çox möhkəm, adaptasiya edən və səmərəli anti-spam yanaşmasına gətirib çıxarır.

Önemsiz e-poçtu necə tanıyırsınız?

Spamın necə olduğunu təsəvvür edin . Tez bir baxışda kifayətdir. Spam kimi göründüyünü bilirsiniz və yaxşı poçtun necə göründüyünü bilirsiniz.

Yaxşı mail kimi baxan spam ehtimalı ... sıfırdır.

Məzmuna əsaslanan filtreləri qiymətləndirmək Adaptasiya etməyin

Avtomatik spam filtrləri də bu kimi işləsəydi yaxşı olmazdı?

İçindəki məzmunlu spam filtreləri qiymətləndirmək yalnız bunu sınayın. Sözləri və spam tipik digər xüsusiyyətləri axtarmaq. Hər bir xarakterik elementə bir bal verilir və bütün mesaj üçün spam hesabı fərdi puanlardan hesablanır. Bəzi skor filtrləri, qanuni poçtun xüsusiyyətlərinə baxır və mesajın yekun hesabını azaldır.

Skor filtrlərinə yanaşma işləyir, amma bununla yanaşı bir neçə çatışmazlıq var:

Xüsusiyyətləri spam (və yaxşı poçt) filtr mühəndisləri mövcuddur inşa edilir. Kimsənin ala biləcəyi tipik spamın yaxşı başa düşülməsi üçün poçt yüzlərlə e-poçt ünvanından yığılmalıdır. Bu, filtrlərin effektivliyini zəifləyir, xüsusilə də yaxşı poçtun xüsusiyyətləri hər bir şəxs üçün fərqli olacaq , lakin bu nəzərə alınmır.
Axtarmaq üçün xüsusiyyətlər daşdan daha çox və ya azdır. Spammerlər uyğunlaşmaq üçün səy göstərsələr (və onların spam filtrlərə yaxşı poçt kimi görünsələr), filtrasiya xüsusiyyətləri el ilə tweaked olmalıdır - daha böyük bir səy.
Hər bir sözə təyin olunmuş hesab yaxşı bir təxminə əsaslanır, lakin hələ də özbaşına. Və xüsusiyyətlərin siyahısı kimi, nə spam dəyişən dünya nə fərdi istifadəçi ehtiyaclarına uyğun deyil.

Bayesian Spam Filtrləri özlərini çimdik, daha yaxşı və daha yaxşı əldə edirlər

Bayesian spam filtrləri də tərkibə əsaslanan filtreləri bir növ hesab edir. Onların yanaşma sadə qol spam filtrelerinin problemlərindən uzaqlaşır və bununla belə radikaldır. Süzmə filtrlərinin zəifliyi xüsusiyyətləri və skorları əl ilə qurulmuş siyahıda olduğundan, bu siyahı aradan qaldırılır.

Bunun əvəzinə, Bayesian spam filtrləri siyahıdan özlərini qururlar. İdeal olaraq, siz spam kimi təsnif etdiyiniz bir e-poçt dəsti ilə başlayacaqsınız və yaxşı bir məktub göndərin. Filtrlər hər ikisini də nəzərdən keçirir və istənilən spam və yaxşı məktublarda görünən müxtəlif xüsusiyyətlərin ehtimalını hesablamaq üçün qanuni poçt və spam analiz edir.

Bir Bayesian Spam Filteru E-poçtu necə araşdırır

Bayesian spam filterinin xüsusiyyətlərinə baxa bilərsiniz:

mesajın bədənində sözlər əlbəttə, və
başlıqları (göndərənlər və mesaj yolları , məsələn!), həm də
HTML / CSS kodu (rənglər və digər formatlar kimi) və hətta digər aspektlər
söz cütləri, ifadələr və
meta məlumatı (məsələn, xüsusi bir sözcəyin olduğu yerdən görünür).

Bir sözlə, "Cartesian" məsələn, spamda heç vaxt görünməyəcək, lakin tez-tez aldığınız qanuni e-məktubda "Cartesian" spamın sıfıra yaxın olduğunu göstərir. Digər tərəfdən "Toner", spam olaraq, yalnız və tez-tez görünür. "Toner", spamda 1 (100%) çox aşağı olmamaqla çox yüksək ehtimalı var.

Yeni bir mesaj gəldikdə, Bayesian spam filtrləri tərəfindən təhlil edilir və tam mesajın spam olma ehtimalı fərdi xüsusiyyətlərdən istifadə edilir.

Bir mesajda "Cartesian" və "toner" də var. Bu sözlərdən təkcə spam və ya qanuni poçt olub-olmadığını hələ dəqiq bilmir. Digər xüsusiyyətlər (ümid edirəm ki, çox güman ki) filtrə mesajı spam və ya yaxşı poçt kimi təsnif etməyə imkan verən bir ehtimal olduğunu göstərir.

Bayesian Spam Filtrləri Avtomatik olaraq məlumat əldə edə bilər

İndi bir təsnifatımız var ki, mesaj filtrin özünü daha da yetişdirmək üçün istifadə edilə bilər. Bu halda ya yaxşı mail göstərən "Cartesian" ehtimalı azaldılır ("Cartesian" və "toner" ifadəsini spam olduğu halda) və ya spam göstərən "toner" ehtimalı yenidən nəzərdən keçirilməlidir.

Bu avto-adaptiv üsulu istifadə edərək, Bayesian filtrləri həm özlərinin, həm də istifadəçi qərarlarından öyrənə bilər (əl ilə filtrlər tərəfindən səhv bir qərarı düzəldərsə). Bayesian filtrləşməsinin uyğunlaşması da fərdi e-poçt istifadəçiləri üçün ən təsirli olduğundan əmin olur. Çox insan spamının oxşar xüsusiyyətlərə malik olmasına baxmayaraq, qanuni poçt hər kəs üçün xarakterikdir.

Spammers keçmiş bayes filtrlərini necə ala bilər?

Daimi poçtun xüsusiyyətləri spam kimi Bayesian spam filtrasiya prosesi üçün də vacibdir. Filtrlər xüsusi olaraq hər bir istifadəçi üçün təlim edildikdə, spamerlər hər kəsin (və hətta insanların əksəriyyətinin) spam filtreləri ətrafında işləyən daha çətin vaxta sahib olacaqlar və filtreler demək olar ki, hər şeyə spam göndərməyə cəhd edə bilərlər.

Spammerlər yalnız spam mesajlarını hər kəsin ala biləcəyi adi e-poçt kimi mükəmməl bir görünsələr, yaxşı təlim keçmiş Bayes filtrlərini keçəcəklər.

Spammerlər adətən belə adi e-poçt göndərmirlər. Gəlin, bu e-məktublar istenmeyen e-poçt kimi işləmədiklərini düşünün. Belə ki, adi, darıxdırıcı e-poçt spam filtrlərindən keçmək üçün yeganə yoldur, şansını onlar bunu etməyəcəklər.

Spammerlər əsasən görünüşlü e-poçtlara keçsələr, yenə də gələnlərimizdə bir çox spam görəcəyik və e-poçt əvvəlcədən Bayesian günlərində (və ya daha pis) olduğu kimi sinir ola bilər. Həm də spamın ən çox növləri üçün bazarı pozub, uzun müddət davam edəcək.

Güclü Göstəricilər Bayesian Spam Filter ola bilər Axilles & # 39; Daban

Bir istisna, spamerlər üçün normal istəklərinə baxmayaraq Bayesian filtrləri vasitəsilə işləmək üçün qəbul edilə bilər. Bayesian statistika xarakterində ki, yaxşı bir məktubda çox tez-tez görünən bir söz və ya xarakterikdir ki, istənilən mesajı spam kimi görünmədən filtr kimi hamar kimi qiymətləndirmək üçün əhəmiyyətli ola bilər.

Spammerlər, əmin-yanan yaxşı məktub sözlərinizi təyin etmək üçün bir yol tapırsa - məsələn, açdığınız mesajlarınızı görmək üçün HTML qaytarılmalarını istifadə edərək, onlardan birini istənməyən bir poçta daxil edə bilər və hətta birbaşa, Bayesian filtrinə təlimat verdilər.

John Graham-Cumming, iki Bayesian filtrinin bir-birinə qarşı işləməsini, "yaxşı" süzgəcdən keçmək üçün hansı mesajlara uyğunlaşdığını "pis" bir şəkildə bildirməyi sınadı. Onun sözlərinə görə, bu proses vaxt aparan və mürəkkəbdir. Ən azı böyük miqyasda baş verən hadisələrin çoxunu görəcəyik və fərdlərin e-poçt xüsusiyyətlərinə uyğun gəlməyəcəyik. Spammers (cəhd etmək üçün) təşkilatların bəzi açar sözlərini (əvəzində IBM-də bəzi adamlar üçün "Almaden" kimi bir şey) müəyyən edə bilərlər.

Adətən, spam həmişə adi poçtdan fərqlənir və ya spam olmayacaqdır.

Bottom Line: Bayesian Filtering & Strength onun zəifliyi ola bilər

Bayesian spam filtreləri məzmun əsaslı filtrelərdir :

fərdi e-poçt istifadəçisinin spam və yaxşı poçtunu tanımaq üçün xüsusi hazırlanmışdır və spamerlər üçün yüksək effektiv və çətin vəziyyətə gətirilməlidir.
davamlı olaraq və çox səy və ya manuel analiz olmadan spamcıların ən son tövsiyələrinə uyğundur.
fərdi istifadəçinin yaxşı poçtunu nəzərə alsın və çox az yanlış məbləğə sahib ol .
Təəssüf ki, bu, Bayesian anti-spam filtrelerindeki kör güvənliyə səbəb olarsa, səhvən daha da ciddi hala gətirir. Yanlış neqativlərin (spam, müntəzəm poçt kimi görünən) əks təsirləri istifadəçiləri narahat etmə və sarsıtmaq potensialına malikdir.