Bayesian Spam Filtering haqqında bilmək lazımdır

İstatistikler, gelen kutunuzun temiz kalmasını nasıl sağladığını öğrenin

Bayesian spam filtrləri mesajın məzmununa əsasən spam olma ehtimalını hesablayır. Sadə content əsaslı filtrlərdən fərqli olaraq, Bayesian spam filtrasiyası spam və yaxşı poçtdan öyrənir, nəticədə, hər şeydən əvvəl, hər hansı bir yanlış pozitivə dönən çox möhkəm, adaptasiya edən və səmərəli anti-spam yanaşmasına gətirib çıxarır.

Önemsiz e-poçtu necə tanıyırsınız?

Spamın necə olduğunu təsəvvür edin . Tez bir baxışda kifayətdir. Spam kimi göründüyünü bilirsiniz və yaxşı poçtun necə göründüyünü bilirsiniz.

Yaxşı mail kimi baxan spam ehtimalı ... sıfırdır.

Məzmuna əsaslanan filtreləri qiymətləndirmək Adaptasiya etməyin

Avtomatik spam filtrləri də bu kimi işləsəydi yaxşı olmazdı?

İçindəki məzmunlu spam filtreləri qiymətləndirmək yalnız bunu sınayın. Sözləri və spam tipik digər xüsusiyyətləri axtarmaq. Hər bir xarakterik elementə bir bal verilir və bütün mesaj üçün spam hesabı fərdi puanlardan hesablanır. Bəzi skor filtrləri, qanuni poçtun xüsusiyyətlərinə baxır və mesajın yekun hesabını azaldır.

Skor filtrlərinə yanaşma işləyir, amma bununla yanaşı bir neçə çatışmazlıq var:

Bayesian Spam Filtrləri özlərini çimdik, daha yaxşı və daha yaxşı əldə edirlər

Bayesian spam filtrləri də tərkibə əsaslanan filtreləri bir növ hesab edir. Onların yanaşma sadə qol spam filtrelerinin problemlərindən uzaqlaşır və bununla belə radikaldır. Süzmə filtrlərinin zəifliyi xüsusiyyətləri və skorları əl ilə qurulmuş siyahıda olduğundan, bu siyahı aradan qaldırılır.

Bunun əvəzinə, Bayesian spam filtrləri siyahıdan özlərini qururlar. İdeal olaraq, siz spam kimi təsnif etdiyiniz bir e-poçt dəsti ilə başlayacaqsınız və yaxşı bir məktub göndərin. Filtrlər hər ikisini də nəzərdən keçirir və istənilən spam və yaxşı məktublarda görünən müxtəlif xüsusiyyətlərin ehtimalını hesablamaq üçün qanuni poçt və spam analiz edir.

Bir Bayesian Spam Filteru E-poçtu necə araşdırır

Bayesian spam filterinin xüsusiyyətlərinə baxa bilərsiniz:

Bir sözlə, "Cartesian" məsələn, spamda heç vaxt görünməyəcək, lakin tez-tez aldığınız qanuni e-məktubda "Cartesian" spamın sıfıra yaxın olduğunu göstərir. Digər tərəfdən "Toner", spam olaraq, yalnız və tez-tez görünür. "Toner", spamda 1 (100%) çox aşağı olmamaqla çox yüksək ehtimalı var.

Yeni bir mesaj gəldikdə, Bayesian spam filtrləri tərəfindən təhlil edilir və tam mesajın spam olma ehtimalı fərdi xüsusiyyətlərdən istifadə edilir.

Bir mesajda "Cartesian" və "toner" də var. Bu sözlərdən təkcə spam və ya qanuni poçt olub-olmadığını hələ dəqiq bilmir. Digər xüsusiyyətlər (ümid edirəm ki, çox güman ki) filtrə mesajı spam və ya yaxşı poçt kimi təsnif etməyə imkan verən bir ehtimal olduğunu göstərir.

Bayesian Spam Filtrləri Avtomatik olaraq məlumat əldə edə bilər

İndi bir təsnifatımız var ki, mesaj filtrin özünü daha da yetişdirmək üçün istifadə edilə bilər. Bu halda ya yaxşı mail göstərən "Cartesian" ehtimalı azaldılır ("Cartesian" və "toner" ifadəsini spam olduğu halda) və ya spam göstərən "toner" ehtimalı yenidən nəzərdən keçirilməlidir.

Bu avto-adaptiv üsulu istifadə edərək, Bayesian filtrləri həm özlərinin, həm də istifadəçi qərarlarından öyrənə bilər (əl ilə filtrlər tərəfindən səhv bir qərarı düzəldərsə). Bayesian filtrləşməsinin uyğunlaşması da fərdi e-poçt istifadəçiləri üçün ən təsirli olduğundan əmin olur. Çox insan spamının oxşar xüsusiyyətlərə malik olmasına baxmayaraq, qanuni poçt hər kəs üçün xarakterikdir.

Spammers keçmiş bayes filtrlərini necə ala bilər?

Daimi poçtun xüsusiyyətləri spam kimi Bayesian spam filtrasiya prosesi üçün də vacibdir. Filtrlər xüsusi olaraq hər bir istifadəçi üçün təlim edildikdə, spamerlər hər kəsin (və hətta insanların əksəriyyətinin) spam filtreləri ətrafında işləyən daha çətin vaxta sahib olacaqlar və filtreler demək olar ki, hər şeyə spam göndərməyə cəhd edə bilərlər.

Spammerlər yalnız spam mesajlarını hər kəsin ala biləcəyi adi e-poçt kimi mükəmməl bir görünsələr, yaxşı təlim keçmiş Bayes filtrlərini keçəcəklər.

Spammerlər adətən belə adi e-poçt göndərmirlər. Gəlin, bu e-məktublar istenmeyen e-poçt kimi işləmədiklərini düşünün. Belə ki, adi, darıxdırıcı e-poçt spam filtrlərindən keçmək üçün yeganə yoldur, şansını onlar bunu etməyəcəklər.

Spammerlər əsasən görünüşlü e-poçtlara keçsələr, yenə də gələnlərimizdə bir çox spam görəcəyik və e-poçt əvvəlcədən Bayesian günlərində (və ya daha pis) olduğu kimi sinir ola bilər. Həm də spamın ən çox növləri üçün bazarı pozub, uzun müddət davam edəcək.

Güclü Göstəricilər Bayesian Spam Filter ola bilər Axilles & # 39; Daban

Bir istisna, spamerlər üçün normal istəklərinə baxmayaraq Bayesian filtrləri vasitəsilə işləmək üçün qəbul edilə bilər. Bayesian statistika xarakterində ki, yaxşı bir məktubda çox tez-tez görünən bir söz və ya xarakterikdir ki, istənilən mesajı spam kimi görünmədən filtr kimi hamar kimi qiymətləndirmək üçün əhəmiyyətli ola bilər.

Spammerlər, əmin-yanan yaxşı məktub sözlərinizi təyin etmək üçün bir yol tapırsa - məsələn, açdığınız mesajlarınızı görmək üçün HTML qaytarılmalarını istifadə edərək, onlardan birini istənməyən bir poçta daxil edə bilər və hətta birbaşa, Bayesian filtrinə təlimat verdilər.

John Graham-Cumming, iki Bayesian filtrinin bir-birinə qarşı işləməsini, "yaxşı" süzgəcdən keçmək üçün hansı mesajlara uyğunlaşdığını "pis" bir şəkildə bildirməyi sınadı. Onun sözlərinə görə, bu proses vaxt aparan və mürəkkəbdir. Ən azı böyük miqyasda baş verən hadisələrin çoxunu görəcəyik və fərdlərin e-poçt xüsusiyyətlərinə uyğun gəlməyəcəyik. Spammers (cəhd etmək üçün) təşkilatların bəzi açar sözlərini (əvəzində IBM-də bəzi adamlar üçün "Almaden" kimi bir şey) müəyyən edə bilərlər.

Adətən, spam həmişə adi poçtdan fərqlənir və ya spam olmayacaqdır.

Bottom Line: Bayesian Filtering & Strength onun zəifliyi ola bilər

Bayesian spam filtreləri məzmun əsaslı filtrelərdir :