Apa Sampeyan Kudu Ngerteni About Spam Filtering Bayesian

by Heinz Tschabitscher

Ngerteni carane statistik bantuan njaga kothak mlebu

Filter-filter spam Bayesian ngétung kemungkinan pesen kang spam adhedhasar isine. Boten kados saringan basis isi ingkang prasaja, penyaringan spam Bayesian sinau saking spam lan saking mail ingkang sae, lan mupangataken pendekatan anti-spam ingkang cekap, adaptif lan cekap, ingkang paling sae, ngasilaken positip palsu.

Carane Ngerteni Email Junk?

Coba delengen carane ndeteksi spam . Mirit cepet asring cukup. Sampeyan ngerti apa spam kaya, lan sampeyan ngerti email apik kaya.

Kemungkinan spam looking like mail apik iku watara ... nol.

Filter-Filter Content-Based ora nyetel

Apa ora dadi gedhe yen filter spam otomatis uga kaya mangkono?

Ngetokaké filter saringan berbasis konten nyoba mung kuwi. Dheweke nggoleki tembung lan ciri liyane sing khas spam. Saben unsur karakteristik diwenehi skor, lan skor spam kanggo kabeh pesen diitung saka skor individu. Sawetara filter scoring uga golek ciri mail sah, ngedhunake skor final pesen.

Pendekatan filter scoring ora bisa digunakake, nanging uga nduweni sawetara kekurangan:

Dhaftar karakteristik dibangun saka spam (lan email apik) sing kasedhiya kanggo para insinyur filter. Kanggo ngerteni apa sing bisa ditampa spam sing khas, mail kudu dikumpulake ing atusan alamat email. Iki uga ngeculake efisiensi saringan, utamane amarga ciri sing apik kanggo mail bakal beda kanggo saben wong , nanging ora ditrapake.
Karakteristik kanggo nggoleki luwih diset ing watu . Yen spammers nggawe gaweyan kanggo ngganti (lan nggawe spam sing katon kaya surat apik kanggo filter), karakteristik penyaringan kudu di-tweak kanthi manual - usaha sing luwih gedhe.
Skor sing ditugasake kanggo saben tembung mungkin adhedhasar perkiraan apik, nanging isih ana. Lan kaya dhaptar karakteristik, ora adaptasi sanadyan dunya ganti spam sacara umum utawa kabutuhan pangguna.

Bayesian Spam Filter-filter Ngapain Dhewe, Njupuk Luwih lan Luwih

Filter-filter spam Bayesian uga nyorot saringan basis isi. Pendekatane ora adoh karo masalah saringan spam sing prasaja, sanadyan, lan ora kaya radikal malih. Amarga kelemahan saringan scoring ana ing karakteristik dhaptar sing dibangun kanthi manual lan skor, daftar iki ilang.

Nanging, saringan spam Bayesian mbentuk daftar kasebut. Saenipun, sampeyan miwiti nganggo (gedhe) akeh email sing wis diklasifikasikake minangka spam, lan akeh email sing apik. Filter-filter kasebut katon ing loro lan nganalisa mail sah uga spam kanggo ngetung kemungkinan saka macem-macem karakteristik sing muncul ing spam, lan ing mail apik.

Carane Filter Spam Bayesian Memeriksa Email

Ciri-ciri panyaring spam Bayesian sing bisa katon yaiku:

tembung ing awak pesen, mesthi, lan
header (ngirimake lan path pesen , contone!), nanging uga
aspek liyane kayata kode HTML / CSS (kaya werna lan format liyane), utawa malah
pasangan tembung, frase lan
informasi meta (umpamane tembung tartamtu katon, umpamane).

Yen tembung, "Cartesian", umpamane, ora katon ing spam nanging asring ing email sing sah sing ditampa, kemungkinan "Cartesian" nuduhake spam cedhak nol. "Toner", ing sisih liyane, katon sacara eksklusif, lan asring, ing spam. "Toner" nduweni kemungkinan dhuwur banget ditemokake ing spam, ora luwih saka 1 (100%).

Nalika pesen anyar teka, dianalisis dening panyimpenan spam Bayesian, lan probabilitas pesen sing lengkap dadi spam dianggep nggunakake karakteristik individu.

Anggepake pesen sing ngemot "Cartesian" lan "toner". Saka tembung kasebut piyambak durung jelas yen kita duwe spam utawa alamat email. Karakteristik liyane bakal (muga-muga lan paling mbokmenawa) nunjukake kemungkinan sing ngidini filter kanggo nglasifikasikake pesen minangka spam utawa surat apik.

Spam Filter Bayesian Bisa Sinau Kanthi otomatis

Saiki kita duwe klasifikasi, pesen bisa digunakake kanggo nglatih panyaring dhewe luwih lanjut. Dadi, kamungkinan "Cartesian" sing nuduhaké mail apik diturunaké (menawa pesen sing ngandhut "Cartesian" lan "toner" ditemokake spam), utawa kemungkinan "toner" sing nuduhaké spam kudu dipertimbangkan maneh.

Nggunakake teknik otomatis-adaptif iki, saringan Bayesian bisa sinau saka kaputusan dhewe lan pangguna (yen dheweke kanthi manual nguripake kesalahan misahake saringan). Adaptasi panyimpenan Bayesian uga ndadekake yen paling efektif kanggo pangguna email individu. Nalika spam wong sing paling akeh nduweni ciri sing padha, surat sing sah sing beda kanggo kabeh wong.

Carane Bisa Spammers Nampa Bayesian Filter-filter?

Karakteristik surat sah minangka penting kanggo proses panyaring spam Bayes minangka spam. Yen filter wis dilatih khusus kanggo saben pangguna, spammers bakal duwe wektu luwih angel nggarap saringan spam kabeh wong (utawa malah paling), lan saringan bisa adaptasi karo kabeh spammers nyoba.

Spammers mung bakal nggawe saringan Bayesian sing dilatih kanthi apik yen bakal ngatonake pesen spam kaya email biasa sing bisa diwenehake kabeh.

Spammer ora biasa ngirim email biasa kuwi. Ayo kita nganggep iki amarga email iki ora bisa digunakake minangka email sampah. Dadi, kemungkinan sing ora bakal dilakoni nalika email biasa, sing boros mung cara kanggo nggawe filter spam sing kepungkur.

Yen spammer ngalih menyang email sing paling umum, nanging, kita bakal weruh akeh spam ing Inbox kita maneh, lan email bisa dadi frustrasi kaya ing dina pra-Bayesian (utawa malah luwih abot). Sampeyan uga bakal ngrusak pasar kanggo macem-macem jinis spam, sanadyan, lan kanthi mangkono bakal ora tahan suwe.

Indikator Kuwat bisa dadi Achilles & # 39; s Filter Spam Bayesian Heels

Siji pangecualian bisa ditemokake kanggo spammers kanggo nglakoni kanthi cara liwat panyaring Bayesian malah karo isi sing biasanipun. Ing jinis statistik Bayesian, siji tembung utawa karakteristik sing kerep banget katon ing surat sing apik bisa dadi wujud utamane kanggo nguripake pesen saka spam kaya sing ditemtokake minangka filter.

Yen spammers nemokake cara kanggo nemtokake tembung-tembung sing bisa dipercaya kanthi cepet-nggunakake kuitansi bali HTML kanggo ndeleng pesen-pesen sing dibukak, contone-, sampeyan bisa nyakup salah sijine wong ing surat ajur lan bisa tekan sampeyan liwat sing apik, dilatih Bayesian filter.

John Graham-Cumming wis nyoba iki kanthi ngeculake saringan Bayesian loro sing saling gegandhèngan, sing "ala" nyalarasaké karo pesen sing ditemokaké liwat filter "apik". Dheweke ngomong yen kerjane, senadyan proses iki akeh wektu lan kompleks. Kita ora mikir kita bakal ndeleng akeh sing wis kedadeyan, paling ora ing skala gedhe, lan ora disesuaikan karo karakteristik email individu. Spammers bisa (nyoba kanggo) nemtokake sawetara tembung kunci kanggo organisasi (kaya "Almaden" kanggo sawetara wong ing IBM Mungkin?) Tinimbang.

Biasane, spam bakal tansah (beda) saka email reguler utawa ora bakal spam, sanadyan.

Ing Line ngisor: Strength Filtering Bayesian Bisa Kelemahane

Filter-filter spam Bayesian yaiku saringan basis isi sing:

utamané dilatih kanggo ngenali spam panganggo email individu lan surat sing apik , nggawe wong sing efektif banget lan angel diadaptasi kanggo spammer.
bisa terus-terusan lan tanpa gaweyan manual utawa analisis manual kanggo ngganti trik paling anyar spammers.
njupuk mail apik panganggo saben pangguna lan tingkat positif banget sing salah .
Sayange, yen iki nyebabake kepercayaan buta marang filter anti-spam Bayesian, kasalahan iki malah luwih serius . Efek ngelawan saka negatif palsu (spam sing katon persis kaya surat biasa) nduweni potensial kanggo ngganggu lan ngeculke pangguna.