Būdas paremtas tikimybių teorija; nepageidaujamiems reklamos laiškams filtruoti naudojamas Bejeso algoritmas.
Nepageidaujami reklaminiai el. laiškai („spam“) jūsų pašto dėžutėje – viena rimčiausių problemų pasauliniame kompiuterių tinkle. Jiems skaityti ir trinti leidžiama didelė dalis darbo dienos laiko, o šiandien egzistuojantys filtrai, deja, toli gražu nėra tobuli. Neretai pasitaiko atvejų, kai įkyri reklama prasibrauna pro filtrų apsaugą, o įprasti normalūs laiškai, atvirkščiai, paliekami nepageidaujamų laiškų segtuve. Mažai šiukšlių siuntinėtojus įbaugina teismai ir baudžiamosios bylos, leidžiami vis griežtesni įstatymai, pateikiami milijoniniai ieškiniai.
Nepaisant filtrų „nesėkmių“, jie nuolatos yra tobulinami. Pavyzdžiui, amerikiečių programuotojas dėstytojas Polas Gremas paskelbė internete
straipsnį, kuriame pasakoja apie gana efektyvų kovos su įkyria reklama metodą. Minėtasis metodas paremtas tikimybių teorija ir nepageidaujamiems reklamos laiškams filtruoti naudoja Bejeso algoritmą.
 |
Šiais laikais didelė dalis filtrų iš laiškų srauto išskiria nepageidaujamas šiukšles remdamiesi tam tikrais simbolių rinkiniais. Tai gali būti žodžiai arba jų junginiai, ištisi sakiniai arba HTML žymės. Tokie metodai gali būti gana efektyvūs. Štai P. Gremo sukurtas paprastas filtras aptiko 79,7 proc. reklamos; tik 1,2 proc. normalių laiškų priskirti nepageidaujamųjų grupei.
Šios sistemos tobulinimas tapo gana sudėtingu uždaviniu. Gremas jam išspręsti pašventė daugiau nei pusantrų darbo metų, kol pagaliau jam į galvą šovė mintis reklamai filtruoti panaudoti statistinius algoritmus. Gremo sukurtame filtro prototipe kiekvienam el. laiškuose sutinkamam žodžiui arba žymėms pritaikoma tikimybių teorija. Šių tikimybių pagrindu, naudojantis Bejeso algoritmu, išskiriama tikimybė, ar gali konkretus laiškas būti reklaminė medžiaga.
 |
Didelė tikimybė, kad reklama bus palaikyta ne tik pamėgti šiukšlintojų žodžiai, kaip antai, „sexy“ arba „promotion“, bet ir netikėtas, iš pirmo žvilgsnio, junginys ff0000 – ryškiai raudonos spalvos HTML kodas. Atitinkamai yra menka tikimybė, kad tarptautiniai terminai arba profesionalų žodžiai, retai vartojami reklamose, bus palaikyti nepageidaujamų laiškų turiniu (pvz., „standartization“ arba „mandatory“).
Išbandydamas nepageidaujamų laiškų filtravimo sistemą, Gremas joje patikrino 8000 laiškų, kurių pusė buvo šiukšlės. Pro filtrus prasprūdo tik 0,5 proc. reklaminių pranešimų.
Gremo nuomone, kad sistema iš tiesų veiktų nepriekaištingai, ji privalo būti reguliuojama individualiai, kadangi terminologija, vartojama susirašinėjant el. laiškais įvairių žmonių, skiriasi. Jeigu vartotojas reguliariai žymės reklaminius laiškus kaip nepageidaujamą reklamą, tada reklama sukaups pakankamai informacijos, kad galėtų efektyviai filtruoti el. paštą.
Gremas sukūrė savo filtro variantą jo paties sukurta „Arc“ kalba (LISP variantas). Entuziastų grupė šiuo metu dirba su
spambayes projektu. Jo tikslas – nepageidaujamų el. laiškų filtro kūrimas Bejeso algoritmo ir „Python“ kalbos pagrindu.