Какво трябва да знаете за Bayesian Spam Filtering

by Хайнц Тшабичър

Разберете как статистическите данни поддържат вашата пощенска кутия чиста

Bayesian спам филтрите изчисляват вероятността съобщението да е спам въз основа на съдържанието му. За разлика от обикновените филтри, базирани на Bayesian филтриране на спам се научават от спам и от поща, което води до много стабилен, адаптивен и ефективен антиспам подход, който най-добре връща едва ли неверни положителни резултати.

Как разпознавате нежелания имейл?

Помислете как откривате спам . Един бърз поглед често е достатъчен. Знаете как изглежда спамът и знаете каква добра поща изглежда.

Вероятността от спам, изглеждащ като добра поща, е около ... нула.

Оценяването на филтри, базирани на съдържание, не се адаптира

Не би ли било чудесно, ако автоматичните спам филтри работят така?

Оценяването на филтри за спам, базирани на съдържание, се опитва точно така. Те търсят думи и други характеристики, характерни за спама. На всеки характерен елемент се дава оценка, а от отделните оценки се изчислява спам резултат за цялото съобщение. Някои филтри за оценяване също търсят характеристики на законната поща, като понижават крайния резултат на съобщението.

Подходът за класиране на филтри работи, но има и няколко недостатъка:

Списъкът с характеристиките е изграден от спам (и добрата поща) на разположение на инженерите на филтъра. За да получите добро разбиране за типичния спам, който някой може да получи, пощата трябва да бъде събрана на стотици имейл адреси. Това отслабва ефективността на филтрите, особено защото характеристиките на добрата поща ще бъдат различни за всяко лице , но това не се взема под внимание.
Характеристиките, които трябва да търсите, са повече или по-малко поставени в камък . Ако спамерите полагат усилия да се адаптират (и да направят своя спам да изглежда като добра поща на филтрите), характеристиките на филтриране трябва да бъдат променени ръчно - още по-големи усилия.
Оценката, определена за всяка дума, вероятно се основава на добра оценка, но тя все още е произволна. И като списъка с характеристики, той не се адаптира нито към променящия се свят на спам като цяло, нито към нуждите на отделния потребител.

Bayesian Spam Filters Ощипвам се, стават по-добри и по-добри

Бейсйедските филтри за спам са вид на филтри, базирани на съдържанието. Техният подход обаче премахва проблемите, свързани с простичките сканиращи филтри за спам, и това става радикално. Тъй като слабостта на оценяващите филтри е в ръчно изградения списък с характеристики и техните резултати, този списък се елиминира.

Вместо това, Bayesian spam filters създават самия списък. В идеалния случай започнете с (голям) куп имейли, които сте класифицирали като спам, и друг куп добри пощи. Филтрите разглеждат и двете и анализират законната поща, както и спама, за да изчислят вероятността от различни характеристики, които се появяват в спам и в добра поща.

Как един Bayesian спам филтър разглежда един имейл

Характеристиките, които може да се разглеждат от Bayesian спам филтър, могат да бъдат:

думите в тялото на посланието, разбира се, и
нейните заглавия (например подателя и пътечките за съобщения ), но също така
други аспекти като HTML / CSS код (като цветове и други формати) или дори
двойки думи, фрази и
метаинформация (където се появява конкретна фраза например).

Ако например думата "картезианска" никога не се появява в спам, но често в легитимния имейл, който получавате, вероятността "картезиански" да показва спам е почти нула. "Тонер", от друга страна, се появява изключително и често в спам. "Тонер" има много голяма вероятност да бъде намерен в спам, не много под 1 (100%).

Когато пристигне ново съобщение, той се анализира от Bayesian spam filter, а вероятността пълното съобщение да бъде спам се изчислява, като се използват индивидуалните характеристики.

Да приемем, че едно съобщение съдържа както "картезиански", така и "тонер". Само от тези думи все още не е ясно дали имаме спам или законна поща. Другите характеристики (надяваме се и най-вероятно) показват вероятност, която позволява на филтъра да класифицира съобщението като спам или добра поща.

Bayesian спам филтрите могат да се научат автоматично

Сега, когато имаме класификация, посланието може да се използва за допълнително обучение на самия филтър. В този случай или вероятността за "картезианска" индикация за добра поща се понижава (ако съобщението, съдържащо "картезиански" и "тонер", се окаже спам), или вероятността от "тонер", показваща спам, трябва да бъде преразгледана.

Използвайки тази автоматична адаптираща техника, Bayesian филтрите могат да се научат както от собствените си, така и от решенията на потребителя (ако ръчно коригира грешно преценка от филтрите). Адаптивността на Bayesian филтрирането също така гарантира, че те са най-ефективни за индивидуалния потребител на имейли. Докато спамът на повечето хора може да има подобни характеристики, законната поща е характерно различна за всички.

Как могат да бъдат изтеглени спамерите байейски филтри?

Характеристиките на законната поща са също толкова важни за процеса на филтриране на спам от Бейс, колкото е спамът. Ако филтрите са обучени специално за всеки потребител, спамерите ще имат още по-трудно време да работят около филтрите за спам на всеки (или дори на повечето хора), а филтрите могат да се приспособят към почти всичко, което спамърите правят.

Спамерите ще преминат през добре обучени Bayesian филтри, ако направят своите спам съобщения да изглеждат перфектно като обикновения имейл, който всеки може да получи.

Спамерите обикновено не изпращат такива обикновени имейли. Нека предположим, че това е така, защото тези имейли не работят като нежелана поща. Така че шансовете са, че няма да го правят, когато обикновените, скучни имейли са единственият начин да го накарате да мине през филтри за спам.

Ако обаче спамерите превключват на повечето обикновени имейли, ще видим още много спам в "Входящи", а електронната поща може да стане толкова разочароващо, колкото в предибийските дни (или дори по-лошо). Също така ще разруши пазара за повечето видове спам, и по този начин няма да продължи дълго.

Силни индикатори може да бъде Bayesian Spam филтър "Ахил" Пета

Едно изключение може да се възприеме за спамерите, които да проправят пътя си през Bayesian филтри, дори и с обичайното си съдържание. От естеството на байейската статистика е видно, че една дума или характеристика, която много често се появява в добрата поща, може да бъде толкова значима, че да превърне всяко съобщение, което изглежда като спам, да бъде оценено като шунка от филтъра.

Ако спамерите намерят начин да установите вашите думи със сигурност, че сте сигурни за пощата си - като използвате кореспонденции с HTML за връщане, за да видите кои съобщения сте отворили например, те могат да включват един от тях в нежелана поща и да достигнат до вас дори чрез добре- обучен Bayesian филтър.

Джон Греъм-Къминг е опитал това, като е оставил два Bayesian филтъра да работят един срещу друг, "лошият", адаптирайки се към съобщенията, за които е установено, че преминават през "добрия" филтър. Той казва, че работи, макар че процесът отнема много време и е сложен. Не мислим, че ще видим голяма част от това, най-малкото не в голям мащаб, и не са съобразени с характеристиките на електронната поща на отделните хора. Спамерите могат да опитат да разберат някои ключови думи за организациите (нещо като "Алмаден" за някои хора в IBM може би?).

Обикновено спамът винаги ще бъде (значително) различен от обикновената поща или няма да бъде спам.

Долната линия: Силата на Bayesian Filtering може да бъде нейната слабост

Бейсските филтри за спам са филтри , базирани на съдържание, които:

са специално обучени да разпознават спам и добра поща на отделния потребител на електронна поща , което ги прави изключително ефективни и трудно се адаптират към спамерите.
може непрекъснато и без много усилия или ръчен анализ да се адаптира към най-новите трикове на спамерите.
да вземе предвид добрата поща на отделния потребител и да има много ниска честота на фалшиви позитиви .
За съжаление, ако това води до сляпо доверие в Bayesian анти-спам филтри, това прави грешката понякога още по-сериозна . Обратният ефект от фалшивите негативи (спам, който изглежда точно като обикновената поща) има потенциал да обезпокои и осуети потребителите.