Wykrywanie Spamu

Jak wykrywać spam w e-mailachKrzysztof Bańkowski

Maciej Łukasik

Stanisław Małolepszy

14 kwietnia 2008, Warszawa

Plan wystąpienia

Dlaczego walczymy ze spamem?

Metody wykrywania spamu

Zasady działania filtrów bayesowskich

Demonstracja

Zalety i podsumowanie

Dlaczego walczymy ze spamem?

$ 20 000 000 000

Dlaczego spam jest szkodliwy?

powoduje zatykanie się łącz, marnuje miejsce na twardych dyskach oraz spowalnia serwery

strata czasu dla użytkowników Internetu; utrudnia czytanie „normalnej” poczty i stwarza ryzyko jej utraty (np. z powodu blokad antyspamowych)

narusza prywatność i bezpieczeństwo odbiorców

spam wiąże się często z różnego rodzaju wirusami i innymi złośliwymi programami

Najwięksi spamerzy

USA Korea Pd.Chiny RosjaBrazylia FrancjaNiemcy TurcjaPolska Wlk. BrytaniaRumunia MeksykInne

Metody wykrywania spamu

Skargi do dostawców internetu

zalety: nieskomplikowana metoda, podnosi koszty spamowania

wady: metoda pracochłonna i mało skuteczna, czasami trudno rozpoznać dostawcę spamera

znaczenie: częściowe rozwiązanie, dla ekspertów, nie dla użytkowników indywidualnych

Mail server blacklist

zalety: blokowanie spamu już na etapie serwera

wady: rozwiązanie inwazyjne, niekompletne i często nieodpowiedzialne

znaczenie: pozwala zatrzymać 50% maili wychodzących

Signature-based filtering

zalety: sporadycznie blokuje dobre maile

wady: skuteczność w wychwytywaniu spamu tylko na poziomie 50-70%

znacznie: pierwszy duży filtr antyspamowy na wielkich serwisach emailowych, np. Brightmail Antispam

Rule-based filtering (filtr heurystyczny)

zalety: wykrywa nawet 90-95% spamu, prosty do obsługi dla użytkownika

wady: stosunkowo dużo dobrych maili odrzuconych (false positive), zróżnicowana skuteczność

znaczenie: tak wyglądała walka ze spamem do 2002 roku, obecnie np. Spamassasin

Challenge-response filtering

zalety: skuteczny w 99,9%

wady: irytujący, powoduje opóźnienia w dostarczaniu maili oraz często doprowadza do niedostarczenia poczty

znaczenie: kompromituje osobę używającą narzędzi tego typu

Filtry Bayesowskie

zalety: wychwytuje od 99% do 99,9% spamu, niska ilość maili zakwalifikowanych jako false positive

wady: wymaga od użytkownika odrobiny wysiłku

znaczenie: obecnie najlepsze rozwiązanie dla użytkowników indywidualnych, np. SpamProbe

Zasady działania filtrów bayesowskich

Problem – klasyfikacja dokumentu

Budowa modelu probabilistycznego, który klasyfikowałby nowe dokumenty

Założenie

Poszczególne klasy są znane (S, H)

Budowa modelu

Zbieranie i przygotowanie danych

Właściwa budowa modelu (uczenie)

Testowanie modelu

Zastosowanie do klasyfikacji nowych dokumentów

Występowanie słów w nagłówkuDuża liczba adresatówTen sam adresat, różne domeny

Występowanie słów w tekścieObecność znaków specjalnych

Brak tematu wiadomościGodzina rozsyłania

Tokenizingprzekształcenie dokumentu w wektor atrybutów

Header tokens Body tokensSynthetized

tokens

Składowe wektora oparte o atrybuty (występowanie – zdarzenie losowe)

Podejście 1: występowanie atrybutu, wartości składowych → (0, 1)

Rozkład dwupunktowy

Podejście 2: ilość wystąpienia atrybutu, wartości składowych → (0, 1, 2, …)

Rozkład Poissona

Sieć Bayesowska

Definicja

acykliczny graf skierowany złożony z węzłów i łączących je krawędzi – dobre rozwiązanie do przedstawienia łącznego rozkładu prawdopodobieństwa dla wszystkich atrybutów

Sieć Bayesowska

Topologia

Węzły – zmienne losowe

Krawędzie – bezpośrednie zależności (każda zmienna niezależna warunkowo od niepotomków)

Tablica prawdopodobieństw – dla każdego węzła zdefiniowana tablica prawdopodobieństw warunkowych pod warunkiem jego rodziców

Zastosowanie do klasyfikacji

Sieć zawiera węzeł C (oznaczenie klasy) oraz węzeł Xi (atrybut)

Sieć Bayesowska

X1 X2 X3 Xn

Klasyfikator Naive Bayes

Podejście 1: algorytm

Reprezentacja k dokumentów, atrybuty (t1, …, tm):

Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).

Nij – występowanie atrybutu ti w dokumencie dj

Jak przyporządkować nowy dokument dj?

Spam czy Ham?

Twierdzenie Bayesa Warunkowa niezależność zdarzeńProcent dokumentów klasy S posiadających

atrybut xi

Procent dokumentów klasy S spośród

wszystkich dokumentów

Reprezentacja k dokumentów, atrybuty (t1, …, tm):

Potrafimy przyporządkować d1, d2,…, dk do klas (S, H).

Nij – liczba wystąpień atrybutu ti w dokumencie dj

Jak przyporządkować nowy dokument dj?

Spam czy Ham?

Wszystkie kolejności każdego atrybutuWszystkie kolejności wszystkich atrybutów

Demonstracja

MS Excel

SpamBayes

SpamBayes – skuteczność

SpamBayes – skuteczność poprzedniej wersji

Zalety i podsumowanie

Analizowanie wielu czynników na raz

Nadawca, temat

Słowa kluczowe (“złe” i “dobre”)

Czas, który upłynął między wysłaniem a dostarczeniem wiadomości

Ciągły proces uczenia

Filtry bayesowskie obliczają prawdopodobieństwo zdarzenia, że:

wiadomość jest spamem, oraz

wiadomość jest pożądanym e-mailem

Viagra – jak wielu Waszych znajomych używa tego słowa w e-mailach do Was?

A jak wielu używa słowa V1agra?

Dostosowanie do profilu użytkownika

Nie każdy e-mail, który zawiera słowa cash i client jest spamem – szczególnie, jeśli jesteśmy firmą

Filtry bayesowskie dostosowują się do profilu użytkownika

Wsparcie dla wielu języków

Dzięki procesowi uczenia, filtry sprawdzają się w pracy na wielu językach

Uwaga: języki o skomplikowanej gramatyce mogą stwarzać problemy (trudna lematyzacja)

Skomplikowana technologia

Trudno przechytrzyć filtr bayesowski

Używanie niewielu typowo spamerskich słów

Dodawanie treści spersonalizowanych pod użytkownika (bardzo trudne dla spamerów)

Dodawanie fragmentów książek, poezji, Biblii

Dziękujemy za uwagęCreative Commons 2.5 BY-NC-SA

Wykrywanie Spamu

Education

Transcript of Wykrywanie Spamu

Wczesne wykrywanie wad wzroku - rpo.malopolska.pl · Zmysł wzroku jest podstawowym narzędziem poznawczym człowieka i umożliwia jego rozwój. Uszkodzenie lub nieprawidłowa funkcja

· Web viewI. WPROWADZENIE . Projekt i Kampania. Zamawiający prowadzi Program polityki zdrowotnej pn. Pilotażowy program profilaktyki nowotworów wątroby poprzez wczesne wykrywanie

· Zdalne wykrywanie materiałów wybuchowych metodą LIBS ... Technologia zespołów membrana-elektroda (MEA) o zwiększonej wydajności dzięki zastosowanej aktywacji

Wykrywanie miejsc suchych w kompozytach

Joanna Palacz, Bożena Bełkotbazhum.muzhp.pl/media//files/Nauczyciel_i_Szkola/... · więc, we współczesnej edukacji, wczesne wykrywanie opóźnień rozwojowych. ... Witamy tych,

Specjalność (studia I stopnia) Oczyszczanie i analiza ... · • Toksykologia –wykrywanie skażeń, monitorowanie środowiska, ochrona środowiska • Podstawy syntezy leków

Spotkanie Wykrywanie nadużyć i identyfikacja Ryzyka€¦ · 11:00 – 12:00 Zarządzanie Ryzykiem Nadużyć w przedsiębiorstwie • Identyfikowanie i dokonywanie oceny poziomu

Chemia analityczna - home.umk.plkesy/Analiza_chemiczna/Wyklad5_SAD.pdf · Chemia analityczna to dziedzina interdyscyplinarna, zajmującą si ... wykrywanie śladów materiałów wybuchowych

Wprowadzenie docsystemów informacyjnych€¦ · Zabezpieczenia fizyczne Monitorowanie i wykrywanie awarii Procedury kryzysowe, awaryjne i DRP ... pośrednictwem wirusów komputerowych)

Wykrywanie złośliwego oprogramowania na żądaniepliki.gdata.pl/partner/testy/AVComparatives-Sierpien...• Trustport 3 Antivirus 5.0.0.4134 Zanim podejmą Państwo decyzję o zakupie

Profilaktyka i wczesne wykrywanie osteoporozy pierwotnej w ......2003/10/18 · Profilaktyka i wczesne wykrywanie osteoporozy pierwotnej w ramach programów polityki zdrowotnej Raport

CENTRUM MEDYCZNE KSZTA - cmkp.edu.pl• Patofizjologia i diagnostyka różnicowa chrypki i dysfonii - wczesne wykrywanie zmian nowotworowych krtani. • Klinika zaburzeń głosu (dysfonie

Section 13700 - Detection and Alarmresource.boschsecurity.com/documents/Bosch_B9512G_B8512G... · Web viewSEKCJA 13700 WYKRYWANIE I ALARM Systemy alarmowe B9512G i B8512G Aby włączyć

OSPF - Katedra Teleinformatykikti.eti.pg.gda.pl/ktilab/routeros-routingip/Wyklad-RoutingOSPF.pdf · Routing • Wykrywanie sąsiadów • Tworzenie LSA(Link State Announcement) •

Wykrywanie autyzmu u dzieci z zaburzeniami w rozwoju.poradnia.powiatbl.pl/images/pliki/3konferencja/prezentacja.pdf · Autyzm z wysokim poziomem funkcjonowania (High Functioning Autism

Wczesne wykrywanie czynników biologicznych w warunkachcresz.wp.mil.pl/plik/file/Epimilitaris2014/Prezentacje/S.McKinney_PL.pdf · Chicago Department of Public Health Commissioner

Wykrywanie włamań i aktywna ochrona danych

Wykrywanie Dzielenia Lacza Pl

Wydział Informatyki Politechniki Poznańskiejfc.put.poznan.pl › materials › 139-wykrywanie-atakow.pdf · shadowserver.org I n6.cert.pI . Toolbox Memory analysis Data acquisition

Wykrywanie błędów merytorycznych w JPK. · JPK, które w sposób automatyczny wykrywają anomalie i nieprawidłowościw ewidencji VAT, identyfikującpotencjalne błędy. JPK Insight