Come funzionano i filtri antispam

Argomenti:
Pubblicato il: 02-05-2021 10:35 , Ultimo aggiornamento: 02-05-2021 11:05

Al giorno d’oggi chiunque dispone di almeno un account di posta elettronica: ne usiamo uno per il lavoro ed uno per uso personale, di solito. Lo facciamo sempre con l’obiettivo comune di effettuare l’invio e la ricezione di messaggi entro pochi secondi, e non mancano casi d’uso di ogni tipo: personali, lavorativi, organizzativi e così via. Se usassimo la posta tradizionale, del resto, i tempi di consegna/notifica sarebbero decisamente più lunghi! La comodità delle email emerge ormai in modo chiaro dal fatto che sono gratuite, e che possiamo aprirne quante ne vogliamo, facendone uso per comunicazioni di ogni genere.

Ma c’è anche il problema dello spam: buona parte del traffico email sembrerebbe essere composto da email indesiderate e spesso automatizzate, che non c’è modo di filtrare all’origine – e di cui i cosiddetti filtri antispam, di cui sono dotati la maggioranza delle email sia commerciali o aziendali che gratuite, sono automaticamente dotati. Andiamo quindi a vedere, nello specifico, come funzionano e a cosa servono.

Chiunque abbia una casella delle lettere sotto casa, del resto, riceve quasi certamente sia posta desiderata e indispensabile (le bollette per le utenze, i messaggi dal proprio comune di residenza e via dicendo) che messaggi indesiderati (pizzerie, compra-vendita tra privati, volantini, informative di agenzie immobiliari, pubblicità e via dicendo), problema che tende ad affliggere anche le caselle di posta elettronica.

A cosa servono i filtri antispam?

I filtri antispam filtrano lo spam, ovvero lo inseriscono automaticamente nella casella apposita mediante vari criteri di natura statistica (analizzando il contenuto e individuando una “forma media” di una mail spam) e di machine learning (“parolone” tecnico che indica il fatto che possono essere “addestrati”, a campione, a riconoscere lo spam stesso mediante le varie segnalazioni degli utenti).

Le moderne caselle di posta elettronica devono dotarsi di tale tecnologia, utile quanto complessa: sono tanti i problemi che sono delegati a dover risolvere, tra cui l’effettiva consegna del messaggio, la sicurezza della procedura di invio e la necessità di effettuare lo stesso in modo sicuro e con un minimo di garanzia. C’è anche il problema di non far finire in spam email lecite, cosa che purtroppo può sempre avvenire (anche se in questi casi l’utente può segnalare come email corretta ed addestrare, piano piano, la casella di posta a riconoscere correttamente le situazioni). Tra queste funzionalità il filtro antispam assume un ruolo basilare: aiutare l’utente a distinguere tra invii effettivamente di interesse ed invii automatizzati di pubblicità indesiderata di ogni tipo.

Falsi positivi e falsi negativi

I Filtri antispam possono in genere trovarsi, su base statistica, in quattro casistiche diverse:

  • rilevazione di falsi positivi, ovvero email inviate da amici, clienti e colleghi che vengono “viste” erroneamente come spam;
  • rilevazione di falsi negativi, ovvero email di spam che aggirano il filtro ed arrivano comunque nella posta ordinaria (caso tipico delle email di phishing, ad esempio);
  • i veri positivi, che rappresentano la percentuale di email spam correttamente rilevata;
  • i veri negativi, che rappresentano la percentuale di email spam correttamente rilevata.

Bisogna fare questa distinzione in quattro caso perchè, di fatto, non possiamo mai sapere a priori se una email sia spam o meno, per cui il filtro antispam prova ad “indovinare” la giusta situazione addestrandosi a campione a farlo. I quattri casi sono i soli casi possibili che possono capitare: indovina che una mail è spam o non lo è, sbaglia che è una mail lecito oppure no. I filtri bayesiani, ad esempio, valutano con un algoritmo la probabilità di un evento sulla base di quante volte è già successo: se una email contiene la parola viagra, ad esempio, è più plausibile che sia spam rispetto ad una che non lo contiene. Una logica stringente – quanto inapplicabile, se vogliamo, alla vita reale: non sempre l’esperienza e la storia hanno qualcosa da insegnare! – che ha pero’ decretato il successo dei filtri antispam per la stragrande maggioranza delle caselle di posta.

Recall e precision

Come facciamo a misurare l’efficacia di un filtro antispam? Abbiamo visto quattro casistiche diverse che, tecnicamente parlando, suddividono i filtri antispam sulla base di due parametri, comunemente usati in questo ambito, detti recupero e precisione (più comunemente in inglese chiamati recall e precision).

Intanto la figura seguente chiarisce visivamente il concetto e questa distinzione in quattro caso, di natura statistiche (immagine di pubblico dominio tratta da Wikipedia):

I vari pallini rappresentano le email che vengono processate dal filtro antispam: i falsi negativi sono rappresentati dai pallini a sinistra in nero che non sono stati recuperati, mentre i falsi positivi sono

Precision e recall, a questo punto, rappresentano rispettivamente (basta guardare la freccia che indica cosa rapportare, visivamente):

  1. precision: indicatore percentuale della precisione, per l’appunto, del filtro antispam, espresso come rapporto tra casi di spam rilevati e casi non di spam; La precisione può essere vista come una misura di correttezza del filtro antispam.
  2. recall: indicatore percentuale del richiamo del filtro, espresso in questo caso come rapporto tra casi antispam rilevati come tali rispetto a tutti i casi di effettivo spam. In questo caso abbiamo una misura di completezza del filtro.

In una qualsiasi classificazione statistica, la precision di un filtro antispam rappresenta, in altri termini, il numero di veri positivi (il numero di oggetti etichettati correttamente come appartenenti alla classe omonima) diviso il numero totale di elementi etichettati come appartenenti allo spam. La recall, dualmente, è espressa dal numero di veri positivi diviso il numero totale di elementi che effettivamente appartengono alla “classe” spam.

Le nostre caselle di posta elettronica sono afflitte da spam di ogni genere: gli spammer riescono a trovare il nostro indirizzo a volte mediante malware che spiano nelle rubriche dei nostri amici e conoscenti, altre volte semplicemente dal nostro sito web o per tentativi casuali (provando tutte le combinazioni di caratteri possibili, ad esempio).

Abbiamo visto che c’è un problema: gli indirizzi email di chiunque sono tendenzialmente pubblici, e non tutti i messaggi che riceviamo sono effettivamente gradevoli, desiderabili o utili – molta gente abusa di questa cosa per inviarci pubblicità indesiderate, phishing e così via. In molti casi tendiamo sempre a ricevere mail di spam, che spesso finiscono nell’apposita cartella e (se tutto va bene!) sono filtrati dal server di posta che stiamo usando (e saranno i veri positivi e falsi positivi, per quello che abbiamo visto).

Come fanno ad inviare spam?

Per uno spammer è facile, purtroppo, inviare spam. Ci sono varie tecniche utilizzabili, ma in genere basta dotarsi di un server SMTP (ce ne sono molti sul web senza password, ad esempio), nascondersi dietro TOR o ad un proxy, falsare il mittente mediante spoofing e potrà farci credere di essere chi non è, con risultati spesso problematici.

Se vedete una mail a firma Agenzia delle Entrate, ad esempio, in molti casi potrebbe trattarsi di un caso di spoofing dell’indirizzo e relativo phishing, molto subdolo – e diffuso periodicamente anche in Italia (gli enti pubblici di amministrazione comunicano raramente via email, preferendo altre forme di comunicazione come le raccomandate A/R o le PEC).

Come filtrare lo spam della posta elettronica?

Per risolvere il problema dello spam, come abbiamo visto, i server di posta si sono attrezzati di conseguenza: i filtri antispam sono dei processi software automatici, che operano in modo del tutto trasparente rispetto all’uso che ne facciamo, in grado di riconoscere il tipo email che arriva volta per volta. Essi funzionano un po’ come un setaccio, insomma: filtrano i messaggi non desiderati sfruttando vari meccanismi interni, ed è interessante andare a vedere quali essi siano come possano funzionare.

A livello tecnico ci sono vari criteri che possono entrare in gioco nel filtro antispam:

  • un filtro word-based o basato sulle parole, ad esempio, scompone in parole testo e titolo della mail che riceviamo o inviamo, e cerca di individuare parole sospette, titoli click-bait o uso improprio di caratteri come gli emoji. Questo è il filtro più veloce da realizzare, ma è sostanzialmente inefficace: molte parole della lingua italiana sono ambigue, e possono essere usate sia in un contesto che in un’altro. Motivo per cui questi filtri, da soli, non bastano.
  • un filtro bayesiano, che funziona molto meglio: si basa sulle statistiche delle precedenti mail di spam, quindi accumula “esperienza” con l’uso e riceve le segnalazioni da parte degli utenti. Se un messaggio finisce una, due, tre volte in spam, per intenderci, è probabile che la quarta volta finisca automaticamente nella posta indesiderata. L’unico problema di filtri statistici del genere, del resto, è che richiedono un minimo di capacità da parte dell’utente che non tutti possiedono, per cui possono rilevare facilmente “falsi positivi” (mail buone che vengono, per errore o carenze tecniche del mittente, inviate in spam).
  • Per completezza bisogna citare anche i filtri antispam che si basano sull’Intelligenza Artificiale, che sono in grado di effettuare valutazioni sulla forma, sulle semantica della mail e sui pattern tipici dello spam: ma ovviamente, in questo caso, oltre ad esserci un problema di applicabilità a tutti i casi, inizia a sentirsi un problema anche di privacy. Che effetto farebbe, per esempio, sapere che una grande multinazionale come Google “spia” le nostre mail ogni giorno, sia pure per scopi in (formale) buonafede?

Filtrare tutto o non filtrare nulla?

C’è da dire che il problema dei filtri antispam è, ad oggi, relegato ad una serie di valutazioni di convenienza e praticità: se filtriamo troppo poco, in sostanza, per lo spam sarà facile aggirarli. Se invece filtriamo troppo, al contrario, sarà difficoltoso usare in modo produttivo la propria casella di posta, anche se spesso – in quest’ultimo caso – le mail in entrata che finiscono in spam derivano da un problema di blacklist.

Conclusioni: quale servizio di email scegliere?

L’uso di un buon servizio di posta elettronica è in grado di affrontare adeguatamente tutte le problematiche che abbiamo esposto. Da un certo punto di vista, quindi, sarebbe meglio affidare le proprie email – soprattutto in ambiti lavorativi delicati, in cui la riservatezza è necessaria e parte della propria vision aziendale – ad un server di posta che sia dedicato solo a quello, evitando i servizi gratuiti come Gmail che, sia pur funzionali, non è detto che diano la giusta importanza alla riservatezza dei dati ed alle funzioni antispam automatizzate.

Truemail di Seeweb, ad esempio, è il servizio professionale di posta elettronica che è in grado di venire incontro alle suddette esigenze, mettendo a disposizione un filtro antispam dedicato e molto evoluto. Infine, come per le piccole e medie imprese, così come per i liberi professionisti, questa è la scelta che può fare al caso vostro – limitando così le problematiche descritte nell’articolo

5/5 (44)

Che te ne pare?

Grazie per aver letto Come funzionano i filtri antispam di Salvatore Capolupo su Trovalost.it
Come funzionano i filtri antispam (News, Assistenza Tecnica)

Articoli più letti su questi argomenti:

Seguici su Telegram: @trovalost