SmartScreen vs mil millones de newsletters

Como ya os hemos contado en otra ocasión, nuestro servicio de correo gratuíto Hotmail, usa la tecnología SmartScreen para automáticamente identificar mas de mil millones de newsletters todos los días.

Actualmente estas publicaciones periódicas suponen más de un cuarto de todo el correo que recibes en tu bandeja de entrada, tenerlas categorizadas y clasificadas es una manera de ahorrar tiempo.

A continuación te contamos como enseñamos a SmartScreen a identificar no sólo el spam pero también los distintos tipos de correo gis (newsletters) y así ayudar a los usuarios de Hotmail a limpiar sus bandejas de entrada.

 

 

Poniéndonos en antecedentes

En 2006 el correo no deseado suponía más de un cuarto de todo el correo que entraba en las bandejas de entrada de Hotmail, nuestra tarea estaba clara, disminuir radicalmente este porcentaje, y así lo hicimos, y lo dejamos gracias a SmartScreen a menos del 3%.

Con los niveles de spam reducidos a una cifra manejable comenzamos a mirar al resto de la bandeja de entrada y encontramos algo bastante sorprendente:

Podíamos ver qué mensajes eran “persona a persona”, y el spam que traspasaba los filtros. Y al resto del correo que entraba lo denominamos “correo gris”, y comenzamos a pensar cómo poder manejarlo.

La herramienta fundamental contra el mismo era el propio usuario, por ello desarrollamos herramientas que permitieran hacer limpiezas programadas, barridos o maneras especiales de visualizar tu bandeja de entrada entre otros.

Sin embargo estas herramientas dependían de ti. Y todos estamos muy ocupados.

 

Clasificación automática de correo gris

La idea básica era identificar qué tipo de mensaje recibes, antes que tú lo hagas, y proceder a tomar medidas allí donde sea necesario.

Por ejemplo, según el nivel de amenaza, SmartScreen decide si:

- Entregar el mensaje que has recibido, y dejarte a ti la decisión de abrirlo o no.

- Marcar el mensaje como Spam y llevarlo a la carpeta de correo basura.

- Devolver el mensaje al remitente.

Aprendimos mucho en la lucha contra el spam, y dado que la infraestructura ya estaba montada, tenía todo el sentido aplicar las lecciones aprendidas a las nuevas herramientas dentro de la lucha contra el correo gris. Categorizando automáticamente el correo gris podíamos borrar, programar limpiezas entre otras cosas, la cuestión era por dónde empezar.

 

Grafico del tipo de correo en una bandeja de entrada normal

Si os fijais en el gráfico anterior, el correo gris suponía casi un 82% del total de correo recibido en las bandejas de entrada. Si mirábamos en detalle podíamos ver que por ejemplo los correos recibidos por parte de las redes sociales era un 17%, como podíamos identificar perfectamente a esos remitentes, empezamos por destacar estos correos en la vista “social” de Hotmail dentro de su última actualización.

Pero nos quedaba el premio gordo, ese segmento que ocupaba más de 50% y que venía provocado por cientos de newsletters de tiendas, clubs, sociedades, empresas de cupones etc… Estos emails, al contrario de los que manda Facebook y Twitter que siempre vienen de la misma dirección, con la misma estructura y diciendo casi lo mismo, eran diferentes totalmente unos de otras, proviniendo de diversas direcciones y en cualquier formato.

Para tratar con un rango tan diverso de correo necesitábamos abordar el asunto de un modo distinto a como tratábamos a los correos recibidos desde las redes sociales. Algo más allá de identificar una newsletter.

 

Construyendo el filtro para newsletters

Para lograr que Hotmail detectase las newsletters para nosotros comenzamos por hacer una lista de características comunes entre ellas y construir un programa que extrajera estas características de los emails entrantes. El programa se centraba en mirar la cabecera de la misma, la dirección del remitente y la parte visible para el usuario.

Con este programa logramos construir una base de alrededor de 10.000 mensajes. Usando una técnica llamada “machine learning” construimos un sistema que entrenaba y reajustaba el modelo hasta que detectó la mayoría de las newsletters de una muestra que le entregábamos. Estando esta última constituida por un conjunto aleatorio de newsletters del mercado. Una vez estos ajustes estuvieron listos comenzamos un programa piloto internamente en Septiembre de 2011 al que llamamos “dogfood”.

 

Tratando con “Dogfood”

Durante el test usamos a nuestros empleados para que probasen el nuevo software en sus cuentas de correo, esto nos ayudó a detectar errores y poder mejorar algunos aspectos. Los participantes podían reportar correo incorrectamente identificado o fallos.

Y nos dimos cuenta por ejemplo del problema que suponían los comunicados enviados por bancos o grupos financieros, debido a su parecido a una newsletters estos eran incorrectamente clasificados, sin serlo claro . Así que entrenamos al filtro a ignorar este tipo de mensajes.

 

Los resultados

El correo gris actualmente supone un volumen de más de 1.5 billones de correos, más de la mitad del correo que procesamos en nuestros servidores y representa el 73% del correo recibido por un usuario normal. Usando el filtro de newsletters en tu correo Hotmail podrás despejar tu bandeja de entrada y sacarle el mayor partido a tu correo. Nosotros seguiremos investigando mejoras para permitirte el tener todo categorizado y en su sitio, con nuevos filtros y etiquetas.

Y como siempre, estaremos encantados de escucharte y escuchar tus sugerencias al respecto.

Rafael Ríos

Twitter: @r1os

Windows Product Manager | Windows Live & Internet Explorer