Spam de Referencia Malicioso en Google Analytics

Share this…

El número de robots (bots) ha superado el número de personas en Internet desde hace casi dos años, y los bots navegan por la red mucho más rápidamente que sus visitantes. Además de poner Spam en su sistema de comentarios, ellos buscan sitios web vulnerables para atacarlos. Los bots también pueden causar mucha confusión en el sistema de información de tráfico de su sitio web.

Si usted utiliza un software de análisis en su sitio web, ya puede haber notado algunas referencias extrañas e inexplicables en sus informes. El azote de los robots maliciosos y de las referencias malas se está convirtiendo en un verdadero problema. Durante los últimos seis meses, Google Trends ha mostrado un aumento exponencial de consultas en los motores de búsqueda acereca del “spam de referencia” y del “spam de google analytics.”

Google Trends: Busca queries referentes a spam de referencia/analytics
Google Trends: Busca queries referentes a spam de referencia/analytics

Googlebot, el Bot Bueno

Los bots son programas diseñados para automatizar tareas o para fingir ser un visitante real. Ellos escanean el Internet lo más rápido posible, leen el código fuente, rastrean sus enlaces y realizan sus funciones. Esto ya suena malicioso, ¿no es así?

Ni todos los bots son malos. De hecho, algunos son esenciales para la forma en que usamos internet. Googlebot, por ejemplo, es responsable de la indexación de todos los contenidos en línea y de hacer que el contenido esté disponible en las páginas de resultados de búsqueda. Dicho esto, si usted es un lector habitual de nuestro blog, ya sabe que el malware puede operar usando cadenas de caracteres falsas de los agentes de usuario para que parezca que su solicitud HTTP viene del Googlebot.

Spam de Referencia y los Bots Malos

Los bots malos están programados por los hackers para hacer todo el trabajo pesado, como:

  • Utilizar el contenido del sitio web con el objetivo de plagiarlo.
  • Robar contactos e datos bancarios durante las transaciones.
  • Fraudar en un clic las publicidades pay-per-click (PPC).
  • Visitar su sitio web para estropear sus análises en Google Analytics, más conocido como spam de referencia.

Ahora, esto no es sorprendente: el riesgo del uso de bots es muy pequeño en comparación con sus beneficios en potencial. Éste es el último elemento de la lista, el spam de referencia y vamos a centrar en él.

El spam de referencia tiene una serie de aplicaciones maliciosas que pueden incluir:

  • Inflar el tráfico de su sitio para estropear su información.
  • Engañar al usuario para que visite sitios web maliciosos que se encuentran en los informes de las referencias.
  • Generar registros del servidor de acceso de backlinks para el público.
  • Ocultar la cabecera referencial real, mientras ataca el sitio web.

El spam de referencia suele tener tasas de rebote y parámetros de tiempo time-on-page altos, y esto tiene el potencial para invalidar los datos de tráfico de manera significativa. Con los años, los robots de spam de referencia llegan a ser bastante sofisticados. Nuevos robots son creados todos los días, por lo tanto, el bloqueo de estos robots de spam es casi imposible.

Botnets

Los piratas informáticos pueden infectar a cientos de miles de sitios web y ordenadores personales, usando sus recursos adquiridos y las direcciones de IP para ejecutar ataques complejos. Es una red robot o botnet.

Una red global distribuida de ordenadores hace que sea mucho más difícil preparar una lista negra de IP, proporcionar cualquier limitación de velocidad y proteger su sitio web. Esto es exactamente lo que hace que los ataques de denegación de servicio distribuidossean tan eficaces, “distribuido” es la palabra clave. Usted bloquea un referente mal de sus informes y otro aparece en su lugar.

Es como el castigo de Sísifo, infinito.

Referencias Fantasmas

Este tipo de spam de referencia es cruel. Si usted administra Google Analytics debe recordar que cada cuenta tiene un código UA único:

ua

Si su código de Google Analytics está hard-coded en su sitio web, los bots pueden descubrirlos a partir de su código fuente y utilizar el código de seguimiento.

Una vez que el bot tiene su código UA, puede enviar los datos directamente a la cuenta de Google Analytics, incluso sin tener que visitar su sitio web. Los bots utilizan el Google Analytics Measurement Protocol, diseñado para aceptar datos del Internet de las cosas (tales como un refrigerador conectado), por lo que ni siquiera es necesario instalar el código de seguimiento en una página web .

Mientras que nuestro Firewall de sitios web bloquee referencias maliciosas de forma predeterminada, estos fantasmas de referencias nunca llegan a acceder al sitio web y, por lo tanto, no aparecen en los registros del servidor.

Impidiendo los Spams de Referencia Fantasmas

Afortunadamente, hay una manera de ignorar referencias fantasmas e incluso restaurar la integridad de sus datos.

En Google Analytics, se puede crear un filtro de nombre de host para cada vista con el fin de asegurarse de que sólo el tráfico de los sitios web válidos se mostrarán. Ésto significa la eliminación total de las referencias fantasmas de los datos para esta vista en el futuro. Tenga esto en cuenta al comparar el historial de sus parámetros.

Si usted ya dispone de vistas creadas para cada subdominio, es posible que ya esté familiarizado con este proceso – vamos a utilizar un filtro personalizado y expresiones regulares para añadir todos sus nombres de hosts válidos.

Cómo Excluir Nombres de Host Fantasmas de Google Analytics
  1. En la pestaña Informes, defina la data para por lo menos un mes.
  2. En el Público > Tecnología > Red
  3. Seleccione Nombres de Host como la Dimensión Primaria.
  4. Escriba todos los nombres de hosts válidos de sus propiedades.
    • e.g. blog.sucuri.net e sucuri.net
    • La mayoria de los nombres de host inválidos provienen de referencias fantasmas. ¡No los visite!
  5. En la pestaña Administrador, haga clic en Ver menu dropdown e seleccioneCrear nueva vista.
  6. Nombree la nueva vista.
    • Esto nos permite testar los cambios antes de desordenar sus datos.
    • Consejo Pro: ¡Siempre deje por lo menos una vista para sus datos no-filtrados!
  7. Seleccione Filtros en las opciones debajo de la columna de Vista y haga clic en + NUEVO FILTRO.
  8. Seleccione Personalizado > Incluir > Nombre de Host.
  9. Ponga el Modelo de Filtro como una cadena de caracteres RegEx que contenga todos los nombres de host válidos, así como en el Paso 4.
    • e.g. ^www.sucuri.net$|^sucuri.net$|^blog.sucuri.net$|^sitecheck.sucuri.net$|^kb.sucuri.net$|^performance.sucuri.net$|^login.sucuri.net$|^blog.unmaskparasites.com$
  10. Haga clic en Verificar Filtro para previsualizar los cambios.
    • Me di cuenta de que esto no funciona muy bien con las cadenas de caracteres más grandes, como en el ejemplo anterior.
  11. Haga clic en Guardar para aplicar el filtro.
    • Espere por lo menos 24 horas para ver los cambios en el informe de Nombres de Host (Paso 3).
    • Visite los informes en Tiempo Real para garantizar que el tráfico aún proviene de su vista de testes de filtros.
  12. Confirme que el filtro esté funcionando y después aplíquelo en su vista principal.
Filtro Personalizado incluiendo nombres de host válidos, usando RegEx.
Filtro Personalizado incluiendo nombres de host válidos, usando RegEx.

Este filtro sólo afectará el tráfico nuevo. El tráfico antiguo todavía tendrá fantasmas. Para ver los datos históricos sin el spam de analytics, se puede crear un Segmento Personalizado.

Cómo Segmentar Nombres de Hosts Válidos en Google Analytics:
  1. En cualquier Informe haga clic en + Aplicar Segmento.
  2. Haga clic en + SEGMENTO NUEVO.
  3. Seleccione Condiciones en Avanzado en la barra lateral.
  4. Seleccione Nombres de Host.
    • Las opciones de Filtros abajo estan programadas en la Sección & Incluir por Defecto.
  5. Introduzca el nombre de host y haga clic en el OR para introduzir lo que resta.
  6. Haga clic en Guardar cuando todos los nombres de host válidos son aplicados.
  7. Usted puede aplicar el nuevo segmento para cualquier información para asegurar que él contenga sólo los nombres de host.
Custom segment including only valid hostnames.
Custom segment including only valid hostnames.

Es importante recordar que éstas no son soluciones permanentes, pero ellas son rápidas y eficaces. Hackers consiguen violar nuestras contramedidas y hay casos de atacantes que inventan nombres de host falsos en sus cabeceras de referencia.

Bloqueando Spam de Referencia Normal

El tipo más común de spam de referencia implica bots que realmente visitan su sitio web, por lo tanto, ellos pueden ser bloqueados por los medios tradicionales. En Google Analytics, usted puede configurar un filtro de Exclusión de Referencia similar, pero esto puede ser un proceso exhaustivo. Éstos son algunos de los bots más comunes que usted puede ver en sus informes de Referencia:

Semalt

Se recomienda agregar reglas de configuración del servidor en sus archivos .htaccess, web.config o nginx.conf para excluir específicamente las listas de referencias malas conocidas. Hay una serie de listas largas por ahí, usted puede buscarlas y su número está aumentando. Si la integridad de datos es importante para usted, esto puede ser algo que desea mantener en su lista de prioridades.

El Firewall de sitios web de Sucuri también bloquea por defecto las referencias mal conocidas y usted puede confiar en Sucuri Labs para mantener estas listas actualizadas. También puede aplicar sus propias reglas personalizadas para el servidor de seguridad, si lo necesita.

Conclusión

¡Sé que eso es muy frustrante, pero no se dé por vencido! La seguridad en capas es uno de los conceptos más importantes del siglo 21 y a nosotros nos gustaría que usted se sienta bien con la práctica de proteger sus datos. Ésto incluye la protección de sus sitios web y de sus herramientas de terceros.

¿Ha encontrado un spam de referencia de analysis? Comparta su experiencia con nosotros en los comentarios.

Fuente:https://blog.sucuri.net