Copiar enlace

El tema de los modelos de atribución siempre ha estado en el candelero y a día de hoy sigue tan candente como siempre. En el presente artículo repasaremos brevemente los modelos tradicionales, los modelos multicanal y nos centraremos en los modelos data driven y el papel del machine learning en la atribución.

Modelos tradicionales

El modelo de atribución por antonomasia en el mundo digital es el modelo de último click. A alguno de vosotros os puede sonar a antiguo, pero la gran mayoría seguro que trabajáis todavía con él o lo habéis hecho hasta hace muy poco. Sigue siendo, con gran diferencia, el modelo más utilizado aún a día de hoy.

No es difícil de explicar: se atribuye el total de la venta al canal/campaña que ha traído la última visita que ha acabado en conversión. Igualmente no son difíciles de explicar sus limitaciones: la cantidad de touch points que realiza un usuario antes de comprar hace tiempo que es muy compleja, y cada vez lo es más. Sólo hemos de pensar nuestro proceso habitual cuando estamos interesados en un producto o servicio: vamos a un buscador, buscamos precio, leemos reviews, vamos a un potencial proveedor o tienda, luego a otro, volvemos al primero, etc. etc. Durante todo ese proceso somos impactados por publicidad de una forma u otra, proceso que un modelo como el last click ignora por completo.

Modelos multicanal

Para paliar este problema e intentar reflejar esta complejidad de un modo más fiable surgen los modelos multicanal. La idea es dejar de dar el 100% de la conversión a un único impacto y empezar a repartir a lo largo de todo el flujo de conversión.

Tenemos así, por ejemplo, modelos como el 40/20/40. Se asigna un 40% de la conversión al primer y último impacto, porque se entiende que es importante dar crédito tanto al canal que es capaz de impactar al usuario por primera vez como al que cierra la venta. Y se asigna un 20% a todos los canales e impactos que mantienen el interés del usuario entre ese primer impacto y el último. 

Un paso adelante del modelo last click, pero todavía muy limitado. Si bien se incorpora la complejidad de contemplar múltiples impactos el reparto de estos es cerrado y decidido a priori. El reparto a utilizar viene dado más por intuición o por objetivos de negocio que por datos reales.

Modelos data driven

Así fue NEXT Attribution: el futuro de la atribución online y omnicanal

Los modelos data driven aparecen por esa necesidad de trabajar a partir de los datos reales. En lugar de utilizar un reparto ya decidido a priori se aplica un algoritmo y es este el que asigna el valor de cada conversión. Los modelos data driven más populares están basados en Shapley o Markov, ambos basados en teoría de juegos.

Shapley

Shapley es uno de los algoritmos más populares para desarrollar modelos de atribución data driven y, entre otros, está en la base de los modelos data driven de Google. A grandes rasgos el algoritmo de Shapley tiene en cuenta el número de jugadores, la probabilidad de conversión final en cada iteración de combinaciones y cómo afecta que un jugador salga o entre de la partida. En este ejemplo vemos que el hecho de eliminar display del flujo de conversión nos hace perder un 50% de probabilidad de conversión:

Este ejercicio se hace con todas las combinatorias posibles y de ahí podemos extraer la aportación de cada impacto y cada canal a nivel global. Funciona bien y es bastante preciso, pero tiene también sus limitaciones. Una de ellas viene precisamente de que debe tener en cuenta todas las combinaciones posibles y, además, por defecto no tiene en cuenta el orden de los impactos.

Así, por ejemplo, A es equivalente en A-B y en A-C. Esto deja fuera matices importantes a nivel del orden de impacto a los usuarios. Es posible modificar el algoritmo para que se tenga en cuenta el orden, pero entonces entramos en otro problema: necesitaremos una cantidad ingente de datos. Deberemos tener y procesar suficiente volumen de casos de todas las combinaciones posibles en todos los órdenes posibles.

Otra limitación viene dada por la propia teoría de juegos. En la mayoría de juegos cuantos más jugadores, más hay para repartir, es decir, más ganancias globales. Pero ese no es necesariamente el caso en marketing online, donde más bien al contrario acostumbramos a preferir flujos más cortos (menos jugadores, menos coste e igual beneficio (conversión)).

Markov

Al igual que Shapley, Markov también se basa en teoría de juegos y cuenta con similares ventajas e inconvenientes. 

A diferencia de los modelos basados en Shapley, los modelos basados en cadenas de Markov no tienen en cuenta el efecto de eliminar uno de los jugadores de la partida para establecer cuál era su aportación sino, como su propio nombre indica, analiza las cadenas completas que finalizan en conversión y el impacto que tiene en la conversión final el hecho de que el usuario haya sido impactado para que el recorrido final acabe en conversión.

Una manera de entenderlo es pensar en estados. Cuando el usuario inicia con un primer impacto a través de email, por ejemplo, entra en el estado email, que genera su cadena correspondiente. Los modelos basados en cadenas de Markov se focalizan más en cadenas completas que en la incidencia de cada impacto individual. Una ventaja de esto es que es más sencillo de escalar que los modelos basados en Shapley. Por contra Shapley es más sencillo de implementar, sobre todo en modelos con pocos canales, que no pecan de problemas a nivel de escalabilidad.

Más allá del data driven

El gran problema de los modelos data driven basados en algoritmos como Shapley o Markov es que acostumbran a ser cajas negras. Debemos hacer un acto de fé a nivel de la implementación particular en cada caso y no podemos conocer cómo se ha implementado exactamente.

A raíz de esto y de la popularización del machine learning nos encontramos cada vez más casos de modelos hechos a medida para cada cliente. En lugar de aplicar un modelo ya preconstruido con reglas ocultas para nosotros, se trabaja con el data raw y se construye un algoritmo desde cero, 100% desarrollado según la casuística particular de cada cliente.

Otro factor que desde Labelium nos ha movido a trabajar con modelos propios es la posibilidad de incorporar el comportamiento del usuario a la ecuación. Ya no tenemos en cuenta únicamente el origen de cada visita, sino también qué acciones ha realizado el usuario en cada visita. Podemos así ser mucho más precisos a la hora de valorar la aportación exacta de cada canal, campaña y visita. Adicionalmente esta manera de entender el problema tiene también grandes ventajas para la identificación de fraude.

A grandes rasgos, un modelo basado en comportamiento estima la probabilidad de conversión de la sesión específica de un usuario a su inicio. Mide todas las acciones que realiza el usuario durante esa sesión y recalcula la probabilidad de conversión de nuevo al final de la sesión. Ese delta de diferencia entre probabilidad de conversión al inicio de la sesión y al final de esta será lo que se atribuya al canal/impacto que trajo la visita. Una vez contabilizadas todas las sesiones de todos los usuarios tendremos un mapa de atribución completo, con la aportación de cada canal y campaña.

Imagen: Depositphotos

Mantente informado de las noticias más relevantes en nuestro canal de Telegram

Escribir comentario

¡Mantente al día!