Comment mesurer les performances des tests A/B dans les campagnes de publicité display

Comment mesurer les performances des tests A/B dans les campagnes de publicité display –

L'objectif des systèmes d'apprentissage automatique est de cibler les audiences les plus appropriées pour nos annonceurs, et à mesure que nous améliorons ces algorithmes, nous rencontrons généralement les problèmes suivants :

  • Quelles mesures devrions-nous utiliser pour mesurer l’efficacité de notre ciblage publicitaire ?
  • Les performances des systèmes d’apprentissage automatique ne sont pas déterministes. Peut-on être certain qu’une amélioration observée n’est pas due au hasard ou à un effet de saisonnalité mais constitue une réelle amélioration dans ce contexte ?
  • Même si un nouvel algorithme d’apprentissage automatique surpasse en moyenne toutes les campagnes publicitaires que nous avons testées, il peut y avoir des campagnes individuelles pour lesquelles l’algorithme est préjudiciable. Pouvons-nous identifier correctement ces campagnes ?

Mesurer l'efficacité du ciblage publicitaire

Permettez-moi d’illustrer ces préoccupations par un exemple. Supposons que nous ayons développé un nouvel algorithme de prédiction pour estimer la probabilité qu'un internaute achète un produit après avoir vu une publicité pour une campagne. Nous souhaitons améliorer cet algorithme pour tester s'il améliore la pertinence de notre ciblage publicitaire. Nous appelons ce nouvel algorithme Algorithme A et notre algorithme de production actuel Algorithme B.

Le coût par acquisition (CPA) d’une campagne de publicité display est un indicateur régulièrement utilisé pour estimer son efficacité :

créateur de site Web idéal

Dans le CPA, une acquisition (ou « conversion ») est définie comme l'achat d'un produit en ligne pour cet annonceur. Le coût par acquisition (CPA) est une mesure du montant que nous devons payer pour obtenir un certain nombre de conversions. À mesure que nos algorithmes s'améliorent, nous devrions pouvoir obtenir davantage de conversions pour le même coût, et notre CPA devrait diminuer.

Nous pouvons effectuer un test fractionné A/B sur une campagne spécifique pour voir quel algorithme est le plus performant. À cette fin, une mesure qui mérite d’être examinée est l’amélioration du CPA :

Si le lift est égal à un, alors les deux algorithmes ont acquis le même nombre de clients pour la campagne, en supposant que les budgets soient identiques. Si l’ascenseur est supérieur à un, alors l’algorithme A a gagné plus de clients et vice versa.

Nous n'avons pas non plus à nous limiter à effectuer notre test A/B avec une seule campagne.

Grâce à la mesure de l'impact, nous pouvons déterminer combien de campagnes ont obtenu de meilleurs résultats lors de l'utilisation de l'algorithme A, combien ont donné de moins bons résultats et combien étaient neutres. De plus, nous pouvons calculer le lift moyen ou médian de toutes nos campagnes.

Véritable amélioration par rapport à la chance aléatoire

Supposons que nous ayons effectué le test A/B susmentionné sur de nombreuses campagnes et découvert que notre impact moyen est de 1.3. Cela signifie que notre nouvel algorithme A surpasse notre ancien algorithme B de 30 % en moyenne. Cependant, cette amélioration des performances est-elle réelle ou le résultat d’oscillations aléatoires sur les marchés d’enchères en temps réel ? Atteindrait-on la même augmentation de 30 % si l’on répétait l’expérience dans des conditions identiques ?

Une approche typique de ce sujet consisterait à tester des hypothèses. Notre hypothèse nulle est que les algorithmes A et B ont les mêmes performances moyennes et notre hypothèse alternative bilatérale est que les performances moyennes des algorithmes A et B diffèrent. 

Comment mesurer les performances des tests A/B dans les campagnes de publicité display –

Si nous prédisons que les améliorations de la campagne sont des variables aléatoires indépendantes et uniformément distribuées, nous pouvons utiliser un simple test t pour produire des intervalles de confiance pour un niveau de signification donné.

En revanche, il est très peu probable que l’hypothèse d’une « distribution identique » soit exacte. Des campagnes publicitaires distinctes ont des budgets, des limites d'impressions et des comportements en général différents. Prenons les deux annonceurs suivants :

  • Le premier annonceur est une entreprise qui vend des pizzas à travers les États-Unis dans le cadre d'un contrat au CPM (coût pour mille impressions) avec un objectif d'impressions mensuelles de 10 millions.
  • Le deuxième annonceur est un concessionnaire automobile californien qui a signé un contrat CPM pour afficher 100,000 XNUMX impressions par mois.

Le comportement en matière de dépenses des deux campagnes sera évidemment différent, puisque nous afficherons 100 fois plus d'impressions pour le 1er annonceur que pour le second. De plus, comme les pizzas sont moins chères et que les clients sont plus susceptibles d'acheter plusieurs fois par mois, la campagne pizza aura presque certainement un taux de conversion plus élevé que la campagne automobile.

Une méthode pour supprimer l’hypothèse d’un impact distribué de manière identique consiste à estimer quantitativement la distribution réelle de l’impact pour chaque campagne. Cela vous permettra non seulement d'estimer les intervalles de confiance pour l'impact de chaque campagne, mais cela vous permettra également d'estimer la répartition de l'impact moyen entre les campagnes. 

Voici quelques mesures qui pourraient être prises pour y parvenir :

  • Supposons une distribution soit pour la valeur d'impact, soit pour le CPA de chaque groupe (par exemple, les conversions du groupe A suivent une distribution binomiale en ce qui concerne les impressions…).
  • Prenez un échantillon de points de la distribution d’impact de chaque campagne et faites-en la moyenne. Répétez cette opération plusieurs fois (par exemple, 100,000 XNUMX fois).
  • Créez une distribution de l'impact moyen entre les campagnes à l'aide des valeurs moyennes simulées.

Une fois que nous avons la distribution de l'ascenseur moyen, nous pouvons calculer la moyenne ainsi que les intervalles de confiance et les utiliser pour déterminer si notre ascenseur moyen est statistiquement significatif.

Nouvel algorithme, nouveaux enjeux

Cependant, même si dépasser l’algorithme de production actuel en termes de portée moyenne est statistiquement significatif, cela ne suffit pas pour promouvoir le nouvel algorithme en production. 

Nous souhaitons également identifier les campagnes dont les résultats sont bien moins bons que prévu lors de l'utilisation du nouvel algorithme. De telles campagnes peuvent nécessiter un examen approfondi pour déterminer ce qui n’a pas fonctionné et comment le nouveau modèle pourrait être amélioré. 

Un point essentiel à retenir ici est que l’évaluation de ces campagnes est « coûteuse » en termes de ressources (temps, intervention humaine, etc.). Nous souhaitons donc réduire autant que possible le nombre de « faux positifs » tout en générant suffisamment de sous-performants potentiels.

À mesure que le nombre de campagnes augmente, la stratégie précédente consistant à utiliser des intervalles de confiance et des tests d’hypothèses pour chaque campagne indépendamment s’effondre. 

Nous nous attendons à ce qu'une fraction particulière des campagnes surperforme et/ou sous-performe considérablement sous l'hypothèse nulle (l'expérimentation a les mêmes performances que la production). 

De plus, comme elle est basée uniquement sur des intervalles de confiance individuels, cette fraction reste relativement constante avec le nombre de campagnes, ce qui implique qu'un nombre croissant de campagnes peuvent être des « faux positifs » tout en apparaissant comme de « vrais positifs » – c'est-à-dire qu'elles semblent être des « faux positifs ». être sous-performants alors qu’ils ne le sont pas. À mesure que notre entreprise se développe et que nous travaillons avec de plus en plus de clients, l’influence de cet effet devient plus évidente. Alors, comment pouvons-nous faire amende honorable ?

Techniques alternatives

Voici une méthode alternative qui utilise plusieurs cadres de test d’hypothèses. Tout d’abord, pour chaque campagne, nous comparons les valeurs de lift individuelles du modèle expérimental à la distribution de lift de la campagne sous l’hypothèse nulle (l’expérimentation est identique à la production). 

Comment mesurer les performances des tests A/B dans les campagnes de publicité display –

Nous pouvons alors calculer une valeur p pour chaque campagne, qui représente la probabilité de détecter un lift au moins aussi extrême que celui mesuré si nous acceptons l'hypothèse nulle.

Nous pourrions adopter de nombreuses approches pour identifier un groupe de « sous-performants majeurs ». La plus élémentaire serait d'utiliser l'ajustement de Bonferroni, qui catégoriserait comme « significatives » toutes les campagnes sous-performantes avec des valeurs p inférieures à /N, où est la signification statistique nécessaire si nous n'examinons qu'une seule campagne. 

Cela garantit que le taux d'erreur familial (FWER = la probabilité d'au moins un faux positif global) est inférieur à. En pratique, cela est extrêmement prudent et entraînerait un grand nombre de faux négatifs (c'est-à-dire qu'il y aurait trop peu de sous-performants). Il existe plusieurs manières supplémentaires de contrôler le FWER, mais le résultat final est trop prudent pour nos objectifs.

Plutôt que d’exiger une quasi-assurance qu’il n’y a pas de faux positifs, une approche moins stricte consisterait à exiger qu’un nombre limité de campagnes potentiellement défaillantes soient des faux positifs. 

En d’autres termes, nous pouvons choisir un taux de fausses découvertes acceptable (FDR = nombre attendu de « faux positifs » / nombre de campagnes découvertes). Par exemple, si FDR = 0.1, nous pouvons nous attendre à ce que 90 % des campagnes identifiées soient de « véritables sous-performantes ». L’approche Benjamini-Hochberg(-Yekutieli) peut ensuite être utilisée pour identifier de telles campagnes en vue de tests plus approfondis.

Conclusion

Les méthodes détaillées ci-dessus ne constituent qu’une approche pour faire progresser un modèle amélioré vers l’état de production. Le résultat final est un choix binaire : devons-nous continuer avec le modèle de production actuel ou passer au nouveau modèle ? 

Une alternative viable consiste à faire un choix « continu », par exemple en recourant à une stratégie de bandit multi-armé. Nous exécutons les deux modèles simultanément sur diverses bases d'utilisateurs dont la taille est déterminée par les performances de chaque modèle.