Les pièges méconnus des tests A/B et leurs solutions

Par

Cristina Ciani

Introduction

Perfectionnez vos techniques de tests A/B en déjouant des erreurs subtiles mais cruciales ! Ce guide vous montrera comment obtenir des analyses fiables et orientées par des données concrètes.

Ça vous parle ? Vous avez réalisé des tests A/B sur vos textes publicitaires, déployé la version la plus prometteuse... et aucune amélioration notable n'est constatée. Pourquoi aucun changement significatif ?

Si cela n'arrivait que rarement, ce ne serait pas un souci, mais si c'est fréquent, vous pourriez commencer à douter de l'utilité des tests A/B.

Pas d'inquiétude, ils sont toujours pertinents. Toutefois, il serait judicieux de revoir la manière dont vous élaborez et analysez vos tests.

Dans cet article, je vais vous guider à travers les écueils des tests A/B que même les experts en PPC peuvent rencontrer. Je vous fournirai aussi des solutions pratiques pour assurer l'efficacité de vos résultats.

Viser les 95% de Signification Statistique...

Dans les tests A/B, il est essentiel de démarrer avec une hypothèse solide. Par exemple, on pourrait se dire : "En ajoutant un sentiment d'urgence à mes annonces e-commerce, je m'attends à une augmentation du taux de clics (CTR) de 4 points de pourcentage".

C'est une excellente base de départ : définir clairement le périmètre du test, les groupes témoins et expérimentaux, le principal KPI (et éventuellement les KPIs secondaires) ainsi que l'estimation des résultats aide à structurer les tests et leur analyse.

C'est une démarche absolument recommandée, sans aucun doute.

Cependant, lorsque les marketeurs adoptent cette méthode, ils ont tendance à se passionner... et découvrent alors le "Saint Graal" des résultats valides (une expression de ma création) : atteindre la signification statistique. Et c'est là que les choses peuvent devenir confuses... Alors, clarifions cela !

A savoir : je pars du principe que vous savez ce qu'est la signification statistique, mais si ce n'est pas le cas, je vous recommande de commencer ici et d'utiliser cet outil pour mieux comprendre ce que je vais expliquer.

... L'excès n'est pas toujours bénéfique
Dans le monde du PPC, certains schémas sont bien établis :

  • Ce qui fonctionne : messages sur l'urgence, les stocks limités et les offres exclusives.
  • Ce qui est moins efficace : les messages environnementaux et sociétaux (désolé pour la planète !).
  • Ce qui marche : placer votre formulaire de lead en haut de votre page d'atterrissage.
  • Ce qui est moins convaincant : les formulaires longs et complexes.

Si vous êtes presque certain de pouvoir obtenir rapidement ces résultats, lancez-vous. Inutile de tout justifier par des tests A/B et des résultats de signification statistique.

Vous vous demandez peut-être : "Comment convaincre mon client de déployer ce changement sans test préalable ?"

Pour y répondre, je suggère :

  • Documentez vos tests méthodiquement pour présenter des cas d'étude pertinents.
  • Analysez les pratiques des concurrents et d'autres acteurs hors de votre secteur. S'ils adoptent tous une approche similaire, il y a probablement une bonne raison.
  • Partagez des résultats pertinents issus d'articles comme "les 50 tests que chaque marketeur doit connaître" (exemples : AB Tasty, Kamaleoon, etc).

Votre objectif est de gagner du temps, un avantage précieux pour vos clients (ou votre CMO et CFO).

... mais cela ne suffit pas pour arrêter votre test

Comme le dit Andreas Reifen : "Vous ne devriez terminer un test que lorsque vous avez suffisamment d'informations pour qu'il soit statistiquement significatif".

Attention, cela n'est que partiellement vrai !

Ne vous méprenez pas, atteindre une signification statistique de 95% est positif, mais cela ne signifie pas que vous pouvez faire entièrement confiance aux résultats de votre test.

Alors, comment savoir si vos résultats sont vraiment fiables ? Premièrement, évitez d'arrêter vos tests dès qu'ils atteignent les 95%. De plus, envisagez de concevoir vos tests A/B différemment.
En effet, lorsque votre outil de test A/B vous indique que vous avez atteint une signification statistique, cela signifie que vos cellules de contrôle et d'expérimentation sont effectivement différentes. C'est tout. Quelle utilité quand vous saviez déjà cela ? Après tout, vous avez conçu votre test pour être un test A/B, et non un test A/A (à moins que vous ne soyez un chercheur en statistiques ?).

En d'autres termes, atteindre une signification statistique ne signifie pas que votre cellule expérimentale a mieux (ou moins bien) performé que celle de contrôle.


Comment savoir si les résultats de votre test A/B désignent réellement le meilleur élément ? Vous pourriez penser que vos résultats indiquent que la cellule B surperforme la cellule A de 5 points de pourcentage. Qu'avez-vous besoin de plus ?

Comme mentionné précédemment, atteindre 95% de signification statistique reconnaît simplement que vos groupes de contrôle et expérimental se comportent différemment. Mais le meilleur élément pourrait bien changer de la cellule A à la B, puis de B à A, même après avoir atteint les 95% de signification statistique.

Voilà le problème : vos résultats de test A/B ne sont pas fiables dès qu'ils atteignent les 95% de signification statistique. À quel point sont-ils peu fiables ? À hauteur de 26,1%. Oups…

Si vous souhaitez approfondir, voici une analyse plus détaillée d'Evan Miller (et une perspective plus large sur Harvard Business Review).

Alors, comment savoir si vos résultats sont vraiment fiables ? D'abord, évitez d'arrêter vos tests dès qu'ils atteignent les 95%. Et vous devez également concevoir vos tests A/B différemment.

Voici comment :

Évaluez votre public cible…

Si les mathématiques ne sont pas votre fort, commencez par lire l'article de Bradd Libby.

En résumé : lancer une pièce 10 fois ne prouve pas qu'elle est parfaitement équilibrée. 100 lancers, c'est mieux. 1.000.000, c'est excellent. Un nombre infini de lancers serait idéal. Vraiment, essayez de lancer des pièces pour voir.

Dans le contexte du PPC, cela signifie que la conception de tests A/B doit commencer par la connaissance de votre audience. Est-elle composée de 10 personnes ou de 1.000.000 ? Selon cela, vous saurez où vous en êtes : en tests A/B, plus les données sont nombreuses, plus la précision est élevée.


... car la taille compte dans les tests A/B
Je sais que tous les projets ou clients n'ont pas des plateformes à fort volume (que ce soit en sessions, clics, conversions, etc.).

Mais une grande taille d'audience est nécessaire seulement si vous anticipez des changements incrémentaux faibles. D'où mon premier point dans cet article : évitez les tests qui ne font que confirmer l'évident.

Vous vous demandez peut-être : "D'accord, mais quelle est la taille d'audience idéale pour un gain estimé de seulement quelques points de pourcentage ?"

Bonne nouvelle : AB Tasty a développé un calculateur de taille d'échantillon. Je n'ai aucun lien avec AB Tasty, mais je trouve leur outil plus facile à comprendre. Voici d'autres outils pour comparer : Optimizely, Adobe, Evan Miller.

Utilisez de tels outils et regardez vos données historiques pour déterminer si votre test peut réellement atteindre un niveau de fiabilité dans ses résultats.

Mais attendez, ce n'est pas fini ! 🤦

... et le parcours client est tout aussi crucial
Prenons un exemple : vous observez un taux de conversion de 5% pour un groupe de 7 000 visiteurs (votre volume moyen de visiteurs hebdomadaires).

Les calculateurs de taille d'échantillon mentionnés précédemment indiqueront que vous avez besoin de moins de 8 jours si vous prévoyez une augmentation de votre taux de conversion de 1,5 point de pourcentage (passant donc de 5% à 6,5%).

8 jours pour augmenter votre taux de conversion de 1,5 point ? C'est une affaire si vous voulez mon avis.

Mais attention, vous êtes tombé dans un autre piège ! 😈

Ce qu'il fallait examiner en premier, c'était ces 8 jours. Couvrent-ils au moins un (voire deux) parcours client ? Sinon, vous aurez eu deux groupes entrant dans les résultats de votre test AB (par exemple, vos clics), mais un seul groupe parcourant l'ensemble du parcours client (ayant la possibilité de générer une conversion).

Et cela fausse considérablement vos résultats.

Encore une fois, cela souligne que plus votre test dure longtemps, plus ses résultats seront précis, ce qui peut être particulièrement difficile dans le B2B où les cycles d'achat peuvent durer des années.

Dans ce cas, vous voudrez probablement examiner les étapes du processus se produisant avant l'achat réel... et vous assurer que les variations du taux de conversion sont relativement stables. Cela indiquera que vos résultats deviennent précis.

Comme vous pouvez le voir, atteindre une signification statistique est loin d'être suffisant pour décider si vos résultats de test sont suffisamment précis : vous devez planifier votre audience d'abord et laisser votre test durer suffisamment longtemps.

Autres erreurs courantes dans les tests A/B

Outre les points critiques mentionnés, je ne peux m'empêcher de souligner d'autres erreurs, juste pour le plaisir "Ne pas segmenter les sources de trafic". Les pros du PPC le savent : le trafic de recherche de marque est bien plus précieux que celui des audiences Facebook froides et non retargetées.

Imaginez un test où, pour une raison quelconque, la part de votre trafic de recherche de marque augmente par rapport à celle du trafic Facebook Ads froid (grâce à un coup de pub, par exemple).

Vos résultats sembleraient bien meilleurs ! Mais seraient-ils précis ? Probablement pas.

En résumé : vous devriez segmenter votre test par source de trafic autant que possible.

Sources à examiner avant de lancer votre test :

  • SEO (souvent c'est 90% de trafic de marque)
  • Emailing et SMS (les clients existants surperforment la plupart du temps)
  • Retargeting (ces personnes vous connaissent déjà, elles ne sont pas M. Tout-le-monde)
  • Recherche payante de marque

Ainsi, vous vous assurez de comparer des choses comparables. Typiquement ce que Google ne veut pas que vous fassiez avec leur expérience Pmax vs Shopping.
Là, ils affirment qu'un tel test "vous aide à déterminer quel type de campagne donne de meilleurs résultats pour votre entreprise".

Cet objectif est intéressant. Mais ce qu'ils oublient de vous dire, c'est que Pmax couvre bien plus d'inventaire publicitaire que les campagnes Shopping… rendant ce test A/B nul dès le départ.

Au lieu de cela, vous voudrez comparer Pmax avec tout votre écosystème Google Ads (à moins que vous n'utilisiez des exclusions de marque, auquel cas vous voudrez comparer Pmax avec tout Google Ads, sauf les campagnes de recherche / shopping de marque).

Ignorer les Segments Critiques dans les Tests A/B
Tout marketeur digital sait que la performance des appareils mobiles diffère grandement de celle des ordinateurs de bureau. Alors, pourquoi mélanger les données mobiles et desktop dans vos tests A/B ?

Il en va de même pour les données géographiques. Vous ne pouvez pas comparer directement les données des États-Unis avec celles de la France ou de l'Inde. Les marchés et la compétition varient, tout comme les coûts par mille impressions (CPM) et l'adéquation du produit au marché. Assurez-vous donc de "localiser" vos tests autant que possible.

Et n'oubliez pas la saisonnalité : le comportement de vos clients habituels diffère de celui des périodes de promotions comme le Black Friday ou les soldes d'été. Évitez de regrouper tous vos tests A/B en une seule masse.

Les dernières actus

Le blog

Programmatique

La guerre du streaming : après Microsoft et Netflix, Google noue un partenariat avec Disney+

Search Engine Advertising

Opinion : quand l'IA prime sur la clarté, les annonceurs doivent s'interroger

Communiqué

Quantads intègre le Cabinet de conseil Okuden pour une synergie renforcée sur le marché