Als Produktentwicklerin und Marktforscherin habe ich schon mehrere Male reale A/B‑Tests im Handel begleitet. Einer der prägnantesten war ein Test, mit dem wir die Preisbereitschaft für ein neues Proteinriegel‑Format direkt am POS nachweisen wollten. Ziel: innerhalb von rund 300 Verkäufen belastbare Erkenntnisse gewinnen, die sowohl dem Handel als auch dem Hersteller erlauben, eine finale Preis- und Sortimentsentscheidung zu treffen. Im folgenden Bericht beschreibe ich praktisch und persönlich, wie ich diesen Test geplant, umgesetzt und ausgewertet habe — nachvollziehbar und direkt anwendbar für Hersteller, Händler und Start-ups.
Vorüberlegungen: Warum ein realer A/B‑Test statt Survey oder Labortest?
Umfragen und Labortests zeigen Präferenzen, aber sie messen selten das tatsächliche Kaufverhalten unter realen Kaufbedingungen. Am POS entscheiden Faktoren wie Verpackung, Platzierung, Preisvergleich, Promotions und Impulsivität. Mein Anspruch war: echte Kaufentscheidungen messen, nicht nur Intentionen. Deshalb entschieden wir uns für einen Feldversuch in einem Supermarkt mit echtem Verkauf und echter Kasse.
Testdesign: Hypothese, Varianten und KPIs
Hypothese: Das neue, kompaktere Proteinriegel‑Format (40 g statt 60 g) erzielt bei einem leicht höheren Preis pro Gramm eine ähnliche oder höhere Wahrscheinlichkeit zum Kauf aufgrund besserer Convenience und Portionierung.
Varianten:
Wesentliche KPIs:
Stichprobe und warum 300 Verkäufe sinnvoll sind
Die Zahl 300 stammt nicht aus dem luftleeren Raum: für einfache Vergleiche zwischen zwei Gruppen liefert eine Gesamtstichprobe von ~300 Verkäufen (ca. 150 pro Variante) genug statistische Power, um moderate Effekte zu entdecken (z. B. 8–12 Prozentpunkten Unterschied in Conversion‑Rate) unter üblichen POS‑Schwankungen. Wichtig ist, dass die Verkäufe in einem kompakten Zeitfenster stattfinden, damit externe Faktoren (Wetter, Promotionen, Lieferengpässe) die Vergleichbarkeit nicht verzerren.
Kooperation mit dem Handel und Logistik
Ohne den Rückhalt eines kooperierenden Händlers geht wenig. Ich habe folgenden Ablauf gewählt:
Wichtig: Die Warenbewegungen mussten über das reguläre Kassensystem laufen, damit echte Umsatzzahlen und Kassenbons vorliegen. Wir haben zwei SKU‑Nummern vergeben (A und B), damit die Kasse sofort unterscheidet.
Randomisierung und Laufzeit
Randomisierung am POS ist eine Herausforderung — in einem Laden kann man nicht zwei unterschiedliche Preise für ein einziges Regal platzieren. Wir haben deshalb zwei Strategien kombiniert:
Beide Ansätze haben Vor‑ und Nachteile. Paralleltests vermeiden Saisonalität, erfordern aber ähnlichen Traffic; sequenzielle Tests sind logistisch einfacher, laufen aber Gefahr von Trendverfälschungen. Bei unserem Vorhaben kombinierten wir beides: zwei Filialen parallel über zwei Wochen, insgesamt ca. 14 Tage Laufzeit, um die 300 Verkäufe zu erreichen.
POS‑Materialien und Preiswahrnehmung
Die Art, wie Preis kommuniziert wird, beeinflusst Kaufentscheidungen stark. Wir setzten auf klare Preisschilder, die sowohl den Preis pro Einheit als auch den Preis pro 100 g zeigten. Zusätzlich hatten wir eine kleine Schild‑Botschaft: „Neue Portionsgröße — ideal für unterwegs“, ohne die Wahrnehmung des Preises zu manipulieren.
| Element | Begründung |
|---|---|
| Preis pro Einheit | entscheidend für Impulskäufe |
| Preis pro 100 g | für faire Vergleichbarkeit gegenüber 60 g |
| Kurzbotschaft | kommuniziert Benefit ohne Rabattsignal |
Datenerfassung und ergänzende Methoden
Primärdaten kamen aus dem Kassensystem (SKU‑Verkäufe, Uhrzeit). Ergänzend sammelten wir:
Wichtig war, die Daten täglich zu prüfen, um bei großen Abweichungen schnell reagieren zu können (z. B. Fehlpreise, falsche Platzierung).
Auswertung: Statistik pragmatisch angewandt
Ich empfehle einen pragmatischen statistischen Ansatz: Chi‑Quadrat‑Test oder Z‑Test auf die Differenz der Absatzraten, ergänzt durch Konfidenzintervalle für Umsatzunterschiede. Wir berechneten:
In unserem Fall: Variante B (40 g, 2,19 €) erzielte 165 Verkäufe vs. 135 Verkäufe für Variante A über die Testperiode. Das ergab einen signifikanten relativen Anstieg von ~22 % (p < 0,05) und einen leicht höheren Umsatz pro Regalfläche, obwohl der Umsatz pro 100 g sank — ein akzeptabler Trade‑off für Händler, die kleinere Preise pro Transaktion bevorzugen.
Häufige Fallstricke
Transferierbare Learnings
Aus diesem Test habe ich drei Kern‑Learnings mitgenommen, die ich regelmäßig weiterempfehle:
Wenn Sie diesen Ablauf für Ihre Marke adaptieren möchten, helfe ich gern bei der Vorbereitung von Hypothesen, Shop‑Selection, POS‑Materialien und der statistischen Auswertung — so vermeiden Sie die typischen Fehler und kommen mit belastbaren Zahlen zurück an die Verhandlungstische von Handel und Investoren.