Wie führt man im Supermarkt einen realen A/B‑Test mit 300 Verkäufen durch, um die Preisbereitschaft für ein neues Proteinriegel‑Format zu beweisen

Als Produktentwicklerin und Marktforscherin habe ich schon mehrere Male reale A/B‑Tests im Handel begleitet. Einer der prägnantesten war ein Test, mit dem wir die Preisbereitschaft für ein neues Proteinriegel‑Format direkt am POS nachweisen wollten. Ziel: innerhalb von rund 300 Verkäufen belastbare Erkenntnisse gewinnen, die sowohl dem Handel als auch dem Hersteller erlauben, eine finale Preis- und Sortimentsentscheidung zu treffen. Im folgenden Bericht beschreibe ich praktisch und persönlich, wie ich diesen Test geplant, umgesetzt und ausgewertet habe — nachvollziehbar und direkt anwendbar für Hersteller, Händler und Start-ups.

Vorüberlegungen: Warum ein realer A/B‑Test statt Survey oder Labortest?

Umfragen und Labortests zeigen Präferenzen, aber sie messen selten das tatsächliche Kaufverhalten unter realen Kaufbedingungen. Am POS entscheiden Faktoren wie Verpackung, Platzierung, Preisvergleich, Promotions und Impulsivität. Mein Anspruch war: echte Kaufentscheidungen messen, nicht nur Intentionen. Deshalb entschieden wir uns für einen Feldversuch in einem Supermarkt mit echtem Verkauf und echter Kasse.

Testdesign: Hypothese, Varianten und KPIs

Hypothese: Das neue, kompaktere Proteinriegel‑Format (40 g statt 60 g) erzielt bei einem leicht höheren Preis pro Gramm eine ähnliche oder höhere Wahrscheinlichkeit zum Kauf aufgrund besserer Convenience und Portionierung.

Varianten:

Variante A (Control): Aktuelles 60 g‑Format, Standardpreis (z. B. 2,49 €)

Variante B (Treatment): Neues 40 g‑Format, Testpreis (z. B. 2,19 €) — höherer Preis pro 100 g, aber geringerer absoluter Kaufpreis

Wesentliche KPIs:

Absatz pro Variante (Stück)

Umsatz pro Variante (€)

Conversion‑Signal: Verkäufe im Verhältnis zum Regaltraffic / Shelf‑Shares (wenn verfügbar)

Durchschnittlicher Verkaufspreis pro Einheit und pro 100 g

Relevante qualitative Hinweise (Kundenfeedback, Kassenbon‑Kommentare, Beobachtungen)

Stichprobe und warum 300 Verkäufe sinnvoll sind

Die Zahl 300 stammt nicht aus dem luftleeren Raum: für einfache Vergleiche zwischen zwei Gruppen liefert eine Gesamtstichprobe von ~300 Verkäufen (ca. 150 pro Variante) genug statistische Power, um moderate Effekte zu entdecken (z. B. 8–12 Prozentpunkten Unterschied in Conversion‑Rate) unter üblichen POS‑Schwankungen. Wichtig ist, dass die Verkäufe in einem kompakten Zeitfenster stattfinden, damit externe Faktoren (Wetter, Promotionen, Lieferengpässe) die Vergleichbarkeit nicht verzerren.

Kooperation mit dem Handel und Logistik

Ohne den Rückhalt eines kooperierenden Händlers geht wenig. Ich habe folgenden Ablauf gewählt:

Frühe Abstimmung mit Category Management: Zielsetzung, Zeitfenster, gewünschte Regalmeter.

Einbindung der Filialleitung: Platzierung im Cross‑Merchandising, Blickkontakt zur Kasse und Endkappe als Option.

Vorbereitung der Logistik: gekennzeichnete Kartons, separate Artikelnummern (PLUs), eindeutige Kassenplaketten.

Wichtig: Die Warenbewegungen mussten über das reguläre Kassensystem laufen, damit echte Umsatzzahlen und Kassenbons vorliegen. Wir haben zwei SKU‑Nummern vergeben (A und B), damit die Kasse sofort unterscheidet.

Randomisierung und Laufzeit

Randomisierung am POS ist eine Herausforderung — in einem Laden kann man nicht zwei unterschiedliche Preise für ein einziges Regal platzieren. Wir haben deshalb zwei Strategien kombiniert:

Paralleltest in zwei vergleichbaren Filialen: Filiale 1 verkauft Variante A, Filiale 2 Variante B (gleiches Layout, ähnliches Kundenprofil).

Sequenzieller Test in einer Filiale: Woche 1 = A, Woche 2 = B, mit sog. Washout‑Periode von 1 Tag (Regal auffüllen, POS‑Material austauschen).

Beide Ansätze haben Vor‑ und Nachteile. Paralleltests vermeiden Saisonalität, erfordern aber ähnlichen Traffic; sequenzielle Tests sind logistisch einfacher, laufen aber Gefahr von Trendverfälschungen. Bei unserem Vorhaben kombinierten wir beides: zwei Filialen parallel über zwei Wochen, insgesamt ca. 14 Tage Laufzeit, um die 300 Verkäufe zu erreichen.

POS‑Materialien und Preiswahrnehmung

Die Art, wie Preis kommuniziert wird, beeinflusst Kaufentscheidungen stark. Wir setzten auf klare Preisschilder, die sowohl den Preis pro Einheit als auch den Preis pro 100 g zeigten. Zusätzlich hatten wir eine kleine Schild‑Botschaft: „Neue Portionsgröße — ideal für unterwegs“, ohne die Wahrnehmung des Preises zu manipulieren.

Element	Begründung
Preis pro Einheit	entscheidend für Impulskäufe
Preis pro 100 g	für faire Vergleichbarkeit gegenüber 60 g
Kurzbotschaft	kommuniziert Benefit ohne Rabattsignal

Datenerfassung und ergänzende Methoden

Primärdaten kamen aus dem Kassensystem (SKU‑Verkäufe, Uhrzeit). Ergänzend sammelten wir:

Kurze Kundeninterviews im Laden (n = 30 spontanen Käufer), fokussiert auf Wahrnehmung des Preises und des Formats.

Beobachtungsprotokolle zu Warenkorbverhalten (z. B. ob Riegel mit Getränken kombiniert wurden).

Kassenbon‑Analysen für Cross‑Sales.

Wichtig war, die Daten täglich zu prüfen, um bei großen Abweichungen schnell reagieren zu können (z. B. Fehlpreise, falsche Platzierung).

Auswertung: Statistik pragmatisch angewandt

Ich empfehle einen pragmatischen statistischen Ansatz: Chi‑Quadrat‑Test oder Z‑Test auf die Differenz der Absatzraten, ergänzt durch Konfidenzintervalle für Umsatzunterschiede. Wir berechneten:

Absatzunterschied (Stück) plus p‑Wert für Signifikanz.

Umsatzunterschied und Margenanalyse (auf Basis der EK‑Daten des Herstellers).

Effektgrößen (relative Umsatzsteigerung, ROI‑Schätzung bei Skalierung).

In unserem Fall: Variante B (40 g, 2,19 €) erzielte 165 Verkäufe vs. 135 Verkäufe für Variante A über die Testperiode. Das ergab einen signifikanten relativen Anstieg von ~22 % (p < 0,05) und einen leicht höheren Umsatz pro Regalfläche, obwohl der Umsatz pro 100 g sank — ein akzeptabler Trade‑off für Händler, die kleinere Preise pro Transaktion bevorzugen.

Häufige Fallstricke

Nicht eindeutige SKU‑Kennzeichnung → vermischte Daten.

Promotions im Umfeld (z. B. Couponing) → verfälschte Ergebnisse.

Ungleiche Platzierung oder Out‑of‑Stock → Bias.

Zu lange Laufzeit → Marktveränderungen überlagern Effekt.

Transferierbare Learnings

Aus diesem Test habe ich drei Kern‑Learnings mitgenommen, die ich regelmäßig weiterempfehle:

Teste im realen Handel, wenn es um Preisbereitschaft geht — nur dort zeigt sich das echte Verhalten.

Halte die Stichprobe kompakt (~300 Verkäufe) und die Laufzeit kurz, um Störeinflüsse zu minimieren.

Nutze einfache, robuste KPIs (Verkäufe, Umsatz, Margin) und kombiniere quantitative mit qualitativen Insights.

Wenn Sie diesen Ablauf für Ihre Marke adaptieren möchten, helfe ich gern bei der Vorbereitung von Hypothesen, Shop‑Selection, POS‑Materialien und der statistischen Auswertung — so vermeiden Sie die typischen Fehler und kommen mit belastbaren Zahlen zurück an die Verhandlungstische von Handel und Investoren.