Bei der Validierung der willingness-to-pay (WTP) für ein neues zuckerreduziertes Getränk habe ich bewusst auf echte Bezahlvorgänge gesetzt: nichts ersetzt das Verhalten von Kund:innen, die tatsächlich Geld ausgeben. In dieser Fallstudie beschreibe ich, wie ich mit rund 300 Realkäufen robuste Aussagen zur Preisbereitschaft machte und daraus eine differenzierte Preisstaffel für drei Handelskanäle ableitete.
Warum echte Käufe statt Umfragen?
Umfragen und hypothetische Methoden (Van Westendorp, Conjoint) sind schnell und günstig, aber sie neigen dazu, WTP zu überschätzen. Ich wollte vermeiden, dass wir Entscheidungen auf optimistischen Annahmen aufbauen. Echte Käufe zeigen, ob Konsument:innen bereit sind, das Produkt zum angebotenen Preis ins Warenkorb zu legen und zu bezahlen — inklusive psychologischem Commitment und Hürden wie Versandkosten oder Ladenweg.
Versuchsdesign: Struktur und Stichprobengröße
Mit 300 Realkäufen lässt sich bereits eine valide Abschätzung erreichen — vorausgesetzt, die Versuchsanordnung ist sauber. Ich habe folgende Aufteilung und Vorgehensweise gewählt:
- Testlaufzeit: 4 Wochen, um Saisonalität gering zu halten.
- Kanäle: E‑Commerce (D2C), Supermarkt (vollsortiment) und Discount. Diese drei Kanäle unterscheiden sich stark in Preiswahrnehmung, Promotionsverhalten und Zielgruppe.
- Preisstufen: fünf Stufen, die den erwarteten Marktbereich abdecken (von Einstiegs- bis Premiumpreis).
- Randomisierung: Preise wurden kanal- und zeitgestaffelt randomisiert, nicht auf individueller Ebene (pragmatisch für POS-Abläufe).
- Stichprobenverteilung: circa 100 Realkäufe pro Kanal, auf die fünf Preisstufen verteilt — damit ~20 Beobachtungen pro Preisstufe und Kanal.
| Parameter | Wert |
|---|---|
| Gesamtkäufe | ~300 |
| Kanäle | E‑Commerce, Supermarkt, Discount |
| Preisstufen | 5 (z. B. 0,99€ / 1,29€ / 1,59€ / 1,99€ / 2,49€) |
| Beobachtungen pro Stufe/Kanal | ~20 |
Die genauen Preise richten sich nach Kostenstruktur und Benchmarking (z. B. Premium-Limo vs. konventionelle Limo). Wichtig ist, dass die Stufen weit genug auseinander liegen, um Reaktionen sichtbar zu machen, aber realistisch bleiben.
Aufbau der Realkauf-Experimente
Ich nutzte unterschiedliche Mechaniken je Kanal, angepasst an operative Gegebenheiten:
- E‑Commerce (D2C): Preisvarianten wurden A/B-getestet auf Landing Pages bzw. Produktdetailseiten. Traffic kam über Social Ads und Newsletter, um konstante Conversion-Quellen zu haben. Checkout-Daten geben exakte Conversion-Raten.
- Supermarkt: Temporäre Preislabels und Scans in Testfilialen; Rabatt-Coupons im Regal mit Barcode, der eine variable Preisstufe aktivierte. Kassenbelege bzw. POS-System lieferten die Verkäufe.
- Discount: Promotion-Tage mit klar kommunizierten Preisen; da Discount-Käufer preisempfindlicher sind, habe ich hier zusätzliche Low-Preis-Stufen getestet.
Wichtig: Jede Preisvariation war für Kund:innen plausibel und rechtlich sauber gekennzeichnet (z. B. Testaktion). Außerdem gab es eine kleine, fixe Stichprobe an „Holdout“-Tagen ohne Promotion, um Baseline-Verhalten zu messen.
Welche Metriken habe ich erfasst?
Für jeden Kanal und jede Preisstufe habe ich mindestens folgende KPIs erhoben:
- Verkaufte Einheiten (Anzahl Käufe)
- Conversion-Rate (Visits → Käufe) im D2C
- Absatzrate pro Regalplatz / Store im stationären Handel
- Durchschnittlicher Warenkorbwert (AOV)
- Rückläufer / Retouren
- Wiederkaufs- bzw. Probierquote (Follow-up Kampagne nach 2 Wochen)
- Deckungsbeitrag pro Einheit (Preis minus variable Kosten inkl. Distribution)
Analyse: Von Kaufhäufigkeit zur WTP-Kurve
Mit den Rohdaten habe ich zwei komplementäre Ansätze genutzt:
- Gabor-Granger-artige Auswertung: Für jede Preisstufe berechnete ich die Kaufwahrscheinlichkeit (Verkäufe / Exponierte). Plotte ich diese Punkte, erhalte ich eine empirische Nachfragekurve.
- Logistische Regression: Ich modellierte die Kaufwahrscheinlichkeit als Funktion des Preises (und kanal- sowie zeitvariablen Controls). Das liefert Elastizitätsschätzungen und erlaubt Simulationen: z. B. wie verändert sich Absatz bei einem Preis von 1,39€ (nicht direkt getestet)?
Aus der Nachfragekurve berechnete ich den erwarteten Umsatz und den Deckungsbeitrag pro Preisstufe. Daraus lässt sich die preisoptimale Stelle (Umsatz- bzw. Gewinnmaximierung) bestimmen.
Beispielergebnis (fiktive Zahlen zur Illustration)
| Preis | Kaufwahrscheinlichkeit (D2C) | Absatz / Woche (Supermarkt) | Deckungsbeitrag/Einheit |
|---|---|---|---|
| 0,99€ | 8% | 50 | 0,20€ |
| 1,29€ | 6% | 40 | 0,50€ |
| 1,59€ | 4% | 30 | 0,80€ |
| 1,99€ | 2,5% | 20 | 1,20€ |
| 2,49€ | 1% | 8 | 1,70€ |
Aus diesen Daten ergab sich in diesem Beispiel für D2C ein umsatz‑ und deckungsbeitrags‑optimales Preisfenster um 1,29–1,59€. Im Discount war der optimale Bereich deutlich niedriger (0,99–1,29€), während der Supermarkt sowohl Volumen als auch höhere Preisakzeptanz erlaubte (1,29–1,99€), abhängig von Regalplatz und Promotion.
Channel-spezifische Preisstaffel ableiten
Die Praxis zeigt: Ein Preis für alle Kanäle funktioniert selten optimal. So bin ich vorgegangen:
- Definiere drei Preisbänder basierend auf experimentellen Ergebnissen: Entry (Discount), Core (Supermarkt) und Premium (D2C / Spezialhandel).
- Berücksichtige Handelsspannen: Handelsmargen sind unterschiedlich; ein Listenpreis muss so gesetzt werden, dass der Händler genug Spielraum für Promotion hat.
- Berücksichtige Kommunikationshow: Im Supermarkt kommuniziert man "weniger Zucker" als USP, im D2C kann man Storytelling zum Preis rechtfertigen.
- Lege Rules of Thumb fest: z. B. Discount-Listenpreis = Core-Listenpreis - 20%; D2C-Listenpreis = Core + 15–25% je nach Service/Convenience.
Risiken, Fallstricke und wie ich sie minimierte
Einige Punkte, auf die ich besonders geachtet habe:
- Sample Bias: Wer über Social Ads kommt, ist nicht gleich Discount-Shopper. Deshalb habe ich die Traffic-Quellen kanalgetrennt gesteuert.
- Promotion-Effekte: Temporäre Aktionen verzerren langfristige WTP-Schätzungen. Ich habe Follow-up-Tests ohne Promo durchgeführt.
- Größe der Stichprobe: 20 Beobachtungen pro Preis/Kanal reichen für grobe Abschätzungen, für präzise Elastizitäten würde ich 2–3× mehr anvisieren.
- Kannibalisierung: Einführungspreise können bestehende Produkte beeinflussen — Monitoring im selben Zeitraum war Pflicht.
Operationale Umsetzungsempfehlungen
Wenn Sie so einen Test nachbauen möchten, folgen Sie diesen Schritten:
- Starten Sie mit Markt- und Kostenbenchmarking: Ermitteln Sie realistisches Preisband.
- Definieren Sie klare Hypothesen (z. B. "Discount-Käufer akzeptieren max. 1,19€").
- Planen Sie Kanalspezifische Experimente mit Randomisierung und Holdouts.
- Erfassen Sie neben Verkäufen auch AOV, Wiederkauf und Deckungsbeitrag.
- Nutzten Sie logistische Regressionen zur Verallgemeinerung und Simulation.
- Setzen Sie eine initiale Preisstaffel im Markt und messen Sie weitere 4–12 Wochen nach Markteinführung.
Ein Realkauf-basiertes Vorgehen liefert praxisnahe, einkaufssichere Erkenntnisse. Mit rund 300 Käufen können Sie bereits fundierte Annahmen treffen — die Feinanpassung erfolgt dann durch Monitoring und iterative Tests im Live-Betrieb.