Wenn ich die Frage höre, «Wie lässt sich die willingness-to-pay für ein neues Proteinriegel‑Konzept mit 200 Realkäufen valide messen?», denke ich sofort an die Balance zwischen praktischer Umsetzbarkeit und methodischer Strenge. 200 echte Käufe sind ein wertvolles, aber begrenztes Datenset — ausreichend, um belastbare Hinweise zu bekommen, aber nicht alle Fragestellungen bis auf Nachkommastellen zu beantworten. Im Folgenden beschreibe ich einen pragmatischen Versuchsaufbau, wichtige KPIs, Analysewege und Fallstricke, die ich in Pilotprojekten mit Herstellern und Start‑ups immer wieder beobachte.
Warum echte Käufe besser sind als Befragungen
Marktforschung mit hypothetischen Fragen (z. B. „Würden Sie kaufen?“) überschätzt häufig die Zahlungsbereitschaft. Echte Transaktionen setzen einen monetären Anreiz und erzeugen incentive‑kompatible Entscheidungen. Mit 200 Realkäufen erhält man direkte Kaufpreise, tatsächliche Wiederkaufstendenzen und Daten zu Verweildauer/Retouren — allesamt weit aussagekräftiger als Selbstauskünfte.
Design: Randomisierte Preisvariation im Feld
Mein bevorzugtes Setup für 200 Käufe ist ein randomisiertes Preisexperiment, das sich sowohl im Online‑Shop als auch im stationären Testverkauf (Pop‑up, Sampling am PoS) umsetzen lässt. Grundprinzip:
- Definiere 4–6 Preislevel (z. B. 1,79 € / 2,29 € / 2,79 € / 3,29 € für einen Proteinriegel).
- Randomisiere Käufer oder Besucher auf diese Preisstufen (bei Online-Shop per Cookie/Session, im PoS per Kassenbarcode oder Zeitfenster mit unterschiedlichen Preisschildern).
- Sorge für klare, einheitliche Produktpräsentation (Claims, Verpackung, Positionierung), damit nur der Preis variiert.
- Erfasse Zusatzinformationen: Kanal, Werbekontakt, Demografie, Erst- vs. Folgekauf, Kombinationskäufe.
Wichtig: die Randomisierung muss sauber dokumentiert werden. Jede Verzerrung (z. B. bestimmte Zielgruppen sehen bevorzugt einen Preis) untergräbt die Validität.
Incentive‑kompatible Alternativen
Neben klassischen Preisarmen gibt es Mechanismen, die Zahlungsbereitschaft direkt abfragen, ohne auf hypothetische Antworten zu vertrauen:
- Becker‑DeGroot‑Marschak (BDM): Teilnehmer geben ihren Höchstpreis an; der tatsächliche Preis wird zufällig gezogen und verglichen. Wenn der gezogene Preis niedriger ist als die Angabe, kaufen sie zum gezogenen Preis — das System ist theoretisch ehrlichkeitsfördernd, praktisch aber aufwändiger in Feldtests.
- Second‑price‑Auktionen (Vickrey): funktionieren eher bei hochpreisigen oder limitierten Produkten, weniger für Low‑involvement wie Riegel.
- Rabatt‑Coupons mit Randomisierung: einfacher umsetzbar: unterschiedliche Rabattcodes repräsentieren Preisstufen; Einlösung = Kauf.
Statistische Power: Was lässt sich mit 200 Käufen detektieren?
200 Käufe sind nicht gleich 200 Beobachtungen pro Preisstufe. Bei 4 Preisarmen sind das im Schnitt 50 Käufe pro Arm. Das reicht, um mittlere Effekte zu identifizieren, aber nicht sehr feine Differenzen.
| Parameter | Typischer Wert | Interpretation |
|---|---|---|
| Gesamtzahl Käufe | 200 | Basisdatensatz |
| Preisarme | 4 | ~50 Käufe/Arm |
| Signifikanzniveau | 5 % | konventionell |
| Min. detectierbare Differenz (bei 50/Arm) | ~10–15 % absolute Kaufwahrscheinlichkeit | kleinere Effekte kaum signifikant |
Praxisregel: Wenn dein Ziel ist, die exakte Maximalzahl zu bestimmen, reichen 200 Käufe meist nicht. Wenn du jedoch Preis‑Ranges und robuste Indikatoren für die optimalen Preisanker suchst, sind 200 echte Käufe sehr informativ.
Analyseansatz: Modelle und KPIs
Ich kombiniere einfache deskriptive KPIs mit ökonometrischen Modellen:
- Deskriptiv: Conversion‑Rate pro Preisstufe, durchschnittlicher Warenkorbwert, Anteil Wiederkäufe, Retourenquote.
- Logit/Probit: Modellieren der Kaufwahrscheinlichkeit als Funktion des Preises und von Kontrollen (Alter, Kanal, Werbekontakt). Das ergibt elastizitätsähnliche Kennzahlen.
- Heterogenitätsanalyse: Segmentiere nach Proteinbedürfnis (z. B. Sportler:innen vs. Gesundheitsorientierte), Kanälen oder Geschmackspräferenz — häufig variieren WTP deutlich zwischen Segmenten.
- WTP‑Berechnung: Aus den Koeffizienten des Logit‑Modells lässt sich die implizite Zahlungsbereitschaft schätzen (Marginal Rate of Substitution zwischen Attributen und Preis).
KPIs, die ich tracke
- Conversion‑Rate pro Preisstufe
- Average Order Value und Zusatzkäufe
- Net Revenue per Visitor (NRPV)
- Return Rate & Customer Feedback
- Wiederkaufrate innerhalb 30/90 Tagen
- Segmentierte WTP‑Schätzungen
Praktische Tipps zur Durchführung
- Sorge für Transparenz im Produktversprechen — Preis ist die Variable, nicht Packaging Claims.
- Teste nicht zu viele Preisstufen; 3–5 sind praxisgerecht.
- Kalibriere gegen Einkäufe ähnlicher Produkte (Marktpreis) — ein neues Riegelkonzept kann anders bewertet werden als ein bekannter Markenriegel.
- Denk an externe Effekte: Starke Promotion in einer Phase kann Nachfrage verfälschen. Halte Marketingaktivitäten konsistent.
- Berücksichtige Kanalunterschiede: Online‑Shops erlauben präzisere Randomisierung; im PoS musst du mit praktischen Lösungen (z. B. temporäre Preisschilder) arbeiten.
- Ergänze Käufe um kurze Post‑Purchase‑Surveys (1–2 Fragen) zur Motivation und Preiswahrnehmung — kurz und optional, um Abbruchraten zu vermeiden.
Typische Fallstricke
Aus meiner Erfahrung sind dies die häufigsten Probleme:
- Non‑random Attrition: Manche Käufer lösen Coupons häufiger ein; ohne Kontrolle verfälscht das die Ergebnisse.
- Learning & Cannibalization: Wenn du dasselbe Publikum wiederholst, verändern sich Präferenzen durch Erfahrung oder Substitution zu anderen Produkten.
- Skalierungseffekte: Produktionskosten und Handelsspannen ändern sich bei größeren Volumina; WTP muss wirtschaftlich bewertet werden (nicht nur Nachfrage).
- Hochfrequente Rabattkultur: In Kanälen mit regelmäßigem Promotionsverhalten müssen Testpreise den realen Netto‑Preisblick der Konsumenten widerspiegeln.
Interpretation: Was heißt «valid messen»?
Validität bedeutet für mich drei Dinge:
- Interne Validität: Die Preis‑Effekte sind kausal (saubere Randomisierung).
- Externe Validität: Die Ergebnisse sind übertragbar auf den Zielmarkt (kanalspezifische Anpassung, realistische Präsentation).
- Ökonomische Validität: Gefundene WTP‑Niveaus müssen mit Kosten- und Margenzielen verknüpft werden.
Mit 200 Realkäufen erreichst du besonders gut die interne Validität und bekommst belastbare Hinweise auf Segmentunterschiede. Für exakte Preiscipline‑Entscheidungen (z. B. Preissetzung bis auf 5 Cent) wäre ein größeres Feld oder wiederholte Tests sinnvoll.
Wie ich es in einem Pilotprojekt umgesetzt habe
Ein Beispiel aus einem Projekt: Wir testeten einen High‑Protein‑Riegel mit Positionierung „Low Sugar + Nährstoffdichte“. Wir nutzten 3 Preisstufen und kombinierten Online‑Coupon‑Codes mit einem PoS‑Pop‑up. Nach 14 Tagen hatten wir 240 Transaktionen — 180 mit vollem Datenprofil. Die Analyse zeigte:
- Deutliche Segmentdifferenz: Sportaffine zahlten im Schnitt 15–20 % mehr als gesundheitsorientierte Gelegenheitskäufer.
- Optimale Preisrange lag 10–15 % unter dem Premium‑Reference‑Preis, weil viele Käufer vergleichen.
- Wiederkauf innerhalb 30 Tagen war der beste Indikator für langfristige Zahlungsbereitschaft.
Wir kombinierten diese Erkenntnisse mit Kostenrechnungen und entschieden uns für eine gestaffelte Einführung: Premium‑PoS mit höherem Preis und Promotions‑geführter Distribution mit Einstiegspreis — ein pragmatischer Kompromiss aus WTP‑Einschätzung und Handelsrealität.
Wenn Sie möchten, kann ich Ihnen anhand Ihrer Zielgruppe und Ihres geplanten Kanalmixes ein konkretes Testdesign mit Stichprobenplanung und Auswertungsplan erstellen — inklusive der minimalen Fallzahlen pro Preisstufe, um gewünschte Effekte sinnvoll zu detektieren.