Angenommen, Sie hatten ein Experiment, das zu überraschenden Ergebnissen geführt hat, also haben Sie es mit einem neuen Experiment wiederholt. Oder sagen Sie, Sie haben eine Reihe separater Experimente für mehrere Kanäle, die zu unterschiedlichen Berichten aus derselben Hypothese führen. In der Vergangenheit hätte dies möglicherweise zu wenig aussagekräftige Experimentberichte ohne fundierte Beweise geliefert. Aber es gibt einen leistungsfähigeren Weg, um unsere Fähigkeit zu verbessern, ein Signal zu messen.
Bei eBay sammeln Experimentatoren oft mehrere Probenrunden für dieselbe Hypothese in einem A/B-Test oder wiederholen ein Experiment, das überraschende Ergebnisse hatte. Manchmal führen Experimentatoren auch separate Experimente für jeden Standort oder Kanal durch, was zu unterschiedlichen Berichten derselben Hypothese führt. Angenommen, Experimentatoren möchten die Wirkung eines neuen Designs messen, das auf allen eBay-Websites eingeführt werden soll. Um die Entscheidung zu beschleunigen, müssen sie nicht warten, bis das neue Design auf allen über 20 eBay-Sites implementiert ist, wenn dies nicht auf einmal in einem Sprint geschehen kann. Stattdessen können sie nach und nach einzelne Experimente Standort für Standort durchführen und am Ende einen kombinierten Bericht verlangen. Die getrennte Einrichtung ist oft auf technische Überlegungen und neugierige Analysten/Produktmanager bezüglich der kombinierten Anzeige zurückzuführen.
In diesem Artikel diskutieren wir eine leistungsstarke Metaanalysemethode, gewichteter Z-Test, das Messwerte (einschließlich p-Werte, Lift, KI usw.) aus mehreren unabhängigen Experimenten für dieselbe Hypothese kombinieren kann. Wie von Dmitri Zaykin, einem Biostatistiker am NIH, diskutiert, erhöht es effektiv die Leistung und damit die Fähigkeit, ein Signal zu messen. Viele Praktiker in der Industrie ziehen oft die Metaanalyse von Fisher in Betracht, wie sie von Kohavi, einem Influencer für A/B-Tests, erwähnt wurde. Die Fisher-Metaanalyse kann jedoch nur für einseitige Tests funktionieren. Bei eBay haben wir den gewichteten Z-Test sorgfältig angewendet und möchten unsere Praktiken mit anderen Early Adopters teilen.
Der gewichtete z-Test bringt mehrere Vorteile zum Nulltarif. Durch die Nutzung aller gesammelten Proben in verschiedenen Experimenten macht der z-Test die kombinierte Anzeige leistungsfähiger und erzeugt die Effektivität eines viel größeren und robusteren Experiments. Wenn Ihre Experimente aufgrund von Faktoren wie einer kleinen Stichprobengröße zu schwach sind, können Sie sie kombinieren, um eine höhere statistische Aussagekraft, kleinere Konfidenzintervalle (KI) und weniger falsch positive Ergebnisse zu erzielen. Dieser kombinierte p-Wert kann verwendet werden, um eine Hypothese zu stützen, die in mehreren Experimenten getestet wurde, sodass eine Reihe von nicht signifikanten Ergebnissen nun insgesamt auf Signifikanz hindeuten kann.
Gewichteter Z-Test
Schauen wir uns einige technische Details an.1
Um zu verstehen, wie p-Werte kombiniert werden, nehmen Sie zunächst an, dass wir beobachten k Experimente mit p-Wert Pich und z-Statistik Zich für die i-ten Experimente. Der gewichtete z-Test verwendet auch ein experimentspezifisches Gewicht, wich, für jedes Experiment. Wie von Dmitri Zaykin besprochen, verwenden wir diese verschiedenen Gewichte, um unabhängige Tests zu kombinieren, um die Leistung zu maximieren.
Für die k Experimente ist der gewichtete z-Test zweiseitiger p-Wert
Wo Zich ist die z-Statistik des i-ten Experiments.
Lipták schlug vor, dass die Gewichte bei dieser Methode “proportional zur ‘erwarteten’ Differenz zwischen der Nullhypothese und der realen Situation und umgekehrt proportional zur Standardabweichung der im i-ten Experiment verwendeten Statistik gewählt werden sollten”.2
Da Heterogenität die Varianz beeinflussen kann, verwenden wir die Standardabweichung jedes Experiments, $SE_i$, um jede Z-Test-Statistik zu gewichten:
Wobei $SE_i = sqrt{frac{S_{iT}^2}{n_{iT}} + frac{S_{iC}^2}{n_{iC}}}$ (beachte, dass $S_{iT} $ und $S_{iC}$ sind die Standardabweichung von ichBehandlungs- und Kontrollgruppen des -ten Experiments.)
Steigerung von mehr Leistung
Darüber hinaus können wir eine einfache Baseline-Methode verwenden, die alle Proben in jedem Experiment zusammenfasst und die z-Statistik und den p-Wert berechnet.
Die folgenden Simulationen vergleichen die Leistung zwischen dem Basislinien- und dem gewichteten Z-Test. Insbesondere betrachten wir drei Situationen mit Heterogenitätseffekten:
-
Zufällig ausgewählter Mittelwert für die beiden Experimente, aber gleiche Einheitsvarianz
-
Zufällig ausgewählte Varianz für die beiden Experimente, aber gleicher Mittelwert
-
Sowohl Mittelwert als auch Varianz wurden für die beiden Experimente zufällig ausgewählt
Unten sehen Sie, dass der gewichtete z-Test ohne Verschlechterung des Typ-I-Fehlers eine bessere Trennschärfe erzielt, insbesondere wenn Heterogenitätseffekte auf die Varianz vorhanden sind.
Bewerbung bei ebay
Um die Leistungsfähigkeit des gewichteten z-Tests auszuschöpfen, können diese Experimente, die wir kombinieren möchten, orthogonal (z. B. in verschiedenen Ebenen oder Schwimmbahnen) oder sich gegenseitig ausschließend (auf verschiedenen Standorten oder Kanälen) ausgeführt werden. Alles, was wir brauchen, sind zwei Annahmen, die häufig erfüllt sind:
-
Testen Sie dieselbe Hypothese für alle Experimente (z. B. dieselben Varianten)
-
Kombinieren Sie unabhängige statistische Tests miteinander
Insbesondere bei eBay werden die beiden Annahmen zu sechs Prüfungen zusammengefasst:
-
Die Datenerhebung von Experimenten muss abgeschlossen sein
-
Keine Qualitätsprobleme, die Best Practice verhindern (z. B. mehr als eine Woche, kein Stichproben-Delta usw.)
-
Gleiches Verkehrsverteilungsverhältnis zwischen Behandlung und Kontrolle
-
Keine gemeinsame Steuerung für zwei Experimente
-
Nicht mehr als eine Woche Unterschied zwischen den Testdauern
-
Nicht mehr als drei Monate Unterschied zwischen den Teststartdaten
Wenn ein Experimentator mehrere Experimente kombinieren möchte, führt Touchstone (die Experimentierplattform von eBay) automatisch die Prüfungen durch. Nachdem alle sechs Prüfungen bestanden wurden, ist der Experimentator bereit, die Messwerte zu kombinieren, um die statistische Aussagekraft zu erhöhen. Nachfolgend veranschaulichen wir die Vorgehensweise anhand eines eBay-Beispiels.
Ein eBay-Beispiel
Stellen Sie sich den Fall vor, in dem Experimentatoren zwei Berichte, Experiment A und Experiment B, kombinieren möchten, die beide unsere Annahmenprüfungen bestehen. Das Domain-Team möchte die Auswirkungen auf das Einkaufserlebnis messen, wenn es Benutzern Artikel ohne Deduplizierung auf der Grundlage von zuvor angesehenen oder angeklickten Artikeln empfiehlt. Daher besteht die Behandlungsvariante darin, die Deduplizierungsregeln für alle Platzierungen auf dem Artikel zu entfernen Buchseite. Sie implementieren die Behandlung für die eBay-Website und die native App separat, sodass der Experimentator Stichproben durch zwei verschiedene Experimente sammelt (eines für die eBay-Website, das andere für die native App).
Unten finden Sie ein Beispiel dafür, wie Ergebnisse für die Metrik M kombiniert werden.
In jedem einzelnen Bericht haben wir:
Schritt 1: Berechnen Sie den Standardfehler pro Experiment mit $SE_i = sqrt{frac{S_{iT}^2}{n_{iT}} + frac{S_{iC}^2}{n_{iC}}}$ , wobei $S_{iT}$ und $S_{iC}$ die Standardabweichungen von sind ichBehandlungs- bzw. Kontrollgruppe des -ten Experiments.
Schritt 2: Berechne die Gewichte $w_i = 1mathop{/}SE_{i}$ und das normalisierte Gewicht $phi_i = frac{w_i^2}{sum_{i=1}^k{w_i^2}} $, die die Eigenschaft $sum_{i=1}^{k}{phi_i}=1$ erfüllen, was hilft, eine interpretierbare Kombination bereitzustellen.
Schritt 3: Kombinierte Z-Statistik berechnen: $Z_{combined}=frac{sum_{i=1}^k{w_iZ_i}}{sqrt{sum_{i=1}^k{w_i^2}} }$
Schritt 4: Kombinierten p-Wert berechnen: $p_{combined}=2times[1-Phi(left|Z_{combined}right|)]$
Schritt 5: Kombinierte Steigerung, KI und Mittelwerte berechnen.
-
$mu_{T} = sum_{i=1}^{k}{phi_i mu_{iT}}$ $mu_{C} = sum_{i=1}^{k}{phi_i mu_{iC}}$ $Delta_{combined} = mu_{T} – mu_{C}$
- $SE_{combined}=sqrt{sum_{i=1}^kphi_i^2SE_i^2}$
Durch Kombinieren von Experimenten verkleinern wir das Konfidenzintervall CI: Die Kombination ist empfindlicher als jedes der ursprünglichen Experimente.
Abschluss
Bei eBay nutzen wir den gewichteten Z-Test in Touchstone (Ebays Experimentierplattform) und bieten Experimentatoren eine Option zum Berechnen einer kombinierten Teststatistik, wenn Experimentatoren mehrere unabhängige Experimente mit derselben Hypothese durchführen. Es kombiniert effektiv alle gesammelten Proben, bietet mehr Leistung und erhöht die Fähigkeit, schwache Signale zu messen. Die Option ist jetzt für Produktmanager und Analysten bei eBay verfügbar.
Verweise
1. Fortgeschrittene Leser können Dmitri Zaykins Artikel für eine tiefergehende Diskussion lesen.
2. Lipták, T. (1958). Über die Kombination unabhängiger Tests.