Während des Sommersemesters 2014 habe ich im Seminar E-Commerce das Thema „Multivariates Testing als Methode der quantitativen Website-Optimierung“ bearbeitet. Ziel der Arbeit war es, Multivariates Testing (auch kurz MVT genannt) aus vielen verschiedenen Perspektiven zu betrachten. In diesem Blogbeitrag werde ich nicht sehr tief auf die Funktionsweise eine Multivariaten Tests eingehen, da dies der Erläuterung bestimmter statistischer Methoden bedarf und den Rahmen sprengen würde. Ich werde stattdessen Gründe für Testing aufzeigen, auf typische Fehler eingehen und MVT zu A/B-Tests abgrenzen.
Warum Website Testing?
Im E-Commerce sind es oft kleine Faktoren, die einen großen Unterschied bewirken können. Nach aktuellen Zahlen des Bundesverband E-Commerce und Versandhandel Deutschland e.V. steigt das Marktvolumen im E-Commerce weiterhin rasant an (siehe: bveh-Jahrespressekonferenz 2014) [1]. Eine logische Konsequenz ist, dass auch Traffic durch den steigenden Wettbewerb immer teurer wird. Daher gilt es, den Traffic auf der eigenen Webseite möglichst effektiv zu nutzen. Was ist schlimmer, als dass man sich für viel Geld SEA-Traffic (Traffic aus bezahlten Suchmaschinen-Anzeigen) auf eine Webseite einkauft, dieser Traffic aber dann aus unbekannten Gründen nicht konvertiert? Man benötigt also ein Mittel um herauszufinden, welche Veränderungen einen positiven Einfluss auf zuvor definierte Kennzahlen haben. Für diesen Zweck gibt es Website Testing.
Mithilfe von quantitativen Tests lassen sich relativ einfach verschiedene Versionen einer Webseite gegeneinander testen, um Zahlenmaterial zur Entscheidungsunterstützung zu erhalten. Entscheidungen müssen dann nicht basierend auf subjektiven Meinungen Einzelner getroffen werden, denn durch Tests lassen sich Veränderungen einer Webseite objektiv bewerten. Zum Glück, denn es wäre purer Zufall, wenn der persönliche Eindruck des Betreibers auch den der Website-Besucher wiederspiegelt. Ohne Webanalyse-Daten, die die Eindrücke der Besucher darstellen, ist man daher beim Design einer Webseite hoffnungslos verloren. Man kann sich nicht einfach in die Nutzer hineinversetzen – nach einer Aussage des bekannten Web-Analysten Avinash Kaushik [2] liegt man in 80 Prozent der Fälle falsch, wenn man meint, man wisse, was Nutzer der eigenen Seite wirklich wollen. Als Betreiber hat man eine gewisse Betriebsblindheit entwickelt. Man steht der eigenen Firma, deren Produkten und der Webseite zu nah, um sie objektiv zu beurteilen. Im Laufe der Zeit hat man sich an die Webseite gewöhnt, man verhält sich anders als Außenstehende.
Daher ist Website Testing eine wichtige Methode, um Vermutungen bzw. Hypothesen, die subjektiv sind, mit objektiven Ergebnissen zu bestätigen oder zu widerlegen. Eine dieser Testmethoden ist Multivariates Testing.
Multivariates Testing – Ein Beispiel
Multivariates Testing ermöglicht das gleichzeitige Testen vieler Kombinationen von Elementen einer Webseite. Die Webseite wird zerlegt in Elemente, von denen dann unterschiedliche Varianten und Kombinationen getestet werden können [3]. Man kann die Zusammenhänge zwischen vielen verschiedenen Veränderungen erkennen [4]. Da dabei sehr schnell mehrere hundert Kombinationen zusammenkommen und es auch eine mögliche Beeinflussung der Elemente untereinander zu beachten gilt, kommen statistische Verfahren zum Einsatz. Grundlegend kann man einen MVT jedoch so verstehen, dass jeder Besucher der zu testenden Webseite, der Teil der Testgruppe ist, beim Besuch eine etwas andere Webseite ausgeliefert bekommt. Nachfolgend möchte ich anhand eines fiktiven Beispiels kurz den Prozzes eines Multivariaten Tests erklären [5].
Entwicklung von Hypothesen
Zu Beginn eines Multivariaten Tests sollte immer eine grundlegende Fragestellung stehen, die man beantworten möchte. Ohne eine solche Fragestellung kann man das Vorgehen nicht „optimieren“ oder „testen“ nennen, sondern es entspräche eher „herumprobieren“. Es sollten Hypothesen getroffen werden, die dann im Test bewiesen oder widerlegt werden. Es ist jedoch nicht zielführend, Hypothesen einfach aus der Luft zu ziehen. Schlechte, oberflächliche Hypothesen resultieren in schlechten Ergebnissen [6]. Als Ausgangspunkt zur Entwicklung von Hypothesen können jegliche Daten über Nutzungsverhalten der Webseite dienen. Dazu zählen unter anderem Daten aus Web Analytics-Systemen oder Usability-Tests, aber auch Daten aus vergangenen MVTs können und sollten in einen neuen Multivariaten Test einfließen – so wird der Testprozess iterativ [7]. Als Beispiel möchte ich ein Anmeldeformular für eine kostenlose Testversion eines Software-Tools heranziehen. Eine Hypothese dafür könnte lauten: „Die Erwähnung von ‚FREE‘ in der Formular-Überschrift erhöht die Conversion Rate.“
Level und Varianten
In der nachfolgenden Abbildung ist das Anmeldeformulars zu sehen, welches ich als Testobjekt für dieses Beispiel verwendet habe.
Das Ziel des Formulars liegt eindeutig darin, Anmeldungen zu generieren und somit die Kontaktinformationen von Interessenten zu erhalten. Als Kennzahl für den Erfolg kann die Conversion Rate (Anteil der Besucher des Formulars, die sich tatsächlich angemeldet haben) herangezogen werden. Im nächsten Schritt werden Bereiche bzw. Elemente festgelegt, die im Rahmen des Tests optimiert werden sollen. Im Beispiel wurden fünf Elemente ausgewählt (siehe farbliche Markierung in Abbildung 1):- Formulierung der Überschrift (rot)
- Darstellung / Reihenfolge / Gestaltung der Formularfelder (violett)
- Gestaltung des Anmelde-Buttons (gelb)
- Darstellung der Testimonials (blau)
- Vorhandensein von Vertrauenssiegeln (grün)
Anschließend müssen für jedes dieser Elemente, die auch Level genannt werden, mögliche Variationen ausgearbeitet werden. Für Level 1 wären Folgende denkbar:
- “Get a Free Trial Now”
- „Test it for Free“
- „Wanna Give it a Try?“
Genauso werden auch für die restlichen Level Variationen konzipiert. Mit diesen Level und Variationen ist nun eine hohe Anzahl an Kombinationen denkbar. Dazu wird die Anzahl der Variationen aller Level multipliziert.
Anhand dieses Beispiels kann man sich die Funktionsweise eines Multivariaten Tests gut vorstellen. Die weiteren Schnitte möchte ich nachfolgend nur kurz nennen, um den Rahmen nicht zu sprengen.
Weitere Schritte und Durchführung
Im ersten Schritt nach der Festlegung der Inhalte des Tests gilt es zu überlegen, welche und wie viele Besucher am Test teilnehmen werden. Üblicherweise nimmt nur eine festgelegte Testgruppe am Test teil, der Rest sieht als Kontrollgruppe beim Besuch die unveränderte Webseite. Die Testgruppe („Sample“) muss nun so ausgewählt werden, dass sie repräsentativ für die Grundgesamtheit aller Seitenaufrufe ist.
In einem weiteren Schritt werden mithilfe von statistischen Verfahren die genaue Teilnehmerzahl und Testdauer ermittelt. Wie lange muss der Test laufen, damit das Ergebnis zuverlässig ist? Ab wann eine gewisse Sicherheit erreicht ist, kann bei multivariaten Tests mithilfe so genannter Konfidenzintervalle gesagt werden [9]. Durch diese Intervalle wird die Wahrscheinlichkeit beschrieben, dass ein erzieltes Ergebnis tatsächlich die (unbekannte) Wirklichkeit abbildet. Übliche Konfidenzniveaus bei Marktforschungen 95 Prozent, ein Fehler von 5 Prozent wird hingenommen. Ein Shopmanager muss diese Berechnungen selbstverständlich nicht händisch durchführen, ein Testsystem führt all diese Berechnungen automatisch durch.
Nachdem ein Test durchgeführt wurde und es ein Ergebnis mit ausreichendem Konfidenzniveau gibt, gilt es, das Ergebnis zu interpretieren. Nur weil es eine Gewinnervariante mit statistischer Signifikanz gibt, heißt das nicht, dass diesem Resultat einfach stupide geglaubt und das Ergebnis umgesetzt werden sollte. Man sollte als Betreiber verstehen, warum diese Variante gewonnen hat – nur so kann ein Erkenntnisgewinn erfolgen. Basierend auf Usability-Expertise und Erfahrung muss das Ergebnis auf seine Güte geprüft werden. Der Autor André Morys schreibt dazu im Blog konversionsKRAFT: „Statistische Signifikanz ist nicht gleich Validität. Letzteres streben wir an, die Signifikanz ist nur ein Zwischenschritt, sozusagen das Minimal-Ziel.“ [10] Außerdem wird empfohlen, das Ergebnis anhand anderer Tests – beispielsweise eines A/B-Tests – zu validieren. Zur Qualität der Ergebnisse gibt es abschließend noch zu sagen, dass mit einer guten Vorbereitung, also unter anderem sinnvollen Hypothesen, die man inhaltlich wirklich versteht, auch bessere Ergebnisse von hoher Güte erhält.
Obwohl es mittlerweise sehr ausgereifte Testsysteme gibt, die verwendet werden, um die Varianten entsprechend dem Konzept einzuspielen, den Erfolg der Kombinationen zu messen und den Test auszuwerten, ist dennoch fundiertes Expertenwissen sehr hilfreich. Zur Durchführung von Multivariaten Tests wird daher oft mit einem Dienstleister zusammengearbeitet und/oder ein externes Testsystem verwendet.
Technisch betrachtet werden in den meisten Fällen auf der eigenen Webseite nur die mit Test-Inhalten zu füllenden Bereiche definiert. Beim Aufruf werden dann vom Testsystem die entsprechenden Inhalte der Variante mit JavaScript aus dem externen Testsystem nachgeladen und angezeigt. Mithilfe von Cookies markiert das Testsystem dann noch auf dem Endgerät des Nutzers, welche Kombination dieser gesehen hat, um ihm bei späteren Besuchen wieder die selbe Variante anzuzeigen, damit der Nutzer nicht verwirrt wird. Andererseits sollte jedoch auch erwähnt werden, dass bei vorhandenem Expertenwissen und Ressourcen ein MVT auch selbst entwickelt und durchgeführt werden kann, ohne auf externe Systeme oder Ressourcen zurückzugreifen.
Typische Fehler
Laut Avinash Kaushik gibt es zwei typische Fehler, die es zu vermeiden gilt [2]. Zunächst sollte man den berühmten Spruch “garbage in, garbage out” beachten. Nur mit einer guten Vorbereitung, also sauber formulierten Hypothesen, die auf Vorwissen basieren können tatsächlich wertvolle Optimierungen stattfinden. Ein wildes, aus der Luft gegriffenes „Rumprobieren“ ohne wirkliche Hypothesen kann zwar zu signifikanten Testergebnissen führen, die jedoch keine hohe Güte aufweisen. Testergebnisse können nur so gut sein, wie die Hypothesen, die getestet werden. Diese wiederum können nur so gut sein, wie die vorhergehende Analyse der Seite (siehe auch: 5 grobe Testing-Fehler, die viel Geld kosten können) [11].
Außerdem sollte man nie den Blick für die gesamte Webseite verlieren. Man kann eine Landing Page noch so gut optimieren, es wird nie einen Anstieg der wichtigen Kennzahlen geben, wenn die weiteren Seiten, die danach folgen, keine Beachtung finden. An vielen Stellen „wird nur vorne optimiert“ [12]. Mit Multivariatem Testing kann immer nur eine Seite getestet werden, man sollte jedoch bei Entwickeln von Hypothesen auch an das gesamte Unternehmen denken. Daher ist auch die Auswahl der Erfolgskennzahl sehr wichtig. Wenn es technisch möglich ist, kann man beispielsweise versuchen, Retouren in die Conversion Rate eines MVT mit längerer Laufzeit einzubeziehen.
Ein weiterer Fehler ist, dass Shopmanager oft versuchen zu schnell Rückschlüsse zu ziehen und nicht sorgfältig genug mit Ergebnissen umzugehen. Man sollte immer Wert auf ein hohes Konfidenzniveau legen und zusätzlich immer alle Ergebnisse gewissenhaft hinterfragen [10]. Erst wenn man versteht, warum eine Variante der haushohe Gewinner eines Tests ist, kann man mit der Umsetzung der Ergebnisse starten. Reine Zahlen, die man nicht versteht, sind nicht viel wert. Weiterhin gilt es zu beachten, auch einen „Blick über den Tellerrand“ zu wagen und nicht nur auf die Optimierung der eigenen Webseite zu verharren. Eine traumhafte Conversion Rate ist nutzlos, wenn die absolute Anzahl der Besucher verschwindend gering ist [12]. Nicht immer liegt der Grund für fehlende Umsätze im Onpage-Bereich. Vielleicht liegen die Probleme bei der Traffic-Generierung oder der Sortiments-Auswahl.
Abgrenzung: A/B-Test
Der A/B-Test wird auch „Split-Test“ genannt und ist ebenfalls eine Methode, quantitativ verschiedene Versionen einer Webseite gegeneinander zu testen. Eine weitere Gemeinsamkeit ist, dass immer eine Originalvariante gegen veränderte Varianten getestet wird [4]. Beim A/B-Test gibt es in der klassischen Form nur zwei Varianten, die gegeneinander getestet werden. Als A/B/n-Test wird er auf beliebig viele Varianten ausgedehnt. Bei der Konzeption der Testvarianten besteht komplette Freiheit, denn die einzelnen Testvarianten sind komplett unabhängig voneinander. Wechselwirkungen zwischen verschiedenen Elementen, wie man es vom MVT kennt, können hier nicht getestet werden. In nachfolgender Abbildung ist dieser generelle Unterschied gut zu erkennen.
Beim A/B-Test können im Gegensatz zum MTV komplett unterschiedliche Entwürfe gegeneinander getestet werden. Ein weiterer großer Vorteil ist außerdem, dass viel weniger Traffic benötigt wird, um ein bestimmtes Konfidenzniveau zu erreichen. Möchte man jedoch die Wechselwirkungen der einzelnen Änderungen untereinander analysieren, muss man zum MVT greifen.Fazit und Ausblick
Eine der Haupterkenntnisse meiner Ausarbeitungen ist, dass MVTs leider oft falsch angewandt werden. Schon bei der Entwicklung der Hypothesen werden große Fehler gemacht, wodurch die Ergebnisse an Güte verlieren. Bei korrekter Anwendung kann ein MVT eine sehr effiziente Methode zum Websiteoptimierung sein. Der Mehrwert liegt darin, dass viele Kombinationen aus verschiedenen Elementen auf Zusammenhänge hin getestet werden können.Bei der Abgrenzung zu Usability-Tests sowie A/B-Tests ist ersichtlich geworden, in welchen Phasen der Website-Entwicklung und zu welchem Zweck die Testverfahren angewendet werden sollten. Eine Erkenntnis war zudem, dass oft eine Kombination aus verschiedenen Testverfahren die richtige Wahl ist. Außerdem ist es wichtig, dass der Testing-Prozess im Unternehmen iterativ durchgeführt wird. Jedes Ergebnis bietet wiederum eine Grundlage, um Hypothesen für neue Tests zu entwickeln.
Für das allgemeine E-Commerce-Umfeld bieten MVT somit viele Chancen und Möglichkeiten. Jedoch sollte der Aufwand für Konzeption, Durchführung, Ergebnisanalyse sowie Umsetzung nicht unterschätzt werden. Im Vergleich zu anderen Testverfahren werden sowohl Expertise als auch die entsprechenden Ressourcen zur Umsetzung benötigt. Eventuell schrecken daher noch viele Betreiber vor dieser Methode zurück. Mithilfe von sehr ausgeklügelten Test-Systemen, die immer mächtiger und einfacher zu bedienen werden können auch Betreiber kleinerer Webseiten mit weniger Traffic erfolgreich MVT anwenden. Ein großes Verbesserungspotenzial sehe ich zudem in der Verknüpfung der Testing-Daten mit anderen Unternehmenskennzahlen. So können beispielsweise Retouren Einfluss auf die Conversion im MVT nehmen.
Abschließend ist zu sagen, dass durch Multivariates Testing ein enormes Verbesserungspotenzial genutzt werden kann. Bei der aktuellen Entwicklung im E-Commerce hin zu perfekt durchoptimierten Systemen und Schnittstellen kann sich eventuell bald kein großer Player mehr erlauben, auf dieses Potenzial zu verzichten.
Fußnoten:
[1] siehe Bundesverband E-Commerce und Versandhandel Deutschland e.V. (2014): Interaktiver Handel in Deutschland – Die Entwicklung des multichannel Online- und Versandhandels B2C im Jahr 2013, Hamburg
http://www.bevh.org/uploads/media/140218_Pressepräsentation_bvh-B2C-Studie_2013.pdf
[2] vgl. Kaushik, Avinash (2006): Experimentation and Testing: A Primer
http://www.kaushik.net/avinash/experimentation-and-testing-a-primer
[3] vgl. Morys, André (2011): Conversion-Optimierung – Praxismethoden für mehr Markterfolg im Web, entwickler.press, Frankfurt am Main, S. 45
[4] vgl. Krüger, Jörn Dennis (2011): Conversion Boosting mit Website Testing, Verlagsgruppe Hüthig Jehle Rehm, Heidelberg, S. 147-149
[5] Das Beispiel ist frei erfunden, der generelle Testprozess ist angelehnt an Reese, Frank (Hrsg.) (2009): Website Testing – Conversion Optimierung für Landing Pages und Online-Angebote, BusinessVillage, Göttingen, Kapitel IX (S. 168ff).
[6] vgl. Morys, André (2012): Die Testing-Falle, in die jeder mal tappt
http://www.konversionskraft.de/conversion-optimierung/testing-falle.html
[7] vgl. Brückmann, Manuel (2012): 10 Schritte Bestpractice zum Testingprozess
http://www.konversionskraft.de/checklisten/10-schritte-bestpractice-zum-testingprozess.html
[8] Testbereiche in der Grafik frei erfunden, als Grundlage für die Oberfläche wurde ein Screenshot des folgenden Anmeldeformulars verwendet:
AppFolio, Inc. (2014): Anmeldeformular “Sign Up For A Free Trial”, Goleta, USA
http://info.appfolio.com/try-it-free.htm
[9] vgl. Barth, Thorsten (2013): Konfidenz sollte man kennen
http://www.konversionskraft.de/tipps/testing-statistik-konfidenz-grundlagen.html
[10] vgl. Morys, André (2013): Die Conversion-Lüge Teil 1: Multivariate Tests und Buttonschubserei
http://www.konversionskraft.de/theorie/multivariate-tests.html
[11] vgl. Morys, André (2012): 5 grobe Testing-Fehler, die viel Geld kosten können
http://www.konversionskraft.de/theorie/5-testing-fehler-die-viel-geld-kosten.html
[12] vgl. Morys, André (2010): 3 Fehler beim A/B-Testing, die Sie übersehen
http://www.konversionskraft.de/conversion-optimierung/a-b-testing-probleme.html
[13] Eigene Abbildung, erstellt in Anlehnung an: Morys, André (2011): Conversion-Optimierung – Praxismethoden für mehr Markterfolg im Web, entwickler.press, Frankfurt am Main
Hi Jan, vielen Dank für deinen Artikel. Ich hatte 2009 meine Abschlussarbeit zum Thema „Gestaltung und Tests effektiver Landingpages zur Steigerung der Performance im SEA“ geschrieben. Ebenfalls an der FH-Wedel. Finde deinen Artikel sehr gut. In Bezug auf Landingpage-Tests lässt sich noch ergänzen, dass der Traffic und die Gestaltung des Werbemittels ebenfalls einen Einfluss auf die Performance hat. BG, Gerald