Website-Icon WebSpotting

Algorithmische Attribution im Multi-Channel Retailing

Um Konsumenten zu erreichen, werden von Unternehmen eine Vielzahl von Marketing- und Retailkanälen verwendet. Für Marketingkanäle werden signifikante Investitionen getätigt, wie Social Media-, Search Engine-, E-Mail-, Display Advertising, Print und TV. Diese sollen potentielle Kunden zur Webseite, App oder zum stationären Geschäft locken, um Conversions und den Umsatz anzukurbeln. Außerdem verwenden Nutzer entlang ihrer Customer Journey verschiedene Geräte, bevor sie einen Kauf tätigen. Die Einführung von Online Metriken, wie Click-Through-Rate (CTR) und Cost-Per-Acquisition (CPA), hat es Werbern einfach gemacht, ihr Budget zwischen online und offline Medien aufzuteilen. Daher nutzen Firmen aggregierte Kennzahlen, wie den zuletzt besichtigten Kanal vor einer Conversion, als Maßstab für Attribution. Durch die steigende Rate an Datenerhebungen in der Customer Journey und die immer komplexer werdenden Kaufprozesse, entstand in den letzten Jahren ein erhöhtes akademisches und praktisches Interesse an neuen Attributionsmodellen, denn die Kaufentscheidung wird nicht allein durch den ersten und letzten Kontaktpunkt beeinflusst. Die Customer Journey ihrer Kunden sollten Unternehmen aber kennen, denn nur so können sie identifizieren, welche Kontaktpunkte den höchsten Stellenwert belegen.

In diesem Beitrag geben wir einen Überblick über algorithmische Attributionsverfahren. Diese beziehen sich im Gegensatz zu den heuristischen Verfahren nicht auf einfache festgelegte Regeln. Im Gegensatz zu diesen Modellen, wird z.B. nicht dem letzten Touchpoint die gesamte Aufmerksamkeit zugeordnet, wie beim Modell Last-Click-Wins, sondern Algorithmische Modelle analysieren historische Konsumentendaten, um den einzelnen Touchpoints, innerhalb der Customer Journey eines Kunden, einen individuellen Wert zuzuordnen. Dadurch ist es möglich, mehr als einem Touchpoint die Anerkennung zu geben und das basierend auf dem Beitrag, den ein Touchpoint auf eine Conversion eines Kunden hat.

Entwicklung von heuristischen zu algorithmischen Attributionsmodellen

Verfahren

In diesem Abschnitt werden vier Verfahren behandelt, die genutzt werden können, um
Attributionsmodelle zu entwickeln. Die vier Verfahren sind Logistic Regression, Shapley
Values, Markov Modell und Neuronale Netze. Zum einen sind sie die am meisten
verwandtesten und zum anderen werden diese häufig in Kombination eingesetzt.

Logistic Regression

Logistic Regression ist ein Verfahren, welches verwendet wird, damit ein Modell entwickelt
werden kann, um Wahrscheinlichkeiten für das Eintreten bestimmter Ereignisse aufgrund von
Ausprägungen mehrere Variablen bestimmen zu können. Das Verfahren definiert die
Beziehung zwischen der abhängigen Variable, welche normalerweise binär ist und einer oder
mehrerer unabhängigen Variablen. Die unabhängigen Variablen müssen innerhalb einer
Gleichung nicht einheitlich sein und können jedes beliebige Skalenniveau aufweisen.
Shao und Li haben 2011 ein Modell entwickelt, bei dem Logistic Regression mit Bagging
kombiniert wird. Bagging, oder auch Bootstrap Aggregation, ist ein Verfahren, das dabei hilft,
die Varianz in den Daten zu reduzieren und stabile Schätzungen zu liefern. Die entwickelte
Methode nennt sich “Bagged Logistic Regression” und zeigt, dass diese eine vergleichbare
Klassifizierungsgenauigkeit, wie eine normale Logistic Regression erreicht, aber deutlich
stabiler den individuellen Beitrag des Kanals einschätzt. (Vgl. Shao und Li, 2011, S. 1-2)

Shapley Values

Das Shapley Value Verfahren ist ein allgemeiner Ansatz in der kooperativen Spieltheorie, um
einzelnen Merkmalen eine Gewichtung zuzuordnen. Sie gibt an, welchen Anteil ein
Werbekanal in Abhängigkeit einer charakteristischen Funktion erhalten kann. Der anteilige
Beitrag, der jedem Kanal zugeordnet wird, ist der Shapley Value. Das Verfahren behandelt
Kanäle gleichgültig und unabhängig von ihrer Reihenfolge innerhalb der Customer Journey.
Der Shapley Value jedes Kanals wird basierend auf seinem Beitrag zur Conversion-Rate oder
anderen KPIs berechnet.

Im Jahr 2018 haben Zhao et al. ein Verfahren namens “Ordered Shapley Value Method”
entwickelt. Die genannte Methode ist in der Lage, die Besuchsreihenfolge von Werbekanälen
zu berücksichtigen, den Rechenaufwand zu minimieren und den Umfang der Anwendbarkeit
auszubauen. Der neue Ansatz kann einen besseren Einblick in die Wirksamkeit von Werbekanälen geben und das bezogen auf die verschiedenen Stufen der Customer Journey eines Kunden. (Vgl. Zhao, Mahboobi, Bagheri, 2018, S. 2-4)

Markov Modell

Eine Markov-Kette beschreibt eine Sequenz von wahrscheinlich eintretenden Events. Die Wahrscheinlichkeit des Eintretens dieser Events ist nur abhängig vom vorherigen Zustand. Zukünftige Events in Markov-Modellen der ersten Ordnung beruhen also nur auf dem Zustand des gegenwärtigen und nicht auf dem vergangenen Event. Im Gegensatz dazu können Markov-Modelle der höheren Ordnung einen, oder mehrere Schritte in der Sequenz zurückschauen. Die Kanten zeigen die Wahrscheinlichkeit, sich von einem Zustand zum anderen zu bewegen.

Markov-Graph

Anderl et al. (2014) und ihre folgende Studie von 2016 verwenden ein übergeordnetes Markov-Ketten-Modell, um die Anteile der Marketingkanäle zu attribuieren. Aus praktischen Gründen schlagen sie vor, dass die dritte Ordnung die kompetenteste bei der Kalkulation der Ergebnisse des jeweiligen Marketingkanals ist. Anderl et al. haben außerdem berichtet, dass das Markov-Modell den folgenden Kriterien entspricht: Objektivität, akkurate Vorhersagegenauigkeit, Robustheit, Interpretierbarkeit, Vielseitigkeit und algorithmische Effizienz. (Vgl. Anderl et al., 2014 & Anderl et al., 2016)

Künstliche neuronale Netze

Künstliche neuronale Netze sind angelehnt an das menschliche Gehirn und bestehen aus einem Modell miteinander verbundener Neuronen, bzw. Knoten. Durch die spezielle Anordnung, Verknüpfung und implizierte Lerntechnik, lassen sich bestimmte Anwendungsprobleme, wie z.B. das Attributionsproblem, computerbasiert lösen. Eine für die algorithmische Attribution wichtige Art der neuronalen Netzwerke sind rekurrente neuronale Netzwerke, nachfolgend RNN genannt. Einfache neuronale Netze bestehen aus einer baumähnlichen Struktur, während RNNs eine Kreisstruktur aufweisen. Das bedeutet, dass einfache neuronale Netze, im Gegensatz zu rekurrenten neuronalen Netzwerken, keine Verbindung zu vorangegangenen Schichten haben. Das RNN wird dabei mit historischen Daten trainiert, um das Vorhersagen einer Conversion zu lernen.

Yang et al. haben 2020 in Kooperation mit Ebay ein neuartiges Deep-Learning Modell namens DeepMTA entwickelt. Die Vorteile dieses Modells sind zum einen die Interpretierbarkeit, die vorher eine große Schwachstelle von künstlichen neuronalen Netzwerken war. Die Interpretierbarkeit wurde durch die Verknüpfung von Deep Learning mit der Kooperativen Spieltheorie (Shapley Values) und der linearen Regression erreicht. Die lineare Regression dient als Bindeglied zwischen der Deep Learning Black Box und dem menschlichen Verstand. Außerdem werden drei wichtige Merkmale der Customer Journey berücksichtigt: die Sequenzreihenfolge der Ereignisse, die Häufigkeit der Ereignisse und der Time-Decay-Effekt. Zum anderen haben Sie mit ihrem Modell eine 91% Vorhersagegenauigkeit von Conversions erzielt. (Vgl. Yang, Dyer und Wang, 2020)

Zusammenfassung und Ausblick

Die Zielsetzung bestand darin einen Überblick zu dem aktuellen Stand der Wissenschaft über algorithmische Attributionen zu geben. Die erste algorithmische Attribution kam von Shao und Li 2011. Sie haben eine Kombination aus Logistic Regression und Bagging angewendet. Denn bereits zu Beginn wurde klar, dass Attributionen, die auf Algorithmen basieren, einen großen Nachteil haben – die Interpretation der Ergebnisse. Mit der Zeit sind die entwickelten Modelle komplexer geworden und haben mehrere Merkmale und Eigenschaften einer Customer Journey berücksichtigt. Gerade in den letzten Jahren hat die Weiterentwicklung von algorithmischen Attributionen stark zugenommen. Dies ist vor allem den Verfahren der künstlichen neuronalen Netze und des maschinellen Lernens zu verdanken, mit dessen Hilfe eine Vorhersage der Conversion-Wahrscheinlichkeit von 91% gelungen ist. Bei der Zuordnung, welchen Einfluss ein Werbemittel auf eine Conversion hat, gibt es immer noch Probleme. Unterschiedliche Modelle liefern unterschiedliche Ergebnisse. Es kommt immer drauf an, welches Verfahren verwendet wird und welche Merkmale der Customer Journey in diesen berücksichtigt werden.

Die mobile Version verlassen