Blick in die Statistik-Seite 1: Verheißungsvolles Wunder bei den Analyse-Daten? Nur Wunder halten nicht...
Analyse-Spam in der Auswertung
Die bekanntesten Ursachen für falsche Analyse-Zahlen sind Angaben aus "Spam-Traffic". Die Zielgruppe der Spammer sind die Betreiber der Webseiten, also die Personen, die sich die Statistiken ansehen und sich möglicherweise über tolle Zahlen freuen. Diese Zielgruppe ist letztlich nicht so klein, weil es auch im Zuge von "Influencern" und "Bloggern" die Szene der Ein-Personen-Unternehmen, die täglich vor ihren Webseiten-Statistiken sitzen und darauf hoffen, dass über die Webseite Traffic kommt noch zusätzlich angereichert wurde. Abgesehen von jenen, die für ihr keines Café einmal Online-Werbung ausprobieren oder versuchen sich per "Sponsored Posting" auf einem Sozialen Netzwerk einen Namen als Unternehmensberater zu machen - sie alle blicken auch gebannt (täglich) in die Statistik-Seite.
Leider gibt es eben nicht nur eine Form von "Analytics Traffic Spam", die man dabei beachten muß, es sind eben unterschiedliche Kriterien, die hier von den Spammern benutzt werden. Der Browser-Name, die vermeintliche Sprache, die vermeintliche Verweisquelle.
Beliebt und schwer abzuwehren: Verweis-Spam
Hier kann man Google nur schwer einen Vorwurf machen. Die beliebteste Form von Spam in Analytics ist der "Referral-Spam" (zu deutsch "Verweis-Spam"). Es erscheinen bei den Verweisen, also jenen Listen von Webseiten, von denen Benutzer gekommen sind, plötzlich Webseiten, die offensichtlich viele Nutzer zum eigenen Webaufritt schicken. In der Realität ist das nicht so, es geht eher darum, dass der Webseiten-Betreiber dann (aus Neugier) auf diese Seite geht um sich anzusehen, wo da seine eigene Seite verlinkt wurde. Das Ergebnis sind nicht selten einfache Werbeseiten, Spam und Co.
Eine für ein Unternehmen durchaus zumutbare Lösung (vor allem bei der Größe von Google) des Problems wäre eigentlich einfach die Meldungen der Webseiten-Betreiber einzusammeln, so könnte man Spam-Verweis-Adressen relativ schnell ausfindig machen. Ein solches Modell nutzt Google schließlich auch zur Spam-Erkennung in seinem Mail-Service "GMail".
Ein Beispiel für den Verweis-Spam ist auch im Bild zu sehen. Da solche Domains aber nicht besonders teuer sind, sind viele dieser Betreiber mit zig - wir meinen damit nicht 5 oder 8 sondern eher 100 oder 200 Domains aktiv. Google Analytics bietet die Möglichkeit über sogenannte Filter diese Domains auszusperren bzw. in einer speziellen Ansicht dann eben "unberücksichtigt" zu lassen um "echtere Daten" zu bekommen. Allerdings ist dieser Vorgang Zeitraubend und die Menge der Referral-Spam-Domains nimmt laufend zu.
Sprach-Spam: Analytics interessiert sich wenig für Standards
Beim "Referral-Spam" (also bezogen auf "Verweiswebseiten") kann man Google dafür nicht zu 100 % die Schuld geben, denn eine Webseiten-Adresse kann es ja schließlich geben und dass von dort ein Link zur Webseite des Betreibers existiert, ist nicht auszuschließen. Andere Spam-Arten in Analytics könnten jedoch mit etwas gutem Willen von Google sehr wohl unterdrückt werden. Ein berühmtes Beispiel dafür ist der "Vote for Trump"-Spam, der ein sogenannter "Sprach-Spam" war.
Dabei wird suggeriert, dass die Sprache des Nutzers eben nicht "de" für Deutsch oder "en" für Englisch oder "fr" für Französisch ist, sondern dieser Nutzer spricht eine besondere Sprache, sie heißt: "Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!" - Und hier wurde noch mit einem kleinen Sonderzeichen gespielt, denn das erste "g" von Google ist kein "g" sondern ein wie ein großes G aussehendes Sonderzeichen ɢ gewesen.
Die tatsächliche URL dahinter landet auf einer IDN-Domain (Sonderzeichen-Adresse), die dann decodiert wird. Diese Decodierung ist ein offizielles Instrument, das war nötig um die Domains mit Sonderzeichen global erreichbar zu machen. Hinter www.herr-müller.at steckt beispielsweise eigentlich www.xn--herr-mller-feb.at (dies wird als "ACE-String" bezeichnet) als tatsächliche Domain. Das "xn--" sagt dem Domain-Namen-System, dass es eigentlich ein Sonderzeichen ist und die anschließende "-feb" definiert das Sonderzeichen und die Position dessen.
Im Konkreten Fall war die tatsächliche Webseite eben eine Seite auf secret.xn--oogle-wmc.com. Und dort versuchte ein System eine Erweiterung in den Browser (zB für Firefox) zu installieren.
Bei Sprachen wäre es noch relativ einfach solche Spammer abzuwehren, denn eigentlich gibt es eine Liste der Sprachen der Welt und auch die entsprechenden Internationalen Kennzeichen dafür, wie eben "de-at" für österreichisches Deutsch oder "de-ch" für schweizer Deutsch.
Waren diese Leute wirklich da?
Dazu gibt es keine eindeutige Antwort, manche der Spammer haben Rechner mit Scripts so aufgesetzt, dass diese wirklich die Webseite besuchen. Andere dagegen haben sich darauf konzentriert einfach das Analytics-Property direkt bei Google mit der entsprechenden ID aufzurufen. Den Unterschied bemerkt Google Analytics™ nicht. Und die IDs können ausprobiert werden, schließlich sind es Nummernfolgen, die sogar in der am meisten verbreiteten Version von Analytics noch hintereinander stehen... UA-XXXXXX-01 bis UA-XXXXX-49... sind oftmals einfach 50 verschiedene Webseiten, die alle Analytics nutzen.
Darum hilft ein Ausschließen dieser "Nutzer" über eine Firewall nicht wirklich. Damit kann zwar vermieden werden, dass der Webserver mit diesem sinnlosen und unechten Traffic belastet wird, aber die häufigere Vorgehensweise ist ohnehin von den Spammern, dass sie direkt das Analyse-Property von Google öffnen und gar nicht auf die tatsächliche Webseite gehen.
Einrichtung von Spam-Schutz in Analytics
Was Webseiten-Betreiber nun interessiert ist, wie man diesen Traffic loswird und das ist leider gar nicht so einfach. Für Sprachen-Spam und Verweis-Spam muß man sich auf unterschiedliche Art und Weise rüsten. Ein Tool-Bereich in Analytics ist in der Verwaltung zu finden. Dort gibt es einerseits Filter-Funktionen, die bei den entsprechenden Datenansichten hinterlegt werden können und andererseits Bestandteile wie die "Verweisausschlußliste" im Bereich Property / Tracking-Informationen. Diese Funktion ist eigentlich nicht für Spam-Bekämpfung gedacht, sondern soll eigentlich dazu dienen, dass man angeschlossene Systeme aus dem Traffic ausnimmt.
Angeschlossene Systeme - die eigentliche Idee von der Ausschlußliste
Man kann diese Ausschlußliste eben mißbrauchen um Referral-Spam loszuwerden. Diese Funktion in Google Analytics ist aber deshalb so mühsam zu bedienen, weil sie eigentlich für eine andere Funktion gedacht ist: Dort sollten Domains eingetragen werden, von denen beispielsweise ein Rückfluss der User kommt. Dazu gehört beispielsweise das externe Zahlungssystem in einem Online-Shop. Dabei wechselt in den meisten kleineren Shops der Nutzer vom Warenkorb in das Zahlungssystem, zahlt dort und wird ansclhießend zurück zur Webseite geschickt. Damit aber dieser letzte Teil nicht in der Statistik aussieht, als wäre das ein neuer Nutzer, gibt man die Seite des Payment-Anbieters in diese Verweisausschlussliste.
Services gegen Verweis-Spam in Analytics
Es gibt für den Verweis-Spam auch Dienstleister, die eine solche Einstellung per Abonnement-Modell anbieten, diese können zwar auch die Vollständigkeit nicht garantieren, profitieren aber von einem großen Pool an beitragenden Personen, die Spam-Domains dort melden. Ob man das Geld für solche Leistungen investieren möchte, muß man selbst entscheiden.