Ärgernis Referral Spam in Google Analytics
Seit dem letzten Jahr haben immer mehr Webmaster hohe Zugewinne beim Referral Traffic, also den Zugriffen, die über Links auf externen Seiten auf Ihre Website zugreifen. Bei genauerer Betrachtung aber halten die Zahlen nicht was sie versprechen. Denn oft ist ein großer Teil Ghost Referral Traffic. Als Quellen solcher Zugriffe sind im Analytics Seiten wie semalt.com, buttons-for-websites.com oder ilovevitaly.com gelistet.

Die gute Nachricht: dieser Spam Traffic schadet einer Seite erst mal nicht. In erster Linie ist er einfach nur eins: Ärgerlich.
Referral Spam Traffic kommt auf 2 verschiedenen Wegen. Zum einen als Spammy Web Crawler, als Robots, die sich gegenüber Webservern nicht als solche zu erkennen geben.
Zum anderen eben der Ghost Traffic, der nicht einmal tatsächlich auf der Seite war, sondern von einem Script kommt, das gefälschte HTTP Abfragen direkt an Google Analytics schickt.
Warum das Alles?
Die Idee der Spammer ist selbst Traffic zu bekommen. Indem ihr Programm getarnt als normaler User Millionen von Websites besucht und dort angibt von der Spammer-Website zu kommen, sollen Webmaster dazu bewegt werden, selbst darauf zu klicken. Sind dazu die Log Files einer vom Spambot besuchten Website öffentlich zugänglich, könnte auch Google über den „Backlink“ in den Logfiles stolpern und den Spammer anrechnen.
Wie werde ich Referral Spam am einfachsten los?
Dazu gibt es verschiedene Möglichkeiten. Die einfachste ist sie direkt in Google Analytics herauszufiltern.
Dazu im Reiter „Verwalten“ als Erstes eine neue Datenansicht anlegen, in der dann die Filter erstellt werden. Im ersten Schritt unter „Einstellungen der Datenansicht“ kann man seit Mitte letzten Jahres die Option „Bots herausfiltern“ anwählen. Analytics versucht dann bekannte Bots von vorneherein auszuschließen.

Weil aber Googles Feature hier (noch) nicht ganz zuverlässig arbeitet, und auch den Ghost Traffic noch nicht richtig abwehren kann, sollten zusätzlich noch Filter angelegt werden.
Zuerst muss ein Filter angelegt werden, der fremde Hostnames & Crawler ausschließt. Dazu in unserer eigens angelegten Datenansicht auf „Filter“ klicken, und mit „+Neuen Filter“ einen solchen anlegen. Als Filtertyp „Benutzerdefiniert“ und „Einschließen“ auswählen.

Dann werden hier die eigenen Hostnames eigegeben. In aller Regel ist das die eigene Domain inkl. ggf eigener Subdomains, eben alle Instanzen, wo die Google Analytics ID zum Tracking eingesetzt wird. Also zum Beispiel für thirdman:
.*thirdman\.at.*
Wird dieselbe Property auf verschiedenen Domains verwendet, kann das mit Hilfe von Regular Expressions gelöst werden
Zusätzlich wird aber auch noch ein Filter angelegt der bekannte Spam Domains ausschließt. Als Filtertyp „Benutzerdefiniert“ wählen aber dieses Mal „Ausschließen“ wählen.
Im Filterfeld wird diesmal „Verweis“ gewählt und als Filtermuster ist dann eine Regular Expression für die bekannten Spam Domains einzugeben. Damit muss nicht für jede Spam-Domain ein eigener Filter angelegt werden.
Aktuell schließen folgende zwei (Google’s Feld ist auf 255Zeichen limitiert) Expressions die meisten Spammer aus:
.*((darodar|priceg|semalt|buttons\-for(\-your)?\-website|makemoneyonline|blackhatworth|hulfingtonpost|o\-o\-6\-o\-o|(social|(simple|free)\-share)\-buttons)\.com)|(econom\.co)|(ilovevitaly(\.co(m)?))|(ilovevitaly(\.ru))|(humanorightswatch(\.org)).*
.*((best(websitesawards|\-seo\-(solution|offer))|Get\-Free\-Traffic\-Now|googlsucks|theguardlan)\.com|(domination|torture)\.ml|((rapidgator\-)?(general)?porn(hub(\-)?forum)?|4webmasters)\.(ga|tk|org)|(buy\-cheap\-online)\.info).*
Quelle: viget.com
Allerdings arbeiten die Filter erst ab dem Zeitpunkt, ab dem sie gesetzt werden. Historische Daten werden nicht „nachträglich“ herausgefiltert.
Doch auch das ist möglich, indem man in der bisherigen Datenansicht eigene Segmente anlegt.
Dazu einfach auf „+Segment hinzufügen“ und im Folgenden auf „+Neues Segment“ klicken. Dem neuen Segment einen Namen geben und links unter „Erweitert“ bei Bedingungen einen Filter erstellen.

Hier werden dann alle Quellen ausgeschlossen, die mit unserem regulären Ausdruck übereinstimmen. In das Eingabefeld können wieder die Ausdrücke von oben verwendet werden.
Da auch hier das Eingabefeld zeichenbeschränkt ist muss ein zweiter Ausdruck mit „Oder“ verknüpft werden. In der rechten Sidebar ist auch gleich zu sehen, wie sich der Filter auf die bisherigen Analytics Daten auswirkt. Den Filter speichern und schon kann das Segment in allen Ansichten angewählt werden. Auch der Vergleich mit den kompletten Daten ist so möglich.
Header Bild: CC BY-SA 2.0