Gehaxelts Blog

IT-Security & Hacking

Meine Probleme mit Google

Ich möchte mal über meine Probleme mit Google berichten, denn Google scheint meinen Blog nicht mehr zu mögen. Zumindest listet der Suchmaschinenanbieter nur noch Teile meines Blogs.

Wer mir auf Twitter folgt und fleißig meine Tweets liest wird gemerkt haben, dass ich mich ein wenig über Google beschwert habe. Das Problem liegt nämlich darin dass Google bei der Indexierung meiner hust tollen Blogposts antiproportional vorgeht. Umso mehr ich schreibe, umso weniger Seiten des Blogs werden bei Google in der Suche gelistet.

Ein Überblick

Übersicht über meine Sitemap in den Webmastertools:

Übersicht über den aktuellen Indexierungsstatus:

Von einem Tag auf den anderen waren dann Artikel, welche über mehrere Tage gelistet wurden, einfach nicht mehr auffindbar. Beispiel "Google cache nutzen gehaxelt" oder "Logik Tison Methode gehaxelt" führen zu keinen Ergebnissen mehr.

Nachdem ihr nun einen Überblick über mein Problem habt, kann ich mit der Schilderung fortfahren.

Mein Anti-SEO

Ich muss zugeben, dass ich meinen Blog eine Zeit lang nicht wirklich SEO konform betrieben habe, doch da waren noch einige Artikel auffindbar.

Ich möchte mal kurz meine damalige Blogkonstellation vorstellen:

Unter der Domain gehaxelt.in wurde folgende .htaccess angewendet:

1
2
3
4
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^gehaxelt\.in$ [NC]
RewriteRule ^(.*)$ http://www.gehaxelt.in/$1 [R=301,L]

Das sollte sicherstellen, dass ggf. verlinkte Inhalte von gehaxelt.in/blog auf die richtige Domain www.gehaxelt.in/blog weitergeleitet werden. Das sollte auch mit einem 301-Redirect passieren, was laut Google empfohlen wird.

Unter der www.gehaxelt.in Domain nutzte ich noch folgende .htaccess, um ggf. bei Fehlern auf meinen Blog zu verweisen:

1
2
3
4
5
ErrorDocument 400 http://www.gehaxelt.in/blog/
ErrorDocument 401 http://www.gehaxelt.in/blog/
ErrorDocument 403 http://www.gehaxelt.in/blog/
ErrorDocument 404 http://www.gehaxelt.in/blog/
ErrorDocument 500 http://www.gehaxelt.in/blog/

Wie ich erst letztens festgestellt habe, ist das aus SEO-Sicht nicht sehr gut, da der Webserver dann eine 302-Weiterleitung gefolgt von einem 200-Status draus macht. Die Suchmaschine glaubt dann demnach, dass die Seite existiert.

Ähnlich war es mit www.gehaxelt.in, denn wenn man auf die Root-Ebene der Domain zugreifen wollte, dann löste das einen 404 aus, welcher dann per ErrorDocument auf den Blog weiterleitete. Genauso wie oben per 302 + 200.

Eine robots.txt und die Sitemap.xml waren korrekt erstellt und genutzt. Bis dahin funktionierte alles ein wenig, zumindest hatte ich den Artikelschwund nicht bemerkt.

Meine Versuche es zu retten

Nunja, nachdem ich feststellen musste, dass das nicht wirklich optimal ist, und Google nur Bruchteile meines Bloges indexiert, galt es etwas zu ändern.

Zunächst habe ich nach der Anleitung vom Computer Heimwerker die Fehlerdokumente korrekt angelegt.

Des Weiteren habe ich den Regex unter gehaxelt.in etwas präsizer formuliert, sodass nur noch gehaxelt.in/blog/-Artikel wirklich per 301 Weitergeleitet werden. Sollte man nun einfach auf gehaxelt.in/ gehen, dann wird man per 301 auf www.gehaxelt.in/blog/ weitergeleitet. Das löse ich unter anderem mit der folgenden PHP-Datei, welche ebenfalls im Documentroot der www.gehaxelt.in Domain liegt.

.htaccess:

1
2
3
4
5
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^gehaxelt\.in$ [NC]
RewriteRule blog/(.*)$ http://www.gehaxelt.in/blog/$1 [R=301,L]
RewriteRule misc/(.*)$ http://www.gehaxelt.in/misc/$1 [R=301,L]

index.php für 301 Redirect:

1
2
3
4
5
<?php
header("HTTP/1.1 301 Moved Permanently");
header("Location:http://www.gehaxelt.in/blog/index.html");
exit;
?>

Nachdem nun alle Weiterleitungen soweit korrigiert waren, viel mir auf, dass in der Octopress-Konfiguration noch eine Baustellen vorhanden waren. So war die Root-URL auf http://gehaxelt.in/ gelegt, und nicht auf www.gehaxelt.in. Zudem haben die Links im canoncial-Metatag nicht wirklich gestimmt, denn dort schlich sich immer ein "/" zu viel ein.

Die Umstellung der URLs sollte auch der Grund gewesen sein, weswegen beim Phasenkasper.de mal wieder alle meine RSS Einträge in seinem Reader landeten. Falls ihr mich wegen diesen Ungeschicktheiten (welche ich leider nicht hätte besser lösen können?) nicht mehr abonniert, so habe ich es mir selbst verschuldet ;)

Nach ein wenig Recherche und dem Hinweis aus Richtung des TacticalCode Blogs legte ich bei den Google Webmastertools noch die präferierte Domain auf www.gehaxelt.in und reichte die Sitemap erneut ein.

Der Wiederaufbau fing versprechend an, denn Google sagte mir am nächsten Tag, es habe 76 Seiten bereits wieder indexiert. Nach weiteren 2 Tagen wollte es mich aber enttäuschen, indem es wieder 5 Seiten aus dem Index nahm, sodass zur Zeit nur noch 71 der 245 Seiten meines Blogs auffindbar sind.

Hoffnung stirbt zuletzt, doch Ausschluss ist doof

Ich werde die Indexierung die nächsten Tage/Woche/Monate weiter beochbachten, denn was anderes bleibt mir meiner Meinung nicht übrig. Ich finde es doch ein wenig schade, denn ich möchte gerne mein hust Halbwissen bzw. meine Problemlösungen mit Euch und dem Internet teilen. Zumindest kamen täglich moderate 20 bis 30 (neue) Leser über Google & Co auf meinen Blog.

Falls ihr also noch Tipps habt bzw. euch auffällt, was ich (noch) falsch mache bzw. besser machen könnte, dann freue ich mich auf euer Feedback.

Gruß

gehaxelt

blog

« [Uni] Schaltungen in VHDL programmieren und simulieren Die verschiedenen Rekursionsarten »