Sporo na temat indeksacji serwisu napisała dla was Marta Podgórska w tym wpisie, która w swoim artykule skupiła się na sprawdzaniu stopnia indeksacji naszego serwisu oraz wpływaniu na jego poprawę z zewnątrz.

Ja w dzisiejszym artykule przedstawię i omówię najważniejsze aspekty, które wpływają pozytywnie i negatywnie na indeksację waszej strony. Jednak będą to przede wszystkim te aspekty, które występują na waszej stronie internetowej.

Czym jest index?

Indeksem (z ang. index) określamy to, co znajduje się w Google i jest możliwe do wyszukania przez użytkownika. Najprostszym sposobem na sprawdzenie stopnia indeksacji swojej strony jest przejście do Google.pl i wpisanie w polu wyszukiwania komendy:

site:domena.pl”.

Jeśli komenda nie zwróci w wynikach wpisanej strony, oznacza to, że jest ona niezaindeksowana.

Czym jest indeksowanie?

Indeksowanie to czynności, które mają wpłynąć na Google tak, aby podstrony naszego serwisu pojawiły się w wyszukiwarce i były możliwe do wyszukania.

Co powinno znajdować się w indeksie według Google?

W indeksie powinny znajdować się strony wartościowe, z treściami ważnymi i przydatnymi dla użytkowników. Dlatego nie powinno się indeksować stron o treściach niskiej jakości (jak np. Polityka prywatności, puste strony czy zawierające te same, powielone treści).

Co wpływa na indeksowanie?

Na indeksowanie wpływa szereg czynników z zewnątrz, czyli offsite - opisywanych w wyżej podlinkowanym artykule oraz czynniki wewnętrzne onsite – czyli to co na naszej stronie.

Jak podejść do usprawnienia indeksacji w swoim serwisie?

Należy tutaj przede wszystkim sprawdzić dostępność strony i treści dla robotów. Konieczne będzie zbadanie tego jak robot Google widzi stronę.

Jak robot Google widzi stronę?

Pierwszym i kluczowym aspektem naszej pracy powinno być sprawdzenie tego, jak robot Google widzi naszą stronę. Jak zrobić to najprościej?

Należy skorzystać z Search Console, do którego wyczerpującą instrukcję znajdziecie tutaj. Przejść do zakładki „Indeksowanie” i skorzystać z menu „Pobierz jako Google” - moduł ten pozwoli nam na pobranie dowolnej podstrony naszego serwisu i przesłanie jej do indeksu – co ciekawe, jeśli w widoku tej zakładki klikniecie w podświetlony adres URL – zobaczycie tam 2 zrzuty ekranu, 2 widoki prezentujące podgląd strony przez robota wyszukiwarki oraz użytkownika.

Funkcja ta pozwoli w najprostszy sposób podglądnąć to co i jak widzi Google – jeśli czegoś nie widzi, to nie uwzględni tego podczas określania rankingu i przypisywania słów kluczowych dla naszej podstrony.

Wtyczka do Google Chrome, symulująca widok robota Google

Innym wygodnym sposobem na przeglądnięcie całego serwisu, tak jak widzi go robot Google jest zainstalowanie wtyczki User-Agent Switcher do przeglądarki Google Chrome. Pozwala ona w prosty sposób przełączyć się na User Agenta Google bot i po odświeżeniu strony przeglądania jej całej zawartości w sposób identyczny jak Google - pozwoli Ci to na szybkie porównanie (np. z normalnym widokiem w drugiej przeglądarce) tego co widzisz ty, a to co widzi robot Google.

Mała rada: aby wrócić do normalnego widoku stron, wybierz user agent „Default”.

Najczęstsze błędy wpływające negatywnie na indeksację serwisu

Plik robots.txt

Plik robots.txt daje możliwość zabronienia robotom wyszukiwarek dostępu do treści wybranych podstron, czy katalogów. Plik ten respektuje również komendy zapisane dla poszczególnych User-Agentów. Jednym z częstych błędów, które popełniają użytkownicy, jest nieumiejętne tworzenie tego pliku, co może często wpływać na blokowanie sporej części podstron w serwisie.

Dlatego przed każdą zmianą tego pliku warto choć chwilę potestować go w Search Console – jest tam dedykowana temu zakładka „Tester pliku robots”, która pozwoli Ci na sprawdzenie dostępności poszczególnych podstron serwisu dla robota wyszukiwarki.

Meta tag: Noindex, nofollow

Meta tag noindex, nofollow, czy noindex, follow umożliwia zablokowanie indeksacji oraz podążania za linkami w obrębie podstron, na których się znajduje. Często zdarza się, że tag ten jest stosowany na wersji testowej serwisu, aby uniemożliwić jej indeksację i nie zostaje zdjęty po wrzuceniu serwisu na właściwy hosting.

Noindex – bardzo szybko i skutecznie wyindeksuje lub zablokuje możliwość indeksacji Twojego serwisu / podstrony, dlatego jeśli masz czasami problem z indeksacją z którejś z podstron – warto sprawdzić jej dostępność pod względem robots.txt oraz obecności w kodzie tagu noindex.

Jak usprawnić indeksację i przepływ robotów?

Plik sitemap.xml

Plik sitemap.xml, o którym pisałem ostatnio zawiera czyste dane w postaci adresów URL strony. Jeśli umieścimy go w Search Console, znacząco usprawnimy robotom możliwość dostępu do naszego serwisu. Mówiąc prosto – podamy im na tacy wszystkie adresy URL naszego serwisu. Adresy, które one bardzo chętnie odwiedzą. Utworzenie i zgłoszenie tego pliku usprawnia bardzo proces indeksacji, szczególnie w przypadku dużych serwisów – gdzie roboty rozchodzą się po wielu stronach i mają problem z dotarciem do tych położonych głębiej.

Błędne linki wewnętrzne i strony 404

Innym elementem, który negatywnie wpływa na widoczność Twojego serwisu mogą być błędne linki wewnętrzne, które kierują do stron 404. Pamiętaj, że na Twój serwis trafia ograniczona liczba robotów indeksujących, dlatego szkoda marnować je na to, aby odwiedzały podstrony, które nie istnieją. Błędne linki swojego serwisu przeskanujesz np. przy pomocy płatnego programu Website Auditor lub darmowe Xenu, który wskaże Ci strony 404, wraz z linkującymi do nich podstronami.

Duplikaty treści i ich eliminacja

Podobnie jak wyżej, raz że duplikacja treści jest dla nas zła ze względu na możliwość nałożenia kary na serwis, dwa jaki jest sens indeksować po x razy to samo tylko pod innym adresem URL, skoro Google i tak tego nie pokaże? Powinniśmy starać wystrzegać się duplikacji treści i walczyć z nią możliwie najlepiej jak się da. Niedługo opublikuje na ten temat bardziej rozbudowany artykuł. W chwili obecnej najprościej będzie przejrzeć swój serwis i wdrożyć w nim np. rel=”canonical”, czy noindex,nofollow dla stron których nie chcemy indeksować, czy np. zablokować je w robots.txt

Szybkość i lekkość serwisu

Szybki i lekki serwis będzie lepiej crawlowany i pobierany przez roboty Google. Strony, które ważą bardzo dużo, mogą zostać przez roboty pominięte, dlatego warto zachować tutaj zdrowy rozsądek. Pamiętajmy też, szybkie i lekkie strony mogą umożliwić ich lepsze przeglądanie zarówno dla robotów wyszukiwarek, jak i użytkowników. Szybkość swojego serwisu sprawdzisz np. tutaj.

Architektura serwisu

Plan jest prosty – jeśli chcesz, aby dana podstrona została zaindeksowana, musisz skierować na nią robota Google, a ten z kolei porusza się po linkach. Owszem, możesz dostarczać je plikiem sitemap.xml, czy ręcznie zgłaszać w Search Console, jednak musisz również zadbać o to, aby Twoja podstrona posiadała dobrze przemyślaną i ułożoną strukturę linków wewnętrznych.

Najważniejsze podstrony powinny posiadać najwięcej linków, w ramach jej planowania najlepiej budować ją w oparciu o schemat najprostszego drzewka kategorii, uwzględniając przy tym to, aby do każdej podstrony dało się dotrzeć przy pomocy około 3-4 klików.

Pamiętaj też o poprawnych anchorach (one naprawdę przekazują moc też w serwisie) oraz unikalnych tytułach (title) dla podstron.

Treści w serwisie

Pamiętaj, że Google lubi treści – dlatego niechętnie będzie indeksować strony (albo i w ogóle), które ich nie mają lub mają je ale są to kopie. Bardzo chętnie natomiast zaindeksuje podstrony, które posiadają choć trochę unikalnego tekstu :). Nawiązując do treści - warto uzupełniać je o dodatkowe elementy, takie jak obrazki (z uzupełnionym atrybutem alt=” ” i przyjazną nazwą, title=””),  czy filmy wideo.