Kapsamlı Robots.txt Rehberi

112dijital 10.05.2018

0 2.380 2 dakika okuma süresi

Web Sayfamızın doğru bir şekilde indexlenmesini ve google arama sonuçlarında sıralama almasını istiyorsak Robots.txt ve sitemap.xml terimlerinin ne olduğunu ne işe yaradıklarını çok iyi bilmemiz gerekiyor. Bu yazımızda robots.txt hakkında kapsamlı bir rehber hazırladık.

Yazı İçeriği

Robots.txt Nedir?

Robots.txt google botları ve diğer arama motorlarının örümceklerinin siteye ilk girdiklerinde baktıkları, sitenin kaynağına yerleştirilmiş metin dosyalarıdır. Bu dosyalar sayesinde google botları ve diğer örümcekler siteyi taramaya başlamadan önce erişim izini olan ve olmayan sayfaları görmüş olurlar.

Robots.txt Ne İşe Yarar?

Örneğin google görsel aramalarda çıkmasını istemediğiniz görselleri engelleyebilirsiniz, admin sayfası gibi sayfaları engelleyerek indexlenmesinin önüne geçebilirsiniz. Sayfanızda zaman aşımı bulunan ve çok yavaş açılan sayfalar için özel komut vererek google botları ve diğer arama motorlarının botlarının zaman kaybetmesini engelleyebilirsiniz.

Kısacası Robots.txt sayesinde google botlarına belirli komutlar vererek onlara yol göstermiş olursunuz.

Robots.txt Neden Gereklidir?

Robots.txt bulunmayan bir sayfanız varsa google örümcekleri veya diğer arama motorlarının botları sayfanıza girdiğinde sitede bulunan tüm urlleri taramaya başlayacaktır. Bu da çok uzun zaman alacağı için gerçekten indexlenmesini istediğiniz ve değer verdiğiniz içerikleriniz google sıralamasında yer bulamayacaktır.

SEO ve Robots.txt

Sitenizde SEO çalışması yapmaya başlarken temel kriterlerden bir tanesi Robots.txt dosyası olacaktır. Bu dosyanın sitenizde sadece bulunması yetmeyecektir. Bu dosya içerisine yerleştireceğiniz özel komutlar sayesinde arama motoru optimizasyonu çalışmanız değer kazanacaktır.

Robots.txt Nasıl Oluşturulur?

Robots.txt oluşturmak için aklınıza gelen tüm metin düzenleme programlarını kullanabilirsiniz. Standart ASCII veya UTF-8 metin dosyaları ile oluşturabilirsiniz.

Robots.txt kural gruplarıyla oluşturulur.
En yaygın kullanılan kurallar ,allow ve disallow komutlarıyla yazılır.
Allow: İndexlenmesini kabul ettiğiniz sayfaları gösterir.
Disallow: İndexlenmesini kabul etmediğiniz, arama motoru botlarının uğramasını istemediğiniz sayfaları gösterir.

Örnek Robots.txt

Sitemap: https://blog.112dijital.com/sitemap.xml

# global
User-agent: *
Disallow: /xmlrpc.php

Burada ” user-agent: * ” komutuyla tüm arama motoru botlarının sitemizi tarayabileceğini belirtmişiz.
sitemap adresimizi vererek arama motoru botunun site haritamızı kolay bir şekilde bulmasını sağladık.
disallow kısmında ise indexlenmesini istemediğimiz bir sayfamız mevcut idi onun taranmamasını istedik.

Bu komutlara ek olarak “disallow: /wp-admin” komutunu birçok wordpress blogunda görebilirsiniz.

Robots.txt Komutları

Yandex ve Google’ın kullandığı user-agent listesi sayesinde sitenize gelen botların taramalarını özelleştirebilirsiniz.

Google’ın Kullandığı User-Agent Listesi

'Googlebot'— Temel indeksleme robotu;
'APIs-Google' — API servis robotu;
'Mediapartners-Google' — Reklam servisine kayıtlı sitelerde kullanılmak üzere;
'Mediapartners (Googlebot)' — Reklam servisine kayıtlı sitelerde kullanılmak üzere;
'AdsBot-Google-Mobile' — Android web sayfası reklam kalitesini kontrol eder;
'AdsBot-Google-Mobile' — iPhone web sayfası reklam kalitesini kontrol eder;
'AdsBot' — Masaüstü web sayfası reklam kalitesini denetler;
'Googlebot-Image' — Görsel robotu;
'Googlebot-News' — Haber robotu;
'Googlebot-Video' — Video robotu;
'AdsBot-Google-Mobile-Apps' — Android uygulama sayfası reklam kalitesini kontrol eder. AdsBot-Google robotlarının kurallarına uyar.

Yandex’in Kullandığı User-Agent Listesi

'YandexBot' — Temel indeksleme robotu;
'YandexMedia' — Multimedya verilerini indeksleyen robot;
'YandexImages' — Yandex.Görsel indeksleyicisi;
'YaDirectFetcher' — Yandex.Direct robotu, Direct servisinde kayıtlı sitelerin incelenmesi;
'YandexBlogs' — Gönderilen yorumları indeksleyen blog araması robotu;
'YandexNews' — Yandex.Haberler robotu;
'YandexPagechecker' — Mikro etiket doğrulayıcısı;
'YandexMetrika' — Yandex.Metrica
'YandexMarket'— Yandex.Market robotu;
'YandexCalendar' — Yandex.Takvim robotu.

Robots.txt’de Crawl Delay Komutu

Pek fazla yaygın olmasa da “crawl delay” komutunu da öğrenmenizde fayda var. Bu komut sayesinde geç açılan sayfalarınızın index almamasını sağlarsınız ve SEO kriterlerinden bir tanesi olan sayfa açılış hızı kriterine takılmazsınız. Tabi bunu geçici olarak kullanmanızı öneriyoruz.

Kullanım şekli ise şöyle olmalıdır.

User-agent: *
Crawl-delay: 20

Burada 20 değeri 20 saniyeyi kapsıyor. Yani arama motoru botlarına şu komutu veriyoruz. Web sitemize gir ve 20 saniye boyunca tarayabildiğin kadar tara. Tarayamadığı urller bizim hız bakımından yavaş açılan sayfalarımız olacaktır.

Her şeyi yaptıktan sonra Robots.txt dosyanızı test etmek için Search Console Robots.txt test aracını kullanmanızı öneriyoruz.

112dijital 10.05.2018

0 2.380 2 dakika okuma süresi