Google arama sonuçlarında yer
almak için çokça sorulan robots.txt nedir sorusunu bu yazımızda tüm
detaylarıyla açıklayacağız. Özellikle
web sitesi geliştiricileri tarafından önemli olan bu konu, Google, Yandex, Bing
gibi popüler arama motoru botlarının sitenizi indeksleyip indekslemeyeceğini
anlatan kod parçalarıdır. Web arama botlarının en temel görevi sitenize giriş
yapıp tüm sayfa ve yazılarınızı kontrol
ederek bunları kendi algoritmalarına göre arama botlarına bildirerek indekse hazır
hale getirmektir. Fakat web sitenizde yayımlamak istemediğiniz ya da yayımlanmış
bir sayfa veya içeriği kaldırmak isterseniz ne yapacaksınız? Robots.txt oluşturma kriterlerini gelin
detaylıca inceleyelim.
Robots.txt Oluşturma
Robots.txt Nasıl Oluşturulur?
Robots.txt İçerik Formatı Nasıl Olmalı?
Grup Komutları
Robots.txt User-Agent
Dizinlerin Engellenmesi ya da Dizinlere İzin Verilmesi
Sayfaların Engellenmesi ya da Sayfalara İzin Verilmesi
Tarama Gecikmesi
Arama Motoru Botlarının Genel Özellikleri
Google İçin En Önemli Robots.txt Komutları
Web Sitem Hiçbir Aracı Tarafından Taranmasın, İndekslenmesin
Site İçerisinde Bulunan Herhangi Bir Klasör veya Dizinim Taranmasın, İndekslenmesin
Web Sitemi Sadece Google Görsün
Bir Tarayıcı Dışındaki Tüm Tarayıcılara İzin Vermek
Tek Bir Sayfanın Erişimini Kapatmak (Botlar İçin)
Google Görsellerden Bir Resmi Kaldırma
Tüm Resimlerinizi Google Görsellerden Kaldırma
Belirli Bir Formata Ait Dosyaları Erişime Kapatma
Sitenizi Tamamen Kapatma -Adsense Reklamlarını Göstererek
Belirli Bir URL İle Eşleşen Sayfaları Kaldırma
Robots.txt Blogger Üzerinden Yükleme
Robots.txt Tarafından Engelleniyor Olsa Da Dizine Eklendi Sorunu
Robots.txt Ne İşe Yarar?
Robots.txt web sitelerinizin
sayfa ve içerik yönetimlerini yapabileceğiniz yardımcı bir araçtır. Bir paylaşım yaptığınızda herhangi bir engelleme
komutu kullanmadıysanız (noindex-nofollow) içeriğiniz arama motorlarında bir
süre sonra herkese açık olarak görüntülenebilir olacaktır. Fakat içeriğinizin
artık paylaşılmasını istemediğinizde ya da hassas bilgilerinizin görülmesini
istemediğiniz durumlarda bu araç yardımınıza koşuyor. Yalnızca içerik kaldırmak için değil eklemek
için de bu komutlar kullanılır. Yayımlanmasını istediğiniz ve uzun süredir
yayımlanmayan içerikleriniz için bu komutlardan yardım alabilir, kısa süre
içerisinde arama motorlarına bu talebinizi bildirebilirsiniz.
Robots.txt Oluşturma
Robots.txt kullanımı bakımından
dikkat edilmesi gereken komutları içerir.Örneğin en sevdiğiniz yazılarınıza “nogooglebot”
gibi bir komut vermeniz sizi arama sonuçlarından tamamen düşürerek
görünürlüğünüzü yok edebilir. Bunun için hangi işleve sahip olduğunu
bilmediğiniz robots.txt komutlarını kullanmaktan kaçının. Robots.txt oluşturma işlemi oldukça
basittir. Herhangi bir not defteri uygulamasından ya da web sitenizin yönetim
panelinden işinize yarayacak komutları girerek sitenizde aktif hale
getirebilirsiniz. Robots.txt nasıl oluşturulur ? madde madde inceleyelim.
Robots.txt Nasıl Oluşturulur?
Robots.txt dosyasını oluşturmak
için öncelikle websiteniz.com üzerinden yönetici paneline girmeniz gerekiyor.
Ardından ayarlar bölümünde robots.txt alanını bularak yeni bir tane txt dosyası
oluşturabilirsiniz. Bu alana yazacağınız tüm kodlar Google botları tarafından
düz metin olarak görüntülenir. Uyguladığınız komutların aktif olup olmadığını
öğrenmek için websiteniz.com/robots.txt adresine giriş yapabilirsiniz. Aktif
durumdaki bir robot kodu aşağıdaki gibi görüntülenir:
Web sitenizde temel olarak 2 farklı
türde robots.txt komutları bulunabilir. Robots.txt örneği şu şekildedir:
- #Group1
User-agent: Googlebot
Disallow: /nogooglebot/
Bu komut satırı Googlebot isimli
kullanıcı aracının siteniz içerisinde bulunan /nogooglebot ve alt dizinlerinin
taranmaması gerektiğini Google’a bildirir.
- #Group2
User-agent: *
Allow: /
Hiçbir değer girilmediğinde
varsayılan olarak oluşturulan komut parçalarıdır. Bu komutlar ile tüm kullanıcı
araçları web sayfanızda bulunan sayfaları izleyebilir ve tarayabilir.
Sitemap:www.siteniz.com/sitemap.xml
Txt dosyasında ayrıca site
haritanızı da belirterek arama botlarının sitenizi tarama işlemini kolaylaştırabilirsiniz.
Robots.txt İçerik Formatı
Nasıl Olmalı ?
- Dosya txt uzantılı UTF-8 (ASCII karakterleri içeren) olarak
kodlanmış olmalıdır.
- Bir veya daha fazla grup komutlarını
içerebilir.
- Her gruptaki satır başlarında
ayrı bir yönerge olmalıdır.
- Gruplarda kuralın hangi araca
uygulanacağı, aracın erişebileceği
dizinler ve aracın erişemeyeceği dizinler belirtilmelidir.
- Grup komutları yukarıdan aşağıya
doğru uygulanır. Kullanıcı aracıları (googlebot) sadece bir kuralla
eşleşebilir.
- Uygulanan kurallarda büyük-küçük
harf duyarlılığı bulunur. Örneğin: Disallow: dosya.html komutu
siteniz.com/dosya.html adresi için geçerlidir.
Siteniz.com/DOSYA.html dosyası
botlar tarafından işleme sokulamaz.
Grup Komutları
Grup komutları yazılırken net
ifadelerle bulunmakla birlikte kesinlikle yazım hatası
yapılmamalıdır. Grup komutlarında siteniz içerisinde yer
almayan ya da bozuk sayfalar olmamalıdır.
Komutlar oluşturulurken büyük-küçük harfler önemsenmez fakat dizin ismi
verilirken büyük-küçük harflere dikkat ederek vermelisiniz. Grup komut
örnekleri şu şekildedir:
Robots.txt User-Agent
User-agent: *
Disallow: /
Dizinlerin Engellenmesi ya da
Dizinlere İzin Verilmesi
Arama botları yalnızca sizin belirttiğiniz
komutlara ulaşabilirler. Büyük-küçük ayrımı olan bu komutlar şu şekilde
yazılmalıdır:
User-agent: *
Disallow: /klasoradi/
Sayfaların Engellenmesi Ya da
Sayfalara İzin Verilmesi
User-agent: *
Disallow: /sayfadizini.html
Tarama Gecikmesi
Crawl-delay komutu kullanılmalıdır.
Arama Motoru Botlarının Genel
Özellikleri
Bir siteyi Google’da indeksletmek
kadar bu işi yapan kullanıcı aracılarının da özelliklerini bilmek işimizi
kolaylaştırır. Bir indeksleme sorununda nasıl bir yol izleyeceğimiz , ne gibi
içeriklerin daha hızlı indeksleneceği ve yüksek sıralamalar alacağı gibi
konular için botları iyi tanımak gerekir. Arama motoru botlarının genel
özellikleri şu şekildedir:
- Yalnızca sizin yazdığınız
komutlardaki dosyalara erişip işlem gerçekleştirebilirler.
- Kullanıcı aracıları siteniz.com/nogooglebot
klasöründeki dizinleri tarayamaz ve belleğine alamaz.
- Aksi belirtilmedikçe tüm popüler
arama motorları siteniz içerisinde bulunan sayfa ve içerikleri izleyebilir,
tarayabilir ve indeksleyebilir.
- Sitenizdeki indekslenen dosyaları
görüntülemek için siteniz.com/sitemap.xml adresini kullanabilirsiniz.
Google İçin En Önemli
Robots.txt Komutları
Google SEO Standartları Kılavuzu,
web sitelerinizin geliştirilmesine
yardımcı olacak bilgileri yayınlar. Bu yönergelerin
dışında siteniz içerisinde en çok kullanımı sağlanan robots.txt google komutları
şu şekilde belirtilmiştir:
Web Sitem Hiçbir Aracı
Tarafından Taranmasın, İndekslenmesin
User-agent: *
Disallow: /
Site İçerisinde Bulunan
Herhangi Bir Klasör veya Dizinim Taranmasın, İndekslenmesin
User-agent: *
Disallow: /dizinadi
Disallow: /junk
Web Sitemi Sadece Google
Görsün
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
Bir Tarayıcı Dışındaki Tüm
Tarayıcılara İzin Vermek
User-agent: Unnecessarybot
Disallow: /
User-agent:*
Allow: /
Tek Bir Sayfanın Erişimini
Kapatma (Botlar İçin)
User-agent: *
Disallow: /kapatılacaksayfa.html
Google Görsellerden Bir Resmi
Kaldırma
User-agent: Googlebot-Image
Disallow:
/images/engellenecekresim.jpg
Tüm Resimlerinizi Google
Görsellerden Kaldırma
User-agent: Googlebot-Image
Disallow: /
Belirli Bir Formata Ait Dosyaları
Erişime Kapatma
User-agent: Googlebot
Disallow: /*.gif$
Sitenizi Tamamen Kapatma –
Adsense Reklamlarını Göstererek
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Belirli Bir URL İle Eşleşen
Sayfaları Kaldırma
User-agent: Googlebot
Disallow: /*.xls$
Bu kod ile .xls ile biten tüm url
adresleri engellenir.
Robots.txt Blogger Üzerinden
Yükleme
Robots.txt engelleme komutlarının Blogger üzerinden yüklenmesi şu adımlarla
yapılır:
Blogger üzerinden gmail
hesabınızla giriş yapın.
Ardından komutları uygulamak
istediğiniz blog adresinizi seçin.
Daha sonra ayarlara girerek
tarayıcılar ve dizine ekleme bölümünden özel robots.txt bölümüne tıklayarak
istediğiniz komutları girip kaydete basmalısınız.
Robots.txt Tarafından
Engelleniyor Olsa Da Dizine Eklendi Sorunu
Robots.txt tarafından
engelleniyor olsa da dizine eklendi hatası genellikle başka sayfalardan
gelen linkler olduğunda ortaya çıkar. Bu sorunu çözmek için hata alan sayfaya robots.txt
noindex etiketi vermek
gerekir. Bunun için de robots.txt
kodlarından engellediğiniz sayfayı tekrar aktif hale getirerek sayfanın
<head> bölümüne şu kodları eklemelisiniz:
<meta name=”robots” content=”noindex”
/> Bu kodları ekledikten yaklaşık 1-2 hafta sonra search console üzerinde kapsam sorunu
ortadan kalkacaktır.