Web sitelerinde gizli sayfalar nasıl bulunur?

2016'da Google, 3200 milyardan fazla arama sorgusu ele aldı. Ancak, arama motorunun sağladığı sonuçlar, yalnızca çevrimiçi olarak sunulan içeriğin yalnızca bir kısmını temsil ediyordu. Çevrimiçi olarak sunulan bilgilerin çoğunun arama motorları tarafından erişilebilir olmaması nedeniyle, bu gizli sayfaları bulmak için özel araçlar veya araştırma web siteleri kullanmak gerekir. Derin web olarak bilinen bu gizli bilgi, tipik arama teknikleri kullanılarak mevcut olandan 5.000 kat daha fazladır.

Gizli içerik türleri

Web sitelerinin gizli sayfaları, neden arama motorlarına görünmez kaldığını açıklayan kategorilere ayrılmıştır.

Bazıları, yalnızca bir ziyaretçi belirli sonuçları sunmak için bir veritabanına dayanan bir kod kullanan bir web sitesinde belirli bir istek yayınladığında sunulan dinamik içeriği oluşturur. Örnek olarak, bu sayfalar, ürün ölçütlerinin belirli kombinasyonlarına dayalı satın alma sonuçlarını içerebilir. Arama motorları, bu veritabanlarındaki bilgileri izlemek ve depolamak için tasarlanmamıştır. Bu sayfaları bulmak için, web sitesine gitmeli ve aradığınız bilgileri aramalı ya da Bright Planet gibi bir veritabanı yönelimli arama servisi kullanmalısınız.

Bazı sayfalarda bunları arama kaynaklarına bağlayan bağlantılar yoktur. Az gelişmiş web siteleri gibi, az gelişmişlik web sitelerinin çoklu versiyonları gibi geçici kaynaklar bu kategoriye dahil edilebilir. Örneğin, bir kullanıcı bir web sayfası oluşturup web sitesi sunucusuna yüklediyse ancak web sitesinin mevcut sayfalarına bir bağlantı eklemediyse, arama motorları da dahil olmak üzere kimsenin olmadığını kimse bilemez.

Daha fazla sayfa, abonelik siteleri gibi görüntülemek veya erişmek için oturum açma kimlik bilgileri gerektirir. Web tasarımcıları, sitelerin sayfalarını ve bölümlerini, arama motorlarının sınırları dışında olacak şekilde konumlandırırlar ve yerlerini geleneksel araçlarla etkin bir şekilde ortadan kaldırırlar. Bu sayfalara erişmek için, genellikle onlara erişmek için izin verildiğinden önce bir hesap oluşturmanız gerekir.

Robots.txt dosyalarını kullanma

Arama motorları, bir web sitesinin sayfalarını tarar ve içeriklerine, sorgulara yanıt olarak görünebilecek şekilde dizine eklenir. Bir web sitesinin sahibi alan adının bazı bölümlerini bu dizine ekleme işlemlerinden hariç tutmak istediğinde, bu dizinlerin veya sayfaların adreslerini sitenin kök dizininde saklanan robots.txt adlı özel bir metin dosyasına ekler. Çoğu web sitesi, dışlama ekleyip eklemediğine bakılmaksızın bir robot dosyası içerdiğinden, içeriğini görüntülemek için belgenin öngörülebilir adını kullanabilirsiniz.

Site adresiniz için "[alan adı]" yerine, tarayıcınızın adres çubuğundaki tırnak işaretleri olmadan "[domain name] /robots.txt" yazarsanız, robot dosyasının içeriği genellikle "Enter" tuşuna bastıktan sonra tarayıcı penceresi. "Disallow" veya "nofollow" tarafından öncelenen girişler, sitenin bir arama motoru aracılığıyla erişilemeyen kısımlarını temsil eder.

Kendin yap: web sitelerini kesmek

Robot.txt dosyalarına ek olarak, web tarayıcınızda belirli sayfalar ve klasörler için web adresleri yazarak gizli içeriği sık sık bulabilirsiniz. Örneğin, bir sanatçının web sitesine bakıyor ve her sayfanın aynı adlandırma kuralını kullandığını fark ettiyseniz - galeri1.html, gallery2.html, gallery4.html - o zaman "galeri3.html sayfasını yazarak gizli bir galeri bulabilirsiniz." "web tarayıcınızda.

Benzer şekilde, web sitesinin sayfaları düzenlemek için klasörler kullandığını görüyorsanız (example.com/content/page1.html gibi), "/ content" klasörüyle birlikte - daha sonra web sitesinde ve siteye yazarak klasörün kendisini görebilirsiniz. Web tarayıcınızda "example.com/content/" gibi bir sayfa olmadan klasör. Klasöre erişim devre dışı bırakılmadıysa, içerdiği sayfalarda ve gizli içeriği bulmak için herhangi bir alt klasörün sayfalarında gezinebilirsiniz.

Bu makale itstillworks.com'un yardımıyla yapıldı .