digital marketing

I files robots.txt e sitemap.xml

Il file robots.txt, è un file di testo (proprio con estensione “.txt”) che contiene delle regole che hanno lo scopo finale di escludere dall’analisi dello spider determinate pagine web. L’insieme di queste regole è detto anche “protocollo di esclusione robot“. Queste regole, sono definite mediante alcune istruzioni standard molto semplici.

Si utilizza il file robots.txt per fare in modo che gli spiders (crawler) non scanerizzino alcune pagine web o intere cartelle. In alcuni casi, il webmaster deve evitare che alcune pagine non vengano indicizzate dai motori di ricerca; pagine come quelle di amministrazione, file css, files javascript, ecc. Un webmaster può decidere per svariate ragioni di non voler indicizzare dei contenuti e lo fa attraverso il file robots.txt

Esempio di file robots.txt:
User-agent: *
Disallow: /file.css
Disallow: /file.javascript
Disallow: /amministrazione.php
Allow: homepage.html

In genere, non bisogna specificare i files per cui si voglia l’indicizzazione, quindi l’ultimo “allow” è superfluo in quanto se non specificato diversamente, lo spider considera tutto come allow. Lo abbiamo inserito per puro scopo dimostrativo.

User-agent: * <—- indica il motore di ricerca a cui è riferita l’istruzione. In questo caso,
inserendo l’asterisco si specifica “tutti i motori di ricerca”. Se si vuole invece inviare delle istruzioni a dei motori di ricerca specifici, bisogna inserire il nome dello spider (esempio Googlebot per Google o Yahoo! Slurp per Yahoo!).

Nei disallow si inserisce il percorso della pagina, del file o della cartella per cui si vuole
disabilitare la scannerizzazione e l’indicizzazione. Nota bene: il file robots.txt va inserito nella root del sito web (ovvero nella directory principale). Per verificare se è stata inserita correttamente, si può inserire l’URL del proprio sito con l’aggiunta del file robots. http://www.miosito.it/robots.txt

Se viene visualizzato il file dal broswer, vuol dire che è stato inserito correttamente.
Bisogna ricordare che le regole e le istruzioni inserite in questo file non sono “assolute”, un motore di ricerca può decidere se seguirle o no, pertanto sono da considerare come pure linee guida. La maggior parte dei motori di ricerca ne tiene comunque conto, ma è bene ricordare che non tutti agiscono allo stesso modo.

Diciamo che è buona norma trovare anche altre soluzioni oltre all’inserimento delle regole nel file robots.txt per evitare l’indicizzazione di alcune pagine web.
Per scrivere il file robots.txt si può usare un normalissimo Bloc Note di windows (o
notepad ++).

Alcuni tipi di istruzione possono essere inseriti direttamente nelle pagine utilizzando il meta tag robot, trattato nell’unità precedente. Si consiglia di utilizzare il file robots.txt
contenente tutte le istruzioni in modo tale da poter modificare eventualmente, tutto da questo file, altrimenti bisognerà aprire manualmente le pagine interessare ed effettuare le modifiche.

Il file sitemap.xml è un file in formato xml che contiene una lista di URL del sito web, raggruppandoli in una sorta di mappa, come dice il nome stesso. Inizialmente aveva lo scopo di fornire all’utente che navigava sul sito, una mappa per trovare tutte le indicazioni e le diramazioni (link) di un sito web per facilitarne la navigazione. Oggi invece, la sitemap ha un ruolo fondamentale per i motori di ricerca (soprattutto Google) in quanto viene creata per facilitare lo spider nell’analisi e nella scansione per l’incidizzazione di un sito web.

Serve a indicare la strada allo spider che, trovando i collegamenti, riesce a farsi un’idea
della struttura di un sito web. Abbiamo parlato particolarmente di Google, in quanto, una volta creata e posizionata nella root del sito (directory principale), la sitemap deve essere inviata a Google attraverso il Google Webmaster Tools, uno degli strumenti che Google mette a disposizione del webmaster per facilitare l’ottimizzazione e la gestione di un sito web.

Anche in questo caso, come il file robots.txt, per verificare che la sitemap è stata inserita nella root di un sito web in modo corretto, basta aggiungere nella stringa dell’URL la dicitura “sitemap.xml”. http://www.miosito.it/sitemap.xml

Creare la sitemap.xml manualmente è un lavoro lungo che può portare anche a maggiori
errori. Fortunatamente esistono dei validi strumenti online che gratuitamente, inserendo il link di un sito, ne generano la sitemap in pochi secondi.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...