Yahoo ora permette ai webmaster di bloccare l'accesso degli spiders su specifiche url badandosi sui parametri frequentemente utilizzati nei siti dinamici.
Il riferimento che viene utilizzato è relativo alle landing pages pubblicitarie (le pagine web utilizzate cioè come pagine di accesso per le campagne di web marketing o pay per click del sito) ma lo stesso riferimento può allo stesso modo essere utilizzato per CMS o shopping cart per la prevenzione di contenuti duplicati che, in caso di indicizzazione, genererebbe una pericolosa fattispecie di spam, punibile dai motori di ricerca.
Facciamo un esempio di una url dinamica che un sito desidera NON indicizzare. Questo parametro sarebbe stato utilizzato per la funzione “stampa questa pagina” e sarebbe stato visto come contenuto duplicato dai motori di ricerca in quanto pagina portatrice del medesimo contenuto di un'altra presente nel sito:
esempio:
http://www.sito.com/cat/prod.do?product_it=123%tp=print
Il seguente comando contenuto nel file robots.txt previene il problema impedendo a Yahoo! di indicizzare tutte le pagine presenti nel sito, del tipo descritto nell'esempio di cui sopra.
Ecco il codice:
User-Agent: Yahoo! Slurp
Disallow: /*tp=print
Tutte le url che contengono al loro interno il testo: “tp=print” non verranno indicizzate da Yahoo!.
Stefano Mc Vey
Articoli correlati:
| Google ha aggiunto la possibilità di testare il vostro file robots.txt potendo così scoprire come Google reagisca ad esso. Il file robots.txt è generalmente ... |
| Al principio tutti ricordiamo che lo standard Robots.txt è stato ... Il test del file robots.txt in Google Sitemaps produce la seguente risposta:. ... |
| Può essere utile conoscerli per settare al meglio il file robots.txt per favorire (o al contrario escludere) l'indicizzazione. ... |
| salvarlo con nome robots.txt, e includerlo nella root del sito in modo ... Lo spider Googlebot riconosce tutti i files robots.txt associati alle pagine . ... |
| Robots.txt era già supportato da tutti e tre i motori di ricerca, tanto quanto il supporto comune di determinati tags come ad es. il tag “nofollow”. ... |
| Ha annunciato il pieno supporto di Wildcards nel file robots.txt (il file in formato testo che si inserisce sulla root principale dei siti web per orientare ... |
| A differenza del file robots.txt la sitemap non deve essere collocata nella ... Una volta eseguito il login occorrerà cliccare su "aggiungi una sitemap". ... |
| A differenza del file robots.txt la sitemap non deve essere collocata nella root principale (dove risiede la home page) ma nella directory specifica che ... |
Lo spider Googlebot riconosce tutti i files robots.txt associati alle pagine https per cui, in relazione alla sicurezza, l’indicizzazione nelle aree ...
|