Pagine indicizzate: quasi 9 miliardi al mese di dicembre 2005
Nome dello spider (User Agent): Googlebot/2.1.
http://www.googlebot.com/bot.html
Altri possibili nomi dello spider di Google:
- Wget/1.5.3.;
- Googlebot-image (indicizza le immagini del sito)
- Wisenut: Mozilla/4.0 compatible ZyBorg/1.0
Identificatore dello spider nel file robot.txt:
User-agent: googlebot
Lo spider Googlebot riconosce tutti i files robots.txt associati alle pagine https per cui, in relazione alla sicurezza, l’indicizzazione nelle aree riservate può essere evitata.
Supporto frames: sì
Formati supportati: PDF, ASP, JSP, PHP, HTML, SHTML, XML, CFM, DOC, XLS, PPT, RTF, WKS, LWP, WRI e SWF: questi formati possono essere spiderizzati e indicizzati.
Metatag: i metatags sono regolarmente letti dallo spider ed utilizzati nei casi in cui nella pagina non ci sia del testo. Il metatag description viene utilizzato per la descrizione della pagina ma ufficialmente i metatag non sono considerati dall’algoritmo per la catalogazione dei risultati
Aggiornamento dei contenuti: al massimo ogni 60 giorni. I siti con elevato Page Rank, contenuti nuovi ed aggiornati frequentemente (almeno 1 k di differenza nel “peso” della pagina deve essere rilevato dallo spider perché si accorga che ci sia stato un aggiornamento) possono essere rivisitati molto più velocemente, anche entro le 24 ore. Il trend di Google è di mantenere sempre aggiornato il suo database.
Tempi per l’indicizzazione: mediamente da 48 ore a 2 settimane
Pagina web per la richiesta di indicizzazione:
http://www.google.com/addurl/
Google fornisce risultati a: Netscape, Earthlink, AOL, IWon, Alexa, Disney, Go.com (nel mondo); Kataweb, Virgilio, Supereva (in Italia)
Directory: Google utilizza la directory di DMOZ (Open Directory Project) come directory personale.
Note: Google penalizza I siti iper-ottimizzati (soprattutto nei tags <title> e <body>) per le keyword più ricercate dal pubblico. La penalità può consistere nella caduta nei risultati in quella esatta chiave di ricerca fino all’esclusione dal database.