L'indexation par les formulaires html
Google teste constamment de nouvelles fonctionnalités pour améliorer la couverture du web. Nous mettons déjà en œuvre des techniques innovantes comme la lecture des contenus en flash et javascript pour découvrir de nouveaux liens, et nous voudrions vous parler aujourd’hui d’une autre technologie que nous avons commencé à tester récemment.
Durant ces derniers mois, nous avons exploré des formulaires html pour essayer de découvrir de nouvelles pages web et url que nous ne pourrions trouver et indexer autrement. Plus spécifiquement, lorsque nous rencontrons un formulaire sur un site de qualité, il se peut que nous décidions d’effectuer quelques requêtes en utilisant ce formulaire. Notre moteur remplit le formulaire en sélectionnant automatiquement des mots contenus dans le site. Nous exploitons également les valeurs contenues dans les menus déroulants, cases à cocher et boutons-radio. Après avoir rempli les formulaires, nous générons et tentons d’indexer les url qui correspondent à la requête. Si nous jugeons que cette page de résultats possède un contenu pertinent et non-présent dans notre index, nous pouvons décider de l’indexer comme n’importe quelle autre page web.
Seul un petit nombre de sites fait l’objet de ces tests, toujours dans le respect des directives du robots.txt et des balises nofollow, noindex. Cela signifie que si un formulaire de recherche est interdit d’accès via un robots.txt, nous n’indexerons aucune des url que le formulaire pourrait générer. Nous prenons en compte uniquement les formulaires en GET et évitons ceux nécessitant des informations d’utilisateur. Par exemple, nous ne traitons pas les formulaires dont l’utilisation nécessite un mot de passe ou des données personnelles (login, identifiants…).
Les nouvelles pages découvertes de cette manière ne pénalisent en aucun cas les autres pages indexées de façon classique. Ce changement n’impactera donc pas le PageRank de vos autres pages : ce sera au contraire un moyen d’augmenter le nombre de pages de votre site indexé dans Google. Cette nouvelle technologie n’influencera non plus en rien l’indexation et le classement des autres pages web.
Cette expérimentation fait partie intégrante de la stratégie de Google d’augmenter la couverture du web. Les formulaires html sont considérés comme le principal obstacle à l’indexation de larges volumes de données par les moteurs de recherche. Les termes de «web profond», « web caché » ou « web invisible » se réfèrent indistinctement à ce contenu qui était jusqu’à maintenant non accessible aux utilisateurs des moteurs de recherche.
En indexant les formulaires html (autorisés par le robots.txt), nous sommes désormais capables de proposer aux utilisateurs des moteurs de recherche des documents qui seraient autrement difficilement trouvables dans les moteurs de recherché.
Source : Google webmaster central blog
Durant ces derniers mois, nous avons exploré des formulaires html pour essayer de découvrir de nouvelles pages web et url que nous ne pourrions trouver et indexer autrement. Plus spécifiquement, lorsque nous rencontrons un formulaire sur un site de qualité, il se peut que nous décidions d’effectuer quelques requêtes en utilisant ce formulaire. Notre moteur remplit le formulaire en sélectionnant automatiquement des mots contenus dans le site. Nous exploitons également les valeurs contenues dans les menus déroulants, cases à cocher et boutons-radio. Après avoir rempli les formulaires, nous générons et tentons d’indexer les url qui correspondent à la requête. Si nous jugeons que cette page de résultats possède un contenu pertinent et non-présent dans notre index, nous pouvons décider de l’indexer comme n’importe quelle autre page web.
Seul un petit nombre de sites fait l’objet de ces tests, toujours dans le respect des directives du robots.txt et des balises nofollow, noindex. Cela signifie que si un formulaire de recherche est interdit d’accès via un robots.txt, nous n’indexerons aucune des url que le formulaire pourrait générer. Nous prenons en compte uniquement les formulaires en GET et évitons ceux nécessitant des informations d’utilisateur. Par exemple, nous ne traitons pas les formulaires dont l’utilisation nécessite un mot de passe ou des données personnelles (login, identifiants…).
Les nouvelles pages découvertes de cette manière ne pénalisent en aucun cas les autres pages indexées de façon classique. Ce changement n’impactera donc pas le PageRank de vos autres pages : ce sera au contraire un moyen d’augmenter le nombre de pages de votre site indexé dans Google. Cette nouvelle technologie n’influencera non plus en rien l’indexation et le classement des autres pages web.
Cette expérimentation fait partie intégrante de la stratégie de Google d’augmenter la couverture du web. Les formulaires html sont considérés comme le principal obstacle à l’indexation de larges volumes de données par les moteurs de recherche. Les termes de «web profond», « web caché » ou « web invisible » se réfèrent indistinctement à ce contenu qui était jusqu’à maintenant non accessible aux utilisateurs des moteurs de recherche.
En indexant les formulaires html (autorisés par le robots.txt), nous sommes désormais capables de proposer aux utilisateurs des moteurs de recherche des documents qui seraient autrement difficilement trouvables dans les moteurs de recherché.
Source : Google webmaster central blog



0 commentaires:
Enregistrer un commentaire
Liens vers ce message:
Créer un lien
<< Accueil