Notes
-
[1]
Comme Zotero ou Mendeley
-
[2]
Description de ces balises sémantiques telles que proposées par le consortium W3C : www.w3schools.com/html/html5_semantic_elements.asp
-
[3]
Schema.org par exemple
-
[4]
Voir le blog officiel de Google à ce sujet : https://googleblog.blogspot.fr/2012/05/introducing-knowledge-graph-things-not.html
- [5]
- [6]
- [7]
1 La question de la lecture des métadonnées, avant même celle du référencement, se pose : que « voit » Google des efforts d’éditorialisation des métadonnées pour « sémantiser » les contenus des pages web et les lier à d’autres sources de données ou à d’autres vocabulaires ?
Les méthodes d’exposition de contenus
2 Les méthodes pour « exposer » les données au sein des pages sont peu nombreuses et se classent en deux catégories : le Plein Old Semantic HTML (POSH) et les triplets RDF.
- L’ancienne catégorie, celles des POSH, use de vocabulaires descriptifs comme le Dublin Core. Les métadonnées de la page sont encapsulées dans des balises HTML <meta> de l’en tête. Son utilité se limite à la détection de notices documentaires par les outils de gestion de références bibliographiques [1] et, dans une certaine mesure, à l’indexation automatique. Ces méthodes ne permettent d’exposer qu’un seul document par page, ce qui n’est pas satisfaisant sur le plan de la granularité. Ainsi, c’est l’ensemble d’une page qui sera indexée par Google, mais pas ses contenus individuellement puisqu’un fichier HTML ne contient qu’un seul en-tête.
- La nouvelle catégorie de méthodes d’exposition de contenus, avec l’arrivée du HTML5 et de ses balises sémantiques [2], règle la question de la description intradocumentaire. Les langages fondés sur des triplets sémantiques (RDFa, micro-données et micro-formats) proposent de décrire de manière normalisée les contenus avec des vocabulaires communs [3] et, éventuellement, de les lier à d’autres contenus balisés de la même façon.
Formalisme et sémantique
3 Google préconise ces dernières années l’utilisation de ces méthodes, désormais prises en compte dans son algorithme. L’usage de la sémantique a pour objectif, selon Google, de tendre vers la « recherche conversationnelle », c’est-à-dire de répondre réellement à des questions. Sur son blog officiel, il présente depuis 2012 l’idée que le moteur recense des concepts et non des chaînes de caractères [4].
4 Depuis, il est devenu impossible de passer à côté des encarts Google de type Knowledge Graph qui valorisent des contenus structurés [5] par leur mise en exergue sous forme d’encadré sur la première page de résultats. Cette valorisation est probante pour les encarts Wikipédia, les contenus géo-localisés, les biographies structurées, mais aussi les sites de gastronomie qui formalisent en triplets les recettes de cuisine. Pour vérifier le formalisme de la sémantique des pages et la lisibilité qu’en a Google, on peut se référer à la documentation Google Developpers [6] puis les tester au moyen de l’outil en ligne de détection des triplets [7].
5 Si la structuration des données et métadonnées des documents par la sémantique n’est pas l’essentiel de l’indexation par Google, elle devient une part importante de la stratégie Search Engine Optimisation (SEO) encouragée par la firme. Cette partie du travail de formalisation de contenus est délicate dans le cadre d’un enjeu d’indexation fort, car elle nécessite, outre les aptitudes traditionnelles d’indexation, des capacités documentaires et techniques élevées qui tendent vers une évolution des métiers du Web.
Notes
-
[1]
Comme Zotero ou Mendeley
-
[2]
Description de ces balises sémantiques telles que proposées par le consortium W3C : www.w3schools.com/html/html5_semantic_elements.asp
-
[3]
Schema.org par exemple
-
[4]
Voir le blog officiel de Google à ce sujet : https://googleblog.blogspot.fr/2012/05/introducing-knowledge-graph-things-not.html
- [5]
- [6]
- [7]