Comment Google voit les PDF ?

Aujourd’hui je vais vous livrer le résultat d’un petit test que j’ai réalisé il y a quelques semaines. Ce n’est évidemment pas la solution miracle pour se placer premier sur toutes les requêtes les plus concurrentielles, mais à force de cumuler les petites actions on pourra arriver à de bon résultats.

Les différents types de contenu

Il existe plusieurs type de contenu différent (image, video, PDF, page html,…), et dans ce test c’est au fichier PDF que je me suis intéressé. A plusieurs reprises il m’est arrivé de voir des fichiers PDF dans les SERPs comme on le voit sur l’image ci-dessous.

SERP_pdf

D’après le titre et la description on peut voir que Google arrive relativement bien à lire les fichiers PDF. Sachant que dans un fichier PDF on peut y mettre des liens je me suis posé la question suivante « Est-ce que Google arrive à détecter ces liens ? ». C’est là qu’entre en jeu le test !

Mise en place du test

Le test à été très simple, j’ai créé un fichier PDF avec un petit peu de texte dedans et un lien pointant vers une page inconnue aux yeux de Google. De plus ce lien était posé sur une ancre pour laquelle aucun résultat ne ressortait dans les SERPs.

Le but de ce test est donc double, savoir si Google va indexer ce lien et savoir si Google va accorder de l’importance à l’ancre de ce lien.

Pour que Google puisse indexer mon fichier PDF j’ai rédigé un texte sur une nouvelle page avec un lien pointant vers le fichier PDF. Et ensuite j’ai soumis l’URL de ma page à Google pour qu’il aille visiter mon fichier PDF.

Les résultats du test

SERP_mon_test_pdf

Bon jusqu’à présent tout va bien, mon fichier PDF a été indexé et heureusement sinon mon test n’aurait rien donné.

De plus ce lien pointe vers la page suivante : http://lab.guillaumedesbieys.com/test5/thispage.php là encore le texte n’est présent que pour décorer et ne pas avoir une page entièrement blanche.

Quelques jours plus tard Google indexe la page thispage.php ce qui signifie que Google à su trouver le lien dans le PDF et l’a exploré. Le premier objectif du test est donc remplit !

Maintenant est-ce que si je tape « koinkoindulac » dans Google je trouve thispage.php dans les résultats ? Et bien malheureusement non.

resultat_koinkoindulac

Je tombe seulement sur le fichier PDF et non pas la page de destination du lien.

Conclusion

Si Google indexe la cible du lien c’est qu’il lui accorde une certaine importance. Je pense donc que cela peut être un petit plus pour diversifier les sources de liens. En revanche, le choix du mot clé pour ce lien ne sera pas d’une grande importance d’après les résultats de ce test.

Si on jette un coup d’œil au cache de Google concernant ce fichier PDF on peut voir que le fichier PDF a intégralement été retranscrit en HTML, même le lien a été placé sur la bonne ancre.

23 thoughts on “Comment Google voit les PDF ?

  1. Loïc Reply

    Clair et net, bravo !

    Les articles faisant des test SEO sur des points précis sont de plus en plus rares ces temps-ci, je trouve cela domage car c’est justement l’une des bases du référencement : tester un comportement de Google et en tirer des conclusions utiles. Du coup je sais désormais que Google prend bien en compte le lien d’un .pdf pour l’indexation, mais à priori n’en tient pas compte pour le positionnement.

  2. Mickael Reply

    Merci de partager ce test, c’est bon à savoir !

    Ps : je t’ai fais une remarque par mail 😉

  3. LIJE Creative Reply

    Sympa le test. Moi je me demande si le contenu d’un pdf rank tout aussi bien voir mieux que le contenu d’une page ou vis versa. Je pense notamment à pomper le contenu pdf d’autres sites pour tenter de ranker dessus.

  4. Frédéric Reply

    Ce test est vraiment intéressant. Il y a toujours eu une zone de floue autour des PDF et de leur indexation. Juste quelques remarques : il aurait été intéressant de mettre un volume de texte plus important autour de ton lien, et pourquoi pas effectuer un 2ème test avec plusieurs fois le terme « koinkoindulac » dans le PDF en plus du lien
    Merci pour ce test SEO en tout cas ! 😉

    • Guillaume

      Ah oui pourquoi pas il faudrait que j’essaye pour voir si Google pousse le lien avec le mot clé ayant la plus grosse fréquence d’apparition. Je vais sans doute essayer ça 😉

  5. Christian Reply

    Il est possible que cela évolue avec le temps. Peut-être que ton PDF enverra du jus sur l’ancre dans quelques semaines.
    Il faudrait aussi faire le test avec plusieurs PDF avec la même ancre pour voir à quel moment, le jus commence à passer correctement vers la page cible. Cela permettrait de dire 1 page HTML = 5 pages PDF par exemple

  6. Arnaud Reply

    Ah quand un site entier au format PDF ? Blague à part, merci Guillaume pour le test, je n’y aurai pas forcément pensé, mais comme tu le dis, voilà un moyen sympa pour diversifier simplement son netlinking !

  7. . Reply

    Oui, tres intéressant…. mais encore un peu flou pour moi : Si je pose sur notre site des fiches pdf sur nos produits, elles seront lues par Google, mais les liens dans les doc ne seront pas pris en compte ?

    Donc, les fiches pdf peuvent donner du referencement sur un terme “ancré” mais pas du “jus” pour faire monter ce terme.

    c’est bien cela?

  8. Guillaume Reply

    @Julien Il me semble avoir déjà vu des .doc indexés par Google, en revanche les XLS je ne crois pas
    @Christian C’est possible oui, je vais surveiller ça. Ca pourrais faire un autre test dans la même thématique en effet 😉
    @Arnaud C’est que ça m’a traversé l’esprit. Bon après ça ne serait qu’un petit site pour tester, disons que je ne baserais pas toute une stratégie là dessus.

    @lunettes Alors si tu poses des fiches en PDF sur ton site, elles devraient être lu par Google. Les liens seront pris en compte, mais l’ancre ne le sera pas (du moins probablement pas). Mais le fait que les PDF soit sur ton site n’apportera peut être pas autant de “jus” dans la mesure où ça serait peut être considéré comme un lien interne.

    • garifuna

      @guillaume
      j’ai bien eu le cas de plusieurs .xls contenant des expressions qui avaient été indexées

    • lunettes

      Merci Guillaume. Donc les pdf, sur mon site ne servent à rien coté referencement. Mais je peux proposer des fiches produits pdf pour d’autres sites pour m’amener des liens?

  9. Fred Reply

    Ça vaudrait le coup d’optimiser un peu le PDF (longueur du contenu, title, meta, etc), et attendre un peu plus. Il n’y a pas de raison, si le PDF a acquis un minimum d’autorité, qu’une partie ne soit pas transmis à l’URL cible.

    @Julien Je te confirme que les XLS et DOC sont bien indexés par Google, comme beaucoup d’autres formats. La liste complète sur http://www.google.com/advanced_search

  10. Christophe Maggi Reply

    Hello,
    Je tiens à préciser que j’avais réalisé un test similaire il y a longtemps et j’en avais conclu que Google indexait bien le contenu des pdf. Par ailleurs, depuis plusieurs années, le contenu de certains de mes pdf en ligne (tarifs, cgv etc …) est bien indexé par Google et les liens du pdf sont bien suivi. Enfin, le contenu des pdf sort bien dans les moteurs de recherche mais apparemment, il faut une certaine densité de mots clés dans le pdf pour que ça ressorte mais aussi une certaine quantité de texte. Je n’ai pas le même résultat avec des fiches descriptives courtes et je n’ai pas non plus le même résultat avec des pdf générés à la volée.

  11. KH_N Algerie Reply

    Bonjour
    Moi j’affirme que Google indexe la cible du lien et il lui accorde une importance dans les doc PDF,
    rechercher : koinkoindulac thispage
    le resultat est bien = lab.guillaumedesbieys.com/test5/thispage.php
    Dans votre test vous avez omis la liaison avec le mot “koinkoindulac”
    indiquer dans thispage.php dans le title ou balise description/keywords le mot koinkoindulac , ou meme dans le corps du texte et vous aurez directement la reponse vers thispage.php
    De meme inverser en recherche large , en recherchant : thispage +koinkoindulac
    (n’oublier pas le plus +) la liaison de koinkoindulac avec thispage.php existe et elle est bien claire.
    Salutations

    • Guillaume

      Bonjour,
      Justement non il ne faut pas mettre le mot clé “koinkoindulac” sur la page thispage.php car pour faire un test il faut isoler une seule variable.
      Or si je met le mot “koinkoindulac” sur cette page il est normal que ma page thispage.php ressorte sur ce mot clé.
      Etant donné que le mot “koinkoindulac” n’est absolument pas concurrentiel un seul lien devrait suffire pour me placer sur cette expression. Le but du test était aussi de vérifier qu’un lien dans un PDF transmettait aussi du jus sur l’ancre du lien. Et en l’occurrence avec ces conditions de test cela n’a pas été vérifié.

  12. Simon Tripnaux Reply

    Ouf ! Heureusement que ça ne fonctionne pas, le web se transformerait en une gigantesque soupe de PDF en l’espace de quelques semaines ! 😉

    • Guillaume

      Après une fois qu’on a le PDF il faut trouver les plateformes qui peuvent héberger le PDF et qui le linke pour qu’il soit indexé par Google. Je n’ai pas fait de recherche poussées sur ce genre de plateforme, mais il ne doit pas y en a voir des millions, du moins il y en aura surement bien moins que des plateformes de blog. Du coup les gens se dirigent vers la quantité et continuent de spammer via des plateformes de blog.

  13. KH_N Algerie Reply

    Re Bonjour

    Simple, rechercher : koinkoindulac “le sens”
    “le sens” est une portion de votre page “thispage.php”,ainsi le resultat est directement vers thispage.php; google a pris en compte la liaison texte integral avec votre mot clé depuis un contexte PDF.

    En fait google a analysé le contenu du PDF et le contenu de votre page via le lien depuis le doc pdf.
    de meme pour : “aucune réponse” +koinkoindulac
    La seule liaison entre le mot clé koinkoindulac et votre page thispage.php est celle du doc pdf.
    Mais google va établir une liaison directe entre le mot clé “koinkoindulac” et votre page “thispage.php” si on lui pousse via CTR click through rate.

    • Guillaume

      Ah oui en effet, donc le seul “jus” transmis dans le PDF sur le mot clé “koinkoindulac” ne suffit pas pour ressortir sur la requête “koinkoindulac”. Peut être donc il faudrait que dans le PDF l’expression “koinkoindulac” soit présente non pas une fois, mais plusieurs fois comme il l’a été dit plus haut dans les commentaires.
      Merci bien pour ces remarques 😉

  14. Lionel - Yooda Reply

    Avec le balisage HTML, c’est facile de repérer l’ancre d’un lien. Je ne suis pas sûr que ce soit aussi évident avec le markup PDF (c’est du post-script non ?). C’est probablement plus difficile et/ou plus coûteux à analyser pour big G.

  15. Vanessa Reply

    Je comprends que ca soit intéressant de vouloir indexer ses pdf mais au bout du compte d’un point de vue monétisation, ce qu’il y a a l’intérieur réellement du pdf n’est jamais vraiment très intéressant d’un point de vue vente ou redirection… Mais merci pour le test car d’un point de vue technique c’est intéressant

Leave a Reply

Your email address will not be published. Required fields are marked *