SharePoint : Utiliser SharePoint Search pour de la veille concurentielle

Lorsque l'on met en place une solution de recherche globale, il convient de réfléchir sur des utilisations business.

En effet, dans toutes les entreprises, il existe une concurrence bien définie (liste fournie en général par le département des ventes ou de la communication). Et cette concurrence doit être surveillée, c’est ce que l’on appelle classiquement l’Intelligence économique, ou dans la version extreme l’espionnage industriel.

Le moteur de recherche de MOSS est un moteur d’indexation capable de crawler des sources diverses dont les sites web classiques.

De ce fait, on peut très bien ajouter la liste des sites publics de ses concurrents dans les sources à indexer (de préférence, une source par concurrent), puis créer un scope “Concurrence” ainsi qu’un jeu de pages de recherche et de résultat.

Je vous renvoie vers l’article sur les Scopes pour cela :

Amélioration du Search MOSS - Les scopes

Quelques petits détails tout de même sont à fignoler :

Site avec des pages par langues (utilisation des régional Settings pour le transfert)

Le moteur d’indexation ne recoit pas le routage effectué après le test du navigateur et de ce fait ne peut pas indexer le contenu du site. Il faut donc aller manuellement sur le site et ajouter pour la source de recherche du concurrent les urls du type :

http://www.yyyyy.com/fr
http://www.yyyyy.com/en
http://www.yyyyy.com/al
…

Vous relancer l’indexation ensuite et tout fonctionne parfaitement

Site avec la balise meta NOINDEX (interdisant l’indexation par les moteurs de recherche)

On remarque cela en regardant les logs du crawler, on trouve le message :

http://www.yyyyy.com
Content for this URL is excluded by the server because a no-index attribute.

Ce cas peut être rencontré (même si aujourd’hui cela paraît totalement idiot pour un site public), et convient donc d’adapter suivant le contexte.

Il faut dans un premier temps tester l’existance du fichier “robots.txt” afin de comprendre les interdictions ou authorisations attribués aux moteurs de recherche.
Si ce fichier n’existe pas mais que vous trouvez dans la source de la page d’accueil cette balise :

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

De ce fait, cette page ne peut pas être indexée par votre moteur. En revanche, vous pouvez regarder si une autre page que celle d’accueil contient aussi cette balise (About.html par exemple). Très souvent ce n’est pas le cas.
Vous modifiez alors l’URL dans la source de votre Crawl et relancez celui-ci. Il ira alors parcourir tous les liens disponible depuis ce point de départ.

Site basés sur des URL complexes

Certains sites WEB sont intégralement construits dynamiquement, avec des URL comme :

http://www.yyyyy.com/?page=yyyyy

Par défaut, Le Search de SharePoint ne supporte pas ce type d’URL et ignore les constructions dynamiques de ce type. On trouve alors le message du type

http://www.yyyyy.com?ob=15
The specified address was excluded from the index. The crawl rules may have to be modified to include this address.

Pour faire accepter ceci par le Crawler, il convient d’ajouter une règle dans le moteur de recherche : Crawl Rules

Cliquer sur “New Crawl Rule”, on définit l’URL (http://www.yyyyy.com/*), On Sélectionne “Include all items in this path” et on coche “Crawl complex URLs (URLs that contain a question mark (?))”

On valide par OK et relance l’indexation.

Il existe certainement d’autres cas que je vous fournirai au fur et à mesure.

Romelard Fabrice [MVP]

Rechercher dans ce blog