Accéder au contenu principal

SharePoint : Utiliser SharePoint Search pour de la veille concurentielle

 Lorsque l'on met en place une solution de recherche globale, il convient de réfléchir sur des utilisations business.

En effet, dans toutes les entreprises, il existe une concurrence bien définie (liste fournie en général par le département des ventes ou de la communication). Et cette concurrence doit être surveillée, c’est ce que l’on appelle classiquement l’Intelligence économique, ou dans la version extreme l’espionnage industriel.

Le moteur de recherche de MOSS est un moteur d’indexation capable de crawler des sources diverses dont les sites web classiques.

De ce fait, on peut très bien ajouter la liste des sites publics de ses concurrents dans les sources à indexer (de préférence, une source par concurrent), puis créer un scope “Concurrence” ainsi qu’un jeu de pages de recherche et de résultat.

Je vous renvoie vers l’article sur les Scopes pour cela :

Quelques petits détails tout de même sont à fignoler :

Site avec des pages par langues (utilisation des régional Settings pour le transfert)

Le moteur d’indexation ne recoit pas le routage effectué après le test du navigateur et de ce fait ne peut pas indexer le contenu du site. Il faut donc aller manuellement sur le site et ajouter pour la source de recherche du concurrent les urls du type :

  • http://www.yyyyy.com/fr
  • http://www.yyyyy.com/en
  • http://www.yyyyy.com/al

Vous relancer l’indexation ensuite et tout fonctionne parfaitement

Site avec la balise meta NOINDEX (interdisant l’indexation par les moteurs de recherche)

On remarque cela en regardant les logs du crawler, on trouve le message :

http://www.yyyyy.com
Content for this URL is excluded by the server because a no-index attribute.

Ce cas peut être rencontré (même si aujourd’hui cela paraît totalement idiot pour un site public), et convient donc d’adapter suivant le contexte.

  • Il faut dans un premier temps tester l’existance du fichier “robots.txt” afin de comprendre les interdictions ou authorisations attribués aux moteurs de recherche.
  • Si ce fichier n’existe pas mais que vous trouvez dans la source de la page d’accueil cette balise :

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

De ce fait, cette page ne peut pas être indexée par votre moteur. En revanche, vous pouvez regarder si une autre page que celle d’accueil contient aussi cette balise (About.html par exemple). Très souvent ce n’est pas le cas.

Vous modifiez alors l’URL dans la source de votre Crawl et relancez celui-ci. Il ira alors parcourir tous les liens disponible depuis ce point de départ.

Site basés sur des URL complexes

Certains sites WEB sont intégralement construits dynamiquement, avec des URL comme :

  • http://www.yyyyy.com/?page=yyyyy

Par défaut, Le Search de SharePoint ne supporte pas ce type d’URL et ignore les constructions dynamiques de ce type. On trouve alors le message du type

http://www.yyyyy.com?ob=15
The specified address was excluded from the index. The crawl rules may have to be modified to include this address.

Pour faire accepter ceci par le Crawler, il convient d’ajouter une règle dans le moteur de recherche : Crawl Rules

Cliquer sur “New Crawl Rule”, on définit l’URL (http://www.yyyyy.com/*), On Sélectionne “Include all items in this path” et on coche “Crawl complex URLs (URLs that contain a question mark (?))

image

On valide par OK et relance l’indexation.

Il existe certainement d’autres cas que je vous fournirai au fur et à mesure.

Romelard Fabrice [MVP]

Commentaires

Posts les plus consultés de ce blog

Série de vidéos sur le montage d'une serre horticole ACD

 Episode 1: Préparation du terrain Episode 2: Montage de la serre en elle même Episode 3: Finalisation avec le montage électrique alimentant la serre Bon visionnage Fab

Présentation des outils utiles pour l'entretien de ses haies vives

Afin de gérer les haies vives, il est nécessaire d'avoir recourt à un matériel adapté. Les solutions à batteries sont bien adaptées pour un usage personnel avec des dimensions raisonnables. Ainsi dans mon cas précis, j'utilise les outils suivants de la Gamme Ryobi 18V ONE+ électroportatif: Petit taille-haies simple mais efficace -  RYOBI OHT1855R Un modèle plus puissant qui fonctionne très bien -  RYOBI RY18HTX60A Pour les parties hautes de vos haies, voici un outil très utile -  RYOBI OPT1845 Enfin lorsque vous devez élaguer certains arbres ou certaines partie hautes de vos haies, ce dernier outil est très utile -  RYOBI OPP1820 Ces outils font parti maintenant de mon arsenal de base pour maintenir notre maison chaque saison de taille. Fab

Série de Videos sur Home Assistant intégrant la production Photovoltaïque

 Un certain nombre de vidéos sont en ligne pour intégrer sa production photovoltaïque dans Home Assistant en partant de la base. Installation de Home Assistant: On peut ensuite intégrer les composant des Micro-Onduleurs Enphase, mais aussi les batteries Enphase: Ou encore le composant de contrôle Ecojoko: Ce qui permet alors de faire des comparaisons entre les valeurs capturées: Des videos seront encore publiés dans les prochaines semaines sur différents aspects de cette solution. Fab