Dans le cadre de la mise en place de ferme MOSS, la question de la recherche devient cruciale. On doit bien sur configurer le moteur de recherche, comme expliqué dans cet article :
Vient ensuite la planification de l’indexation. En effet, il existe, comme dans de nombreux autres systèmes, deux type d’indexation pour une source de données :
- L’indexation complète (ou Full Crawl)
- L’indexation incrémentale (ou Incremental Crawl)
Ainsi, on se pose rapidement la question des différences entre ces deux types d’indexation ?
On peut facilement justifier de ces différences (Full et Incremental) sur un système de sauvegarde, mais comment expliquer celles-ci dans un moteur d’indexation.
Microsoft a ainsi mis à notre disposition un document (White Paper) sur le sujet que l’on peut trouver sur le site Technet :
Ce document vous fournit différentes informations dont justement ces différences (Page 15).
Ainsi, on apprend que l’incrémentale (pour une source de contenu SharePoint 2007) n’indexera que les différences (Changement des documents, modification des sécurités ou métadata, suppression, ajout, …) des listes documentaires. Il ne sera pas fait de mise à jour si vous ajoutez des nouvelles vue dans vos listes ou des pages ASPX, ce qui n’est pas forcément un drame en soit. Je vous laisse découvrir les autres différences.
Une fois cette information comprise, on se pose alors la question de la planification, quand doit-on choisir chaque type d’indexation ?
Ainsi, le document nous explique les différents cas où on doit effectuer une indexation complète. Pour faire simple, les cas sont du type :
- Pour initialiser, réparer ou réinitialiser notre index (car pour effectuer une incrémentale, il faut déjà avoir effectué un Full)
- Suite à l’installation de Patch ou Service Pack (sur l’indexeur ou la source)
- Appliquer de nouvelles règles d’indexation (crawl rules) ou changement du schéma des propriétés de recherche
- Si on veut réindexer toutes les pages ASPX (nouvelles pages ajoutées)
- Après une indexation arrétée par l’administrateur ou ayant subit 100 erreurs lors de l’indexation incrémentale
- Quand on effectue une restauration des bases de contenu ou que le temps de rétention de l’îndexeur sont trop long
On voit donc bien que ce sont pour la plupart des cas, des situations d’urgences mais possibles, surtout si on travaille dans un environnement distribué (nombreuses fermes régionales).
On doit donc effectuer un choix en fonction de différents critères comme :
- Le nombre de documents
- Le débit disponible dans son réseau
- Le taux de renouvellement ou de modification
- Les heures de travail (pour choisir la plage entrainant le moins d’impact)
- …
Dans mon cas précis (14 fermes régionales WSS V3 réparties dans le monde entier avec des débits variables), nous avons choisi une répartition simple (à expliquer et à mettre en place) qui diminue au maximum le travail de l’indexeur tout en fournissant un service optimal :
- Indexation complète répartie sur 14 semaines (chaque dimanche, l’indexeur travaillera une ferme locale différente)
- Indexation Incrémentale chaque jour de semaine (mais planifiée à une heure de nuit pour chaque ferme locale afin de ne pas pénaliser les utilisateurs locaux)
Le fait de faire un incrémental chaque nuit (dans la ferme distante) permet de diminuer le nombre de documents à mettre à jour dans l’index et donc diminuer le temps pris par le moteur pour travailler avec la ferme WSS V3 distante. De plus, cela permet d’assurer au moteur d’indexation du travail sur quasiment toute la plage des 24 Heures.
La rotation sur 14 semaines de l’indexation complète permet d’assurer la qualité de notre index, car tous les 3 mois tout l’index de chaque source est totalement rafraichi. On limite aussi les impacts d’une modification éventuelle effectuée dans les fermes locales sans que l’administrateur du moteur de recherche soit averti. Cela permet enfin de limiter les risques de déclenchement automatique du Full Crawl (comme cela peut arriver lors de problèmes sur l’incrémental).
Le document est relativement court, mais fourni des informations indispensables pour tout administrateur de ferme MOSS.
Romelard Fabrice [MVP]
Commentaires
Enregistrer un commentaire