Crawler OG Crawl : RSS full text

Ce crawler permet d'indexer le contenu des flux RSS et ainsi de pouvoir générer automatiquement des documents.

og crawl olivier guitton veille intelligence economique

Cliquer sur l'image pour la visualiser en grand

  • Téléchargement des articles avec le texte complet même sur les flux RSS ne contenant que le texte d'introduction
  • Planification du crawler en minutes (la collecte automatique peut s'effectuer toutes les 30 minutes, 900 minutes...)
  • Téléchargement des images
  • Suppression/remplacement automatique de contenu par mot-clé ou par Regex
  • Filtre mot-clé (blacklist et mot-clé obligatoirement présent)
  • Dédoublonnage automatique même site
  • Ajout automatique du nom et du lien de la source sur les articles

Ce crawler repose intégralement sur le composant open-source et gratuit FeedGator compatible Joomla.

Objectif professionnel

Olivier_Guitton  

Occuper un poste axé sur la détection, la création d’opportunités commerciales et la protection de l’information à forte valeur ajoutée
Viadeo - LinkedIn - CV