• Scraping du Web

    Mon 1er post est une brève présentation de ce que sera la teneur générale de ce blog. 

    Il s'agit avant tout de scraping du Web, c'est à dire de la collecte automatisée de données en provenance de sites Web et du traitement de ces données après analyse.

    Mes posts seront techniques, plutôt réservés à ceux qui sont familiers du Web, d'Apache, MySQL, XML, HTML, Python, ... 

    Pour illustrer mes articles je m'appuierai sur un moteur de recherche que j'ai développé www.les.bougies.com .

    Ce moteur scanne périodiquement les sites marchands spécialisés dans la vente de bougies parfumées et met à jour la base de données du site Wordpress www.les.bougies.com afin de permettre de lister sur le site une bonne partie de l'ensemble des produits commercialisés sur ces sites.

    Par exemple, le site Scandles est scanné chaque jour et les produits du site sont visibles sur le moteur www.lesbougies.com 

     Je ne m'attarderai pas sur le site, qui est relativement classique, car développé grâce au CMS Wordpress. Je consacrerai plutôt mes articles au robot qui alimente ce site.

    Le prochain article sera donc consacré à BeautifulSoup !

     


  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :