
Ezio Gasparini
Automatiser la récolte des données, en gérant leurs pertinences.
1. Pourquoi automatiser la récolte des données ?
L’automatisation de la récolte des données m’a permis de rester informé en temps réel des différentes informations pouvant enrichir ma veille sur Starlink.
Les données et les actualités évoluant chaque jour, il était essentiel pour moi d’agir en conséquence afin de ne rien manquer.
Cette démarche permet également à tout utilisateur, même non initié, de rester informé grâce à des sources fiables sur les nouveautés et l’actualité entourant Starlink.
Comment concevoir sa récolte de données, et gérer sa pertinence ?
Le webscraping est une méthode permettant d’extraire automatiquement des informations à partir de sites web. Elle consiste à accéder à une page, lire son contenu HTML, identifier les données pertinentes, puis les stocker sous un format exploitable (comme un fichier CSV ou une base de données).
Cette technique est couramment utilisée avec le langage Python, à l’aide de bibliothèques comme requests, BeautifulSoup ou Selenium. Elle permet notamment de faire de la veille technologique, de collecter des prix, des articles, ou toute autre information publiée en ligne.
Il est cependant important de respecter les conditions d’utilisation des sites web, car certains limitent ou interdisent cette pratique.
2.Concevoir un script Python
C’est ce script Python qui va nous permettre d’automatiser l’ensemble de la collecte de données.
Voici sa structure :

Travailler en mode Projet


Organiser son développement Professionnel
Cette première partie du programme permet de définir un temps de recherche maximum.
Cela évite que le script ne tourne indéfiniment. Une fois le délai écoulé, le processus est automatiquement interrompu afin de garantir une exécution contrôlée.
Pour ma veille technologique sur Starlink, j’ai sélectionné des sources fiables et pertinentes.
J’ai intégré des sites officiels comme Starlink.com et SpaceX.com pour obtenir les informations directement à la source.
J’ai aussi utilisé des sites d’agences spatiales reconnues comme la NASA, l’ESA et le CNES, qui publient des données techniques et réglementaires, notamment sur les débris spatiaux.
La FCC m’a permis de suivre les autorisations et décisions légales liées au déploiement des satellites.
Enfin, j’ai ajouté Amazon Tech pour faire une veille concurrentielle autour du projet Kuiper.
Ces sources me garantissent des informations à jour, fiables et utiles pour comprendre l’évolution de l’écosystème Starlink.
Intégration de ces sources dans le script:

Cette partie de mon script me permet de trier les données selon leur pertinence, en utilisant un système de mots-clés ciblés.
Ensuite, le script compare les résultats avec un Google Sheet agissant comme une base de données, afin d’éviter les doublons.
Enfin, j’utilise l’API de ChatGPT pour générer un résumé structuré et clair des informations collectées, ce qui permet de les rendre directement exploitables dans le cadre de ma veille.

Cette partie du script me permet d’afficher les résultats directement sur un serveur Discord, dans un salon dédié.
J’ai également intégré une interface graphique pour rendre la présentation des informations plus claire et visuelle, ce qui améliore l’expérience utilisateur.


Voici les informations renvoyées vers le Google Sheets qui me sert de bases de données :

J’ai également choisi d’intégrer cette solution à mon site portfolio, afin de proposer une démonstration accessible en ligne. Cela me permet de valoriser mon travail et de montrer concrètement les résultats de ma veille automatisée.
Pour cela, j’ai utilisé plusieurs petits scripts permettant d’extraire les données depuis Google Sheets et de les afficher dynamiquement sur mon site web.
Cette étape a été essentielle pour rendre les informations accessibles en ligne et maintenir une interface toujours à jour.

J’ai intégré ce bout de script directement dans la page de mon site, en l’affichant via un repeater. Cela me permet de présenter automatiquement chaque information récupérée de manière claire et structurée, tout en gardant un affichage dynamique et esthétique.
