Data Science

Sylvain azuré

Data Science en Ecologie

La Data Science est la science des données. Elle consiste à explorer et analyser les données brutes pour les transformer en informations. Si le terme est désormais repris par le monde de l’entreprise, la Data Science est avant tout un outil de recherche scientifique. En effet, elle s’applique tout naturellement au traitement de données en sciences appliquées (physique, chimie, biologie, géologie, sociologie…). Sur cette page, nous vous présentons une brève définition de la discipline en sciences de l’environnement ainsi qu’un lien vers les ressources publiées sur ce blog.

Une définition de la Data Science ?

La Data Science naît à l’interface entre technologie, inférence statistique (data inférence) et programmation informatique. Elle permet donc de découvrir de nouvelles informations (insights) au sein des données.

Deux grands domaines se distinguent au sein de la Data Science. Tout d’abord, la Data Analytics, qui permet traiter les données brutes selon un objectif ou une direction connue. Ensuite, le Data Mining, qui consiste à rechercher de nouvelles informations (insights) et motifs (patterns) parmi ces données.

Les données se subdivisent aussi en différents termes. Le Dark Data désigne d’abord les données brutes qui ne sont jamais utilisées, et qui pourtant révèlent de potentielles informations pertinentes. Le Data Lake regroupe ensuite les données brutes d’accès informatique facilité avant de les nettoyer ou de les compiler. Il peut s’agir d’un serveur distant et connecté stockant l’ensemble des données. Enfin, le Data Warehouse regroupe des données triées et structurées, stockées à part dans une sorte d’entrepôt virtuel, et prêtes pour analyses.

Pour conclure, citons également le développement de Cassandra, système de gestion open source, spécialement conçu pour prendre en charge de larges volumes de données sur des serveurs distribués.

Data Science et Environnement

Le développement de la Data Science n’oublie pas les sciences de l’environnement, bien au contraire. En effet, deux grands types d’analyses de données ont émergé ces dernières décennies alors que la technologie venait renforcer les travaux de recherche scientifique.

Les Biostatistiques, premièrement, sont indispensables à l’analyse des données brutes. Le logiciel libre R est devenu l’outil incontournable de cette étape. Mais l’application d’autres ressources informatiques, notamment en terme de gestion de bases de données, est venue renforcer la puissance d’analyse en sciences naturalistes.

L’analyse spatiale des données, deuxièmement, est tout aussi indispensable désormais. Elle se rencontre aussi bien dans le domaine de la recherche scientifique que de la gestion d’espaces naturels. L’essor des logiciels libres a donné lieu au développement de QGIS, concurrent sérieux sur le marché du logiciel SIG. Désormais se développent les interfaces multiples entre navigateur web et cartographie (webmapping) ou encore entre bases de données, inférence statistique et analyse spatiale.

Comments are closed.