top of page

BigData et NoSql : notions de base. Focus sur MongoDb et le système d’information PHIS


Par Jonathan Mineau-Cesari (Lepse)


La quantité de données numériques produite dans le monde double tous les 2 ans. On a ainsi généré ces 2 dernières années plus que tout ce qui l’a été auparavant. Cette explosion quantitative de données a donné naissance à de nouveaux paradigmes et technologies pour l’acquisition, la recherche, le partage, le stockage, l’analyse et la présentation des données.

L’INRA est en pleine transition numérique. C’est un producteur massif de donnée et donc concerné par les problématiques de BigData. De plus, étant engagé dans une politique d’ouverture de l’information scientifique et de la mise à disposition de la donnée, il doit garantir que les systèmes d’informations respectent les approches « FAIR » de manière à ce que la donnée soit « trouvable, accessible, interopérable et réutilisable ». Ainsi, l’ouverture de données massives constitue un ensemble de défis à relever.

Depuis les années 1970, les Systèmes de Gestion de Base de Données (SGBD) et notamment ceux que l’on nomme « relationnels » (SGBDR) sont au centre des systèmes d’information (SI). Si les SGBDR répondent et répondront encore longtemps à la demande des SI, ils ne répondent pas ou pas totalement aux problématiques liées au Big Data. C’est ainsi que de nouvelles approches ont vu le jour dans les années 2000 : le NoSql qu’Il faut le voir comme une solution à des problématiques dont le relationnel ne peut pas répondre.

En 2012, dans le cadre du développement du SI OpenSILEX - PHIS (INRA Montpellier) dédié au phénotypage à haut débit des plantes, le choix s’est basé sur le triptyque {web sémantique - SGBDR – NoSql}. La famille NoSql choisie a été celle orientée « document » et la technologie MongoDb.

Au terme de 6 années d’expérience nous pouvons dire qu’en faisant de MongoDb un des piliers de notre SI, nous avons dû changer radicalement notre façon de conceptualiser nos bases. Autant le relationnel impose une approche structurée, autant le NoSql-MongoDb demande de déstructurer et d’accepter la redondance ainsi que l’absence de contraintes d’intégrité. C’est un premier effort important à faire. Ensuite, le système de stockage étant tel qu’il est, il demande non seulement des compétences humaines pour le déploiement et la maintenance mais aussi des infrastructures adaptées (et donc un financement à inclure avant d’utiliser cette technologie dans un projet.)

Posts à l'affiche
Posts Récents
Archives
bottom of page