Développements méthodologique associés
. La modélisation des débuts d’épidémies et des émergences (depuis 2005) Participants : Myriam Charras-Garrido, Christian Ducrot, Zaher Khraibani Principaux collaborateurs : Unité MIA de l'INRA de Jouy-en-Josas L’un des thèmes forts de notre unité est l’étude des maladies émergentes. Leur analyse nécessite de détecter le plus tôt possible l’émergence d’une pathologie dans une population. Zaher Khraibani (MIA Jouy-en-Josas) a effectué de 2005 à 2008 une thèse de statistique, en collaboration avec l’unité MIA de l’INRA de Jouy-en-Josas, sur l’étude de l’émergence à l’aide du processus des records. Il a en particulier étudié les propriétés du processus des instants de records, des valeurs de records, et la loi du nombre de records. Au cours de cette thèse un premier test statistique de détection de l'émergence a été proposé. Il est basé sur la statistique la plus simple : le nombre de records. Nous avons en projet d'utiliser des statistiques issues des processus des instants et des valeurs de records pour développer de nouveaux tests de détection de l'émergence. . La Modélisation statistique spatio-temporelle des maladies contagieuses (depuis 2003) Participants : Myriam Charras-Garrido, Lamiae AZIZI, David Abrial
Comprendre comment certains facteurs peuvent influencer une dynamique épidémiologique requiert de pouvoir prendre en compte la variation spatiale et temporelle de l’occurrence des maladies ou des infections, afin de mettre en évidence des hétérogénéités, liées par exemple à des facteurs de risque. Dans le cadre de données groupées et de maladies non contagieuses, nous avons développé une méthode de cartographie du risque avec classification automatique par champs de Markov cachés discrets. L’extension de ces méthodes, pour l’instant dédiées uniquement au cadre spatial, à un contexte spatio-temporel est en développement. Lamiae Azizi a débuté en 2008 une thèse sur ce sujet en collaboration avec le projet MISTIS de l’INRIA Rhône-Alpes. Les modèles statistiques spatiaux actuels pour la cartographie du risque en épidémiologie, dédiés aux maladies non contagieuses, requièrent que les cas soient indépendants conditionnellement à la structure spatiale, hypothèse évidemment non vérifiée dans le cas des maladies contagieuses. Nous étudions donc l'adaptation et développement de modèles d’analyse spatio-temporelle pour les maladies contagieuses. Pour données groupées, nous travaillons sur des modèles de cartographie du risque basés sur des approches de type Bayésien hiérarchique et des modèles de champ de Markov caché. Pour données ponctuelles, nous collaborons avec l'université Montpellier 2 sur une méthode de détection d’agrégats s’appuyant sur une collection d’agrégats potentiels de forme très souple et en nombre réduit.. Optimisation du calcul scientifique (depuis 2010) Participant : Jocelyn de Goër Principaux collaborateurs : Université Blaise Pascal à Clermont Ferrand Les volumes en termes de calcul, traitements et taille de données évoluant de façon exponentielle de part l’évolution de nos activités, notamment en épidémiologie moléculaire et statistiques, il nous est nécessaire d’adapter nos outils en conséquence. Nous avons mis en place une infrastructure informatique solide composée de serveurs (serveurs d’application, serveurs de bases de données, serveurs de calcul scientifique et serveurs de stockage) nécessaires à l’exécution des différentes applications ou simulations. Nous voulons maintenant développer des travaux portant sur l’optimisation des temps de calcul et de traitement via différents types de programmation parallèle. Pour cela, nous étudierons et testerons différentes méthodes. D’une part, nous testerons l'utilisation de grille de calcul de type Egee (http://www.eu-egee.org/), infrastructure virtuelle impliquant un ensemble de ressources informatiques, hétérogènes, délocalisées et autonomes. D'autre part, nous travaillerons sur la mise en place de cluster. Il s'agit de regrouper plusieurs ordinateurs indépendants, afin de permettre une gestion globale et de dépasser les limitations d'un ordinateur seul. Nous nous intéresserons également à la programmation multiprocesseurs, consistant à implémenter des algorithmes spécifiques permettant de traiter des informations de manière simultanée. Le but est d'effectuer, avec une seule machine, le plus grand nombre d'opérations dans un délai le plus court possible. Enfin, nous souhaitons tester la programmation massivement parallélisée à l’aide de processeurs graphiques. L’objectif de cette réflexion est de tester différentes approches et maîtriser ces différentes technologies pour nos projets. L’optimisation et de fait la réduction significative du temps de traitement est un axe de travail à part entière, ces techniques étant relativement nouvelles et encore peu développées dans les domaines de la modélisation statistique et génomique. Ces travaux seront conduits en collaboration avec des équipes de recherche en informatique à l’université Blaise Pascal à Clermont Ferrand.
Rédaction :
M. Charras-Garrido, J. De Goër, D. Abrial
Date de création : 21 Février 2011 Mise à jour : 19 Janvier 2012 |