« Home « Kết quả tìm kiếm

Étude et mise en oeuvre d’un support pour la gestion des grandes données au sein de l’intergiciel DIET sur environnements applicatifs dédiés


Tóm tắt Xem thử

- 1.2 Description de la plate-forme expérimentale.
- 2 État de l’art 14 2.1 Les protocoles de transfert de données.
- 2.2 Les modélisations de transfert de donneés.
- 3 Expérimentations 23 3.1 Performances des protocoles de transfert.
- 4 Modélisation 31 4.1 Modélisation du temps de transfert de données.
- 11 2.1 Comparaison des protocoles de transfert.
- 16 3.1 Temps de transfert entre 2 nœuds de site différent.
- 24 3.2 Temps de transfert entre 2 serveurs NFS de site différent.
- 24 3.3 Temps de transfert entre un nœud et un serveur NFS de site.
- 25 3.4 Temps de transfert entre le serveur graal et un serveur NFS .
- 29 4.1 Temps de transfert avec Aspera sur taurus-11.lyon.grid5000.fr 35 4.2 Temps de transfert avec Aspera sur pastel-73.toulouse.grid5000.fr 35 4.3 Temps de transfert avec Expedat sur taurus-11.lyon.grid5000.fr 36 4.4 Temps de transfert avec Expedat sur pastel-73.toulouse.grid5000.fr 36 4.5 Temps de transfert avec Bitspeed sur taurus-11.lyon.grid5000.fr 37 4.6 Temps de transfert avec Bitspeed sur pastel-73.toulouse.grid5000.fr 37.
- Un des problèmes majeures pour le partage des ressources et le calcul distribué est la gestion de données en environnement distribué.
- Ce travail compare les approches commerciales de transport de données rapides à travers des Wide Area Network (WAN) à haut débit .
- Cette recherche porte sur une comparaison des approches utilisant des paramètres intuitifs tels que le taux de données et la durée de transmission..
- Mots clés : transferts de données à haut débit , cloud computing, big data, protocole de transport..
- Les principaux thèmes abordés par le projet Animérique concernent la distribution des tâches de calcul sur des plates-formes distribuées et hétérogènes, l’accès et la gestion locale des ressources (ex : cluster ou Cloud), la planification des tâches et l’optimisation du temps de transfert des grands volumes de données.
- Donc, nous allons faire des transferts de données point à point, c’est-à-dire à partir du serveur graal vers un serveur NFS, à partir du serveur graal vers un nœud, à partir du serveur NFS vers un nœud, etc.
- Ces transferts seront réalisés en utilisant les protocoles de transfert de données suivantes : Aspera [3], Bitspeed [6] et Expedat [7,8]..
- Actuellement, les solutions les plus courantes pour le transport de données fiable dans les réseaux IP sont basés sur le protocole TCP, qui a été développé dans les années 1970.
- Par exemple, un test avec iperf en utilisant l’architecture décrite dans la figure 1.1 sur une liaison de bout-en-bout de 1 Gbit/s avec un RTT de 50 ms (round-trip time) et en présence d’un taux de perte d’au moins 0,1% montre un débit de données d’environ 40 Mbit/s..
- Lorsque l’utilisation de la bande passante disponible n’est pas suffisante, les transferts de données prennent plus de temps à être effectuer.
- Énormes volumes de données difficilement gérables avec des solutions classiques de stockage et de traitement..
- breuses nouvelles solutions de transport de données qui peuvent transporter d’énormes quantités de données beaucoup plus rapide que les solutions FTP / TCP classiques..
- L’objectif principal de ce stage est d’étudier en détail la gestion des grands volumes de données sur la grille de calcul et d’évaluer les capacités des solu- tions de transport dans les réseaux longue distance à haut débit..
- Expériences et analyse des transferts de données.
- Ce stage a permis de mener une étude sur les performances des proto- coles de transfert de données.
- Les travaux proposés éta- blissent une relation entre le temps de transfert, la latence et le débit mesuré dû à l’utilisation optimale de la bande passante par chaque protocole.
- Pour atteindre cet objectif, nous avons effectué des transferts de données de taille variée afin de juger le comportement de ces protocoles dans le transfert de petit ou de gros fichier.
- 2.1 Les protocoles de transfert de données.
- L’intérêt pour nous est le temps de transfert de données minimale possible de bout en bout sur de tels réseaux.
- Actuellement, il y a quelques différentes mesures de perfor- mance qui ont été utilisées pour évaluer ces déficiences en terme de temps de transfert dans les solutions open source et freeware.
- En outre, un résultat de performance pour la transmission de données à l’aide de RBUDP a été présenté au 3ieme atelier international annuel de CineGrid [23].
- Bien que la vitesse d’accès au disque limite la vitesse de transport de données à 3,5 Gbit/s, sur le lien entre Amsterdam et San Diego seulement 1,2 Gbit/s a été atteint.
- Expedat est une solution de transport de données basée sur UDP dévelop- pée par Data Expedition Inc., USA.
- Selon le site Web de la société, Expedat permet la transmission de données avec 100% d’utilisation de la bande passante allouée et en présence de cryptage AES [8].
- Il s’agit d’une application de transfert de fichiers basée sur le protocole TCP, et, selon le site Web du fournisseur [6], il permet d’utiliser pleinement la bande passante disponible..
- Bitspeed est également disponible avec un cryptage de données allant jusqu’à 24 Gbit/s et un cryptage AES allant jusqu’à 1600 Mbit/s.
- Selon le mode d’emploi, cette solution adapte automatiquement ses paramètres avec les conditions du réseau et choisit les paramètres optimaux (débit, latence, etc.) pour la transmission de données..
- La technologie de transfert FASP de Aspera [3] est un logiciel innovant de la compagnie IBM qui élimine les goulots d’étranglement fondamentaux des technologies de transfert de fichiers classiques, tels que HTTP, FTP, et accélère les transferts sur des réseaux IP publics et privés.
- Cette approche permet d’améliorer le débit, indépendant de la latence du lien.
- En outre, les utilisateurs ont le contrôle sur les taux individuels de transfert et le partage de la bande passante, et une visibilité complète sur l’utilisation de la bande passante.
- Le temps de transfert de fichiers peut être garantie, indépendam- ment de la distance des points d’extrémités ou les conditions dynamiques du réseau, y compris les transferts sur les réseaux sans fil et les liaisons interna- tionales fiables.
- Pour évaluer la performance de ces protocoles, nous avons réalisé des transferts de données entre des paires de nœuds appartenant à deux grappes grid5000 différentes.
- Figure 2.1 – Comparaison des protocoles de transfert.
- De plus on constate une différence de performance en fonction de la façon d’utiliser le protocole.
- Il existe différents modèles et techniques qui ont été proposés pour mesu- rer et analyser la performance de transfert de données.
- En réalité, le transfert de données n’est pas seulement un problème des grilles de calcul, mais c’est aussi un problème qui concerne les réseaux de communication comme par exemple Internet.
- Le modèle de Hockney [15] est historiquement un des premiers modèles de mesure de transfert de données, ce qui en fait l’un des modèles les plus utilisés.
- Ainsi, le temps d’un transfert t(m) qui envoie une quantité m de données est fonction de la latence L et de la bande passante B.
- D’une manière plus formelle, le calcul de la latence L correspond à la durée d’envoi d’une quantité de données nulle.
- À l’inverse, la bande passante est le rapport entre une taille de données et sa durée de transfert.
- Ce modèle a ouvert la voie au concept de temps de latence proportionnelle à la taille de données.
- Le modèle de Hockney calcule les temps de transfert en fonction d’une simple équation affine et de deux paramètres.
- Le modèle LogP [17] est le modèle d’origine dont découlent les autres modèles de la famille LogP.
- le coût logiciel induit par le mécanisme de transfert.
- le surcoût logiciel et le gap en fonction de la taille des données.
- Par exemple, le gap pour de petites tailles de données est calculé en divisant le gap obtenu pour des données de grande taille par le temps d’aller-retour d’une donnée de taille nulle (RTT(0.
- Ce modèle ajoute le paramètre G qui représente une valeur du gap en fonction de la taille des données.
- Le modèle LogGP ne propose pas de grandes avancées à la fois dans la modélisation et dans la compréhension des mécanismes de transfert par rapport aux modèles précédents..
- Le modèle pLogP propose des paramètres dépendants de la taille des données.
- Cependant, le calcul du gap pour chaque taille de données est nettement pénalisant..
- 3.1 Performances des protocoles de transfert.
- Figure 3.1 – Temps de transfert entre 2 nœuds de site différent.
- Figure 3.2 – Temps de transfert entre 2 serveurs NFS de site différent 3.1.3 Transfert entre un nœud et un serveur NFS de site.
- Le protocole Aspera offre les meilleurs temps de transfert..
- Figure 3.3 – Temps de transfert entre un nœud et un serveur NFS de site différent.
- Figure 3.4 – Temps de transfert entre le serveur graal et un serveur NFS.
- 3.2 Performances des modèles et techniques de me- sure de transfert de donneés.
- À partir de l’étude théorique des modèles, nous avons décidé d’utiliser le modèle LogP [17] pour sa capacité à capturer des aspects qui permettent de décrire l’utilisation du réseau pendant le transfert de données..
- Nous avons fait des expé- riences pour le transfert de données de taille fixe..
- s(m) et r(m) sont le temps d’envoi et de réception de la donnée quand les deux processeurs commencent leurs opérations simultanément.
- Os(m) et Or(m) sont respectivement l’overhead d’envoi et de réception de la donnée de taille m.
- L’espace g(m) est l’intervalle minimum de temps entre la transmission ou la réception de données consécutives..
- Les auteurs de LogP/MPI ont fournit une API pour rechercher des paramètres de LogP pour différentes tailles de données..
- • -min-size : La plus petite taille de données à envoyer..
- • -max-size : La plus grand taille de données à envoyer..
- X c’est la quantité de processeurs utilisés et T est la taille de la donnée..
- 3.2.3 Les expériences sur pastel-73.toulouse.grid5000.fr Le tableau 3.2 présente quant à lui les résultats obtenus lors de la mesure des différents paramètres du modèle LogP, pour les expériences sur le site de Toulouse.
- 4.1 Modélisation du temps de transfert de données.
- L’objectif de cette partie est de formaliser un modèle mathématique du temps de transfert de données qui décrit le comportement observé, en accord avec le modèle paramétrisé LogGP et prendre les mesures..
- T t temps total de transfert des fichiers.
- T send temps total de transfert des fichiers vers le serveur NFS T comput temps de génération de la vidéo au niveau du serveur NFS T stor e temps de transfert de la vidéo vers le serveur de stockage.
- On peut estimer G(f i ) en fonction du gap g(f i ) et de la taille du fichier S(f i.
- A partir des différents temps estimés ci-dessus, on peut formuler le temps total T t de transfert des données des nœuds vers le serveur de stockage par la somme des temps de chaque étape de transfert..
- À partir des tables 4.2 , 4.3 et 4.4 il est possible de construire des gra- phiques pour analyser le temps de transfert des données calculé en fonction de la latence, de l’overhead, du gap par octet pour chaque taille de données et du débit.
- Les figures 4.1 et 4.2 présentent une comparaison entre le temps de trans- fert calculé à partir de notre modèle et le temps de transfert mesuré respecti- vement sur taurus-11.lyon.grid5000.fr et pastel-73.toulouse.grid5000.fr avec le protocole Aspera..
- Figure 4.1 – Temps de transfert avec Aspera sur taurus-11.lyon.grid5000.fr.
- Figure 4.2 – Temps de transfert avec Aspera sur pastel- 73.toulouse.grid5000.fr.
- Les figures 4.3 et 4.4 présentent une comparaison entre le temps de trans- fert calculé à partir de notre modèle et le temps de transfert mesuré respecti- vement sur taurus-11.lyon.grid5000.fr et pastel-73.toulouse.grid5000.fr avec le protocole Expedat..
- Figure 4.3 – Temps de transfert avec Expedat sur taurus- 11.lyon.grid5000.fr.
- Figure 4.4 – Temps de transfert avec Expedat sur pastel- 73.toulouse.grid5000.fr.
- Les figures 4.5 et 4.6 présentent une comparaison entre le temps de trans- fert calculé à partir de notre modèle et le temps de transfert mesuré respecti- vement sur taurus-11.lyon.grid5000.fr et pastel-73.toulouse.grid5000.fr avec le protocole Bitspeed..
- Figure 4.5 – Temps de transfert avec Bitspeed sur taurus- 11.lyon.grid5000.fr.
- Figure 4.6 – Temps de transfert avec Bitspeed sur pastel- 73.toulouse.grid5000.fr.
- Ce travail compare l’état de l’art des solutions commerciales pour le transport de données rapide et fiable par l’intermédiaire des réseaux longues distances (WAN) à haut débit.
- Le problème principal de ces recherches est que les sociétés vendeuses cachent souvent la technologie utilisée pour le transport de données accéléré.
- Toutes les solutions étudiées se positionnent elles-mêmes comme des ap- plications de transfert fiables à haute vitesse, conçus pour offrir des alter- natives à FTP / TCP et surmonter les problèmes de performances de TCP sur des réseaux WAN à haut débit.
- Les résultats obtenus montrent que les solutions basées sur le protocole TCP héritent ses problèmes sur les liens à haut débit, nous avons constaté une diminution significative des taux de données jusqu’à 27% de la capacité du lien.
- Cependant, les solutions basées sur le protocole UDP montrent une bonne utilisation des liens à haut débit, nous avons donc constaté une uti- lisation des taux de données jusqu’à 60% de la capacité du lien, même en présence de RTT jusqu’à 100 ms.
- La comparaison a montré que la durée la plus faible de transfert de chaque solution est assez proche de l’idéal, et que la différence des valeurs de sortie obtenues sont proches de la réalité pour toutes les solutions.