2 suivons les piétons
19.03.2013
FlashInformatique.epfl.ch
p/a EPFL - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11
Actualités
en page 3
du nouveau pour le HPC
Actualités Nouveau Blue Gene/Q Christian Clémençon & Jacques Menu
Clavitude Appoline Raposo de Barbosa
20
1
À votre service Authentification forte à l'EPFL Pierre Mellier
19
Analyse Quand le WiFi se met au service du réseau piétonnier Antonin Danalet
3
Virtualisation pour tous Laurent Kling
11
Comment faire ? … jusqu'où aller dans la virtualisation ? Laurent Kling
15
Brèves Open Access et EPFL Aurore Granval
2
Agenda Insomni'hack, concours de hacking éthique Paul Such
le Blue Gene/Q Christian.Clemencon@epfl-ch & Jacques.Menu@epfl.ch, Domaine IT, administrateurs du Blue Gene/Q
From the beginning of this year, EPFL is hosting a new IBM Blue Gene/Q supercomputer, called Lemanicus, available to the research community of the universities of Geneva and Lausanne and of EPFL. This paper outlines the main characteristics of the new system. L’EPFL accueille depuis le début de l’année un nouveau supercalculateur de type IBM Blue Gene/Q, appelé Lemanicus, à disposition des chercheurs des universités de Lausanne et de Genève et de l’EPFL. Cet article présente les principales caractéristiques de ce nouveau système.
Le dernier bijou technologique de la région lémanique Introduction Le nouvel ordinateur massivement parallèle Blue Gene/Q (abrégé BG/Q) Lemanicus est doté de 1024 nœuds de calcul de 16 cœurs et de 16 TB & de mémoire vive, pour une puissance de calcul théorique maximale de 209 TFLOPS &. Il est quatre fois plus puissant que son prédécesseur le Blue Gene/P pour un volume quatre fois plus petit (une armoire au lieu de quatre). Cette machine se situe au 141ème rang du classement TOP500 &. L’efficacité énergétique a été considérablement améliorée, grâce essentiellement à un système de
18
../.. Suite page 8
Prochaines parutions No Délai de rédaction Parution 3
11.04.13
30.04.13
4
10.05.13
04.06.13
5
27.06.13
16.07.13
tout public public averti expert
fig. 1 – vue du rack BG/Q à l’avant et de ses trois racks périphériques (© Alain Herzog)
Brèves
Open Access et EPFL Aurore.Granval@epfl.ch, EPFL - Bibliothèque, bibliothécaire
EPFL supports Open Access and signed the Berlin Declaration on the 5th January 2013. L’EPFL soutient l’Open Access et signe la Déclaration de Berlin le 5 janvier 2013. L’EPFL formalise sa volonté de promouvoir l’Open Access par la signature de la Déclaration de Berlin, un accord international qui vise à soutenir et développer l’accès libre à la connaissance scientifique et au patrimoine culturel via le Web. Cette déclaration, élaborée en 2003, a été signée à ce jour par 415 universités et/ou institutions scientifiques majeures dans le monde.
Facteur d’impact, taux de citation et Open Access Le facteur d’impact reste dans le monde de la publication scientifique le principal indicateur du niveau de qualité d’une revue, que celle-ci soit payante ou en libre accès. Ce sont majoritairement encore les grandes maisons d’édition qui publient les revues à fort impact, achetées ensuite par les institutions à des prix exorbitants. N’est-il pas paradoxal que les résultats d’une recherche largement financée par des fonds publics soient uniquement disponibles dans des revues que les institutions doivent acheter à prix fort, toujours sur des fonds publics ? N’est-il pas paradoxal qu’une des missions de toute université, celle de diffuser vers la société civile, les fruits de son travail, soit largement handicapée par ces modes de publication commerciaux ? Les
Impressum Revue consacrée aux technologies de l’information, éditée par le Domaine IT de l’EPFL (DIT). Les articles n’engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d’autres entités). Toute reproduction, même partielle, n’est autorisée qu’avec l’accord de la rédaction et des auteurs.
2 flash informatique
chercheurs peuvent jouer un rôle dans un rééquilibrage de cette situation de quasi-monopole. Car après tout, ce sont eux qui font vivre les éditeurs!
L’Open Access à l’EPFL Le mouvement de l’Open Access à l’EPFL est à un tournant majeur de son évolution et l’objectif est d’amener progressivement les chercheurs à donner librement accès à leurs publications. Avec la signature de la Déclaration de Berlin, et la diffusion large des résultats de la recherche menée à l’EPFL par le biais de l’archive institutionnelle ouverte Infoscience, l’EPFL soutient activement le libre accès à l’information scientifique pour tous. Cet engagement vise à encourager le développement et la démocratisation de la recherche et contribue ainsi au rayonnement de l’institution.
En savoir plus z Article du Flash (mercredi 20 février 2013), actualites.epfl. ch/index.php?module=Newspaper&func=viewarticle&np_ id=2057&np_eid=157&catid=121.
z Vidéo de l’interview de Henrik Rønnow: L’Open Access à l’EPFL, video.epfl.ch/1910/1/10. z Article précédent dans FI/SP2002 L’Open Access à l’EPFL, par Julien Junod, flashinformatique.epfl.ch/spip.php?article2570. z Contact: questions.bib@epfl.ch ou au 021 693 21 56 n
Rédacteur en chef: Jacqueline Dousson, fi@epfl.ch Mise en page & graphisme: Appoline Raposo de Barbosa Comité de rédaction: Jean-Daniel Bonjour, Sébastien Ferrara, Patrice Fumasoli, Florence Hagen, Laurent Kling, Julia Paolini, François Roulet, Christophe Salzmann & Predrag Vicei´c
Impression: Atelier de Reprographie EPFL Tirage: 4000 exemplaires Adresse Web: flashinformatique.epfl.ch Adresse: Domaine IT EPFL Station 8, CH-1015 Lausanne Téléphone: +41 21 69 32246 & 32247 Abonnement au FI par e-mail à: fi-subscribe@listes.epfl.ch
Analyse
Quand le WiFi se met au service du réseau piétonnier Antonin.Danalet@epfl.ch, EPFL ENAC INTER TRANSP-OR, assistant-doctorant
WiFi data have been collected on campus. Together with information about pedestrian network and class schedules, they enable to better understand destination choices of pedetrians at EPFL. Des données WiFi collectées sur le campus de l’EPFL ont été associées aux informations sur son réseau piétonnier et sur les horaires de cours des étudiants, dans le but de mieux comprendre les destinations et les déplacements des piétons sur le site.
Je ne suis qu’un piéton, rien de plus Arthur Rimbaud Dans le cadre d’un projet de recherche pour CarPostal 1, un sondage a été effectué auprès d’environ 2000 personnes. L’une des questions portait sur la perception des modes de transport. Il était demandé d’indiquer trois adjectifs décrivant le mieux chacun des modes proposés: la voiture, le train, le bus, le car postal, le vélo et la marche. À la lecture des résultats, on découvre que la perception de la marche dans la population correspond à l’exercice physique (22.9%), à la lenteur (10.3%), aux loisirs (5.0%) et à l’écologie (4.5%). C’est oublier un peu vite que chacun d’entre nous est un piéton lorsqu’il essaie d’attraper sa correspondance de train ou de bus. La marche est la clé d’un système de transport multimodal. Chaque passage d’un mode de transport à l’autre se fait à pied et la stabilité du système nécessite des infrastructures robustes pour les piétons. Il est donc nécessaire de comprendre le lien entre d’une part l’infrastructure multimodale et d’autre part le comportement de la foule des utilisateurs du système. Dans une gare par exemple, l’infrastructure a un impact direct sur le comportement: un nouvel obstacle – une poubelle, un distributeur de billets – modifie les flux de piétons, un nouveau passage sous voie modifie l’itinéraire des passants, et un nouveau magasin modifie jusqu’aux activités effectuées. À l’inverse, le comportement des individus a un impact important sur les infrastructures: la congestion met en danger l’efficacité de la gare. Il est donc important de comprendre cet impact afin de planifier au mieux les infrastructures piétonnes.
La recherche sur les piétons: de l’évacuation à la modélisation dans les infrastructures intermodales et les villes La recherche sur les piétons couvre plusieurs domaines. Les questions d’évacuation et de sécurité sont historiquement les plus étudiées. En 2010, vingt-et-une personnes meurent étouffées à la Love Parade de Duisburg, plus par un effet domino amplifiant la pression que par un réel mouvement de panique 2. Le Hajj à la Mecque fait aussi face à de nombreux risques, avec plus de 3.53 millions de pèlerins par année. En prévision de l’augmentation du nombre de visiteurs, les autorités saoudiennes ont agrandi le pont Jaramaat en 2006 et mandaté des chercheurs pour les conseiller sur l’augmentation de la capacité de la mosquée. L’objectif ici n’est plus uniquement de comprendre les possibles mouvements de panique, mais aussi d’accueillir au mieux le nombre croissant de fidèles. Les fidèles du rail entre Lausanne et Genève sont, quant à eux, aussi de plus en plus nombreux: d’ici à 2030, le nombre de passagers sur cet axe va probablement doubler 3. Et deux fois plus de passagers dans les trains implique deux fois plus de piétons dans les gares. Il n’est plus question ici d’événements exceptionnels ni de sécurité, mais de la gestion quotidienne et opérationnelle d’une foule. La recherche, la politique et les opérateurs de transport s’intéressent de plus en plus à la compréhension des flux piétonniers. Le Centre de Transport (TraCE) de l’EPFL a été mandaté par les CFF pour analyser, modéliser et optimiser ces flux dans les gares. Dans le cadre de la transformation des gares d’un simple nœud de transit en un véritable lieu de vie contenant des restaurants et des magasins, les CFF ont en effet à cœur de maintenir le confort de l’usager et de garantir les correspondances 4. De son côté, la ville de Lausanne a décrété la marche comme mode de déplacement prioritaire depuis son plan directeur communal de 1996 5. Une thèse récente a été consacrée au renouveau de la marche en milieu urbain 6. Lorsqu’il s’agit de l’étude des comportements piétons, deux approches se dégagent. L’une cherche à promouvoir la marche comme mode actif, bon pour la santé et non polluant dans la ville multimodale. On cherche alors à comprendre le lien entre les différents modes ou les accès aux arrêts de transports publics depuis le domicile par exemple. C’est le cas de différentes études menées à Singapour ou à Mexico. L’autre approche porte sur les infrastructures piétonnières, qu’il
Source: Optima, Projet de recherche sur la mobilité combinée: Rapport définitif de l’enquête de préférences révèlées, EPFL transport.epfl.ch/optima HELBING, D. and MUKERJI, P. Crowd disasters as systemic failures: Analysis of the Love Parade Disaster. EPJ Data Science 1:7 (2012) 3 Léman 2030 – le projet des CFF, de l’OFT et des cantons de Vaud et Genève pour l’Arc lémanique: www.cff.ch/groupe/entreprise/projets/extension-du1 2
reseau-ferroviaire/leman-2030.html
SAHALEH, S., BIERLAIRE, M., FAROOQ, B., DANALET, A., and HÄNSELER, F. (2012). Scenario Analysis of Pedestrian Flow in Public Spaces. Proceedings of the 12th Swiss Transport Research Conference (STRC) May 2-4, 2012 5 www.lausanne.ch/view.asp?docId=20889&domId=62023&language=E 6 LAVADINHO, S. Le renouveau de la marche urbaine – Terrains, acteurs et politique. Thèse de doctorat, septembre 2011 4
19 MARS 2013 - N° 2
3
Quand le WiFi se met au service du réseau piétonnier s’agisse de gares, d’aéroports, de festivals musicaux comme Paléo, de supermarchés, d’hôpitaux ou encore d’un campus comme celui de l’EPFL. Dans ces situations, le mode de transport est défini par le lieu et chaque personne présente est nécessairement un piéton. Dans le cas des hubs de transport (gares, aéroports), le piéton entre dans une chaîne multimodale, mais il est localement contraint à la marche. Nous nous intéressons ici à cette seconde catégorie.
Seul ce qui peut être compté compte En 1963, le sociologue William Bruce Cameron écrivait: «Il serait agréable si toutes les données dont les sociologues ont besoin pouvaient être énumérées, car alors nous pourrions les utiliser sur des ordinateurs IBM et dessiner des graphiques comme font les économistes. Cependant, tout ce qui peut être compté ne compte pas, et tout ce qui compte ne peut pas être compté.» 7. Ce n’est visiblement pas l’avis de l’Association suisse des piétons, qui organisait sa journée d’étude 2010 sur le thème «Nur was gezählt wird zählt», sous-titrée «Vers une culture des comptages piétons et cyclistes» 8. Par rapport aux autres modes de transport, les collectes de données sur les piétons sont plus complexes, que ce soit au niveau opérationnel (données sur l’évitement des obstacles et des autres piétons), au niveau tactique (données sur le choix du passage sous voie à utiliser par exemple) ou au niveau stratégique (données sur le choix de la destination ou de l’activité). Comment alors collecter des données sur les piétons ? Ces derniers ne sont pas couverts de métal et ne pèsent pas une tonne, comme les automobilistes. Ils ne suivent pas non plus de routes clairement définies et se faufilent dans chaque espace. Au niveau opérationnel, de nombreuses expériences ont été filmées. Dans la gare de Lausanne, dans le cadre d’un projet de recherche commun entre l’EPFL et les CFF, un système différent a été installé, utilisant des capteurs de profondeur du même type que la Kinect de Microsoft. Ils permettent de suivre les trajectoires des passants même dans la pénombre et sans dévoiler leur identité 9. Cette technologie est très précise, mais a un coût et peut difficilement être installée à l’échelle d’une infrastructure piétonne dans son ensemble. À un niveau plus tactique, le choix de route a été étudié à l’aide des données de localisation provenant des smartphones 10. Ces données ne sont pas liées à l’infrastructure, mais à l’individu, et par conséquent elles ne sont pas spécifiques à la marche, mais multimodales. Il faut donc déterminer le mode de transport avant de pouvoir étudier explicitement la marche. Par ailleurs, il faut aussi que l’utilisateur installe une application (voir l’application Future Mobility Survey du MIT 11), demandant sa participation active et exposant dangereusement des informations privées
puisque son téléphone ne contient pas uniquement des données de localisation, mais aussi son calendrier ou encore son carnet d’adresses.
Big WiFi is watching you À un niveau stratégique, le WiFi offre d’intéressantes perspectives pour étudier les comportements piétons. Les données issues des bornes d’accès offrent une couverture globale de l’infrastructure piétonne et il n’est pas nécessaire de déterminer le mode de transport, forcément piéton. La technologie est bon marché, déjà existante dans la plupart des infrastructures piétonnes, et son éventuelle densification pour des raisons de localisation a un effet positif sur son rôle premier, à savoir fournir une connexion internet. Par ailleurs, elle ne nécessite aucune installation de la part de l’utilisateur et n’implique pas d’accès direct à son téléphone. C’est la méthode que nous avons choisie pour notre étude menée à l’EPFL. Dans le cas du campus, 789 bornes d’accès couvrent l’ensemble des bâtiments. Avec l’aide du DIT-TI, et de Richard Timsit en particulier, deux jeux de données ont été collectés.
Données des serveurs Radius Le premier jeu de données fournit la localisation de la borne à laquelle l’utilisateur est connecté. Les utilisateurs se connectant via WPA sont identifiés par les serveurs Radius 12. Les enregistrements au niveau du serveur Radius permettent d’associer un utilisateur à une borne d’accès, elle-même géolocalisée 13. Lorsqu’il se déplace, l’utilisateur génère de nouvelles données même s’il n’y a pas besoin de s’identifier à nouveau. Les données sont collectées pour tous les utilisateurs du réseau EPFL. Un identifiant anonyme unique est généré quotidiennement pour chaque appareil. De cette manière, les appareils peuvent être suivis pendant une journée, mais pas plus.
Données de triangulation par Cisco La collecte de données peut aussi se faire par triangulation basée sur la puissance du signal. Nous avons utilisé ici le Cisco Context Aware Mobility API avec le Cisco Mobility Service Engine (MSE). L’outil (gracieusement prêté par Cisco pour l’étude) fournit les coordonnées horizontales et l’étage, ainsi qu’un intervalle de confiance horizontal à 95% (un carré !), ne prenant pas en compte l’incertitude dans la détermination de l’étage. Le côté du carré de confiance est en moyenne de 374 mètres dans les données collectées. Huit participants ont accepté d’être suivis pendant deux mois à partir de l’adresse mac de leur smartphone. Par ailleurs, 200 étudiants provenant de six classes différentes et 300 employés, sélectionnés au hasard, ont été suivis sur une journée. Leur identité a été anonymisée.
CAMERON, William Bruce. 1963, Informal Sociology, a casual introduction to sociological thinking. p.13, Random House, New York www.fussverkehr.ch/index.php?id=275 9 www.letemps.ch/Page/Uuid/b7a9e368-00d7-11e2-9ed6-141127f02b8d/VisioSafe_traque_les_voyageurs_%C3%A0_la_gare_de_Lausanne#.URu3OehBEzE et actu.epfl.ch/news/sensors-study-pedestrian-flow-in-lausanne-train--2/ 10 CHEN, J. Modeling route choice behavior using smartphone data.Thèse de doctorat EPFL, janvier 2013, infoscience.epfl.ch/record/183171 11 COTTRILL, C. D. et al. The Future Mobility Survey: Experiences in developing a smartphone-based travel survey in Singapore. web.mit.edu/czegras/www/ TRB_FMS_Overview_Final.pdf. Future Mobility Survey in Singapore, https://www.fmsurvey.sg 12 RIGNEY, C., WILLENS, S., RUBENS, A. and SIMPSON, W. (2000). Remote Authentification Dial in User Service (RADIUS), RFC 2865 13 KOO, S. G. M., ROSENBERG, C., CHAN, H.-H. and LEE, Y. C. (2003). Location discovery in enterprised-based wirless networks: case studies and applications. Annals of Telecommunications 58(3-4): 531–552 7 8
4 flash informatique
Quand le WiFi se met au service du réseau piétonnier
Les destinations réellement visitées par l’auteur pendant une journée (en haut) et un résultat utilisant les traces WiFi (en bas)
19 MARS 2013 - N° 2
5
Quand le WiFi se met au service du réseau piétonnier Afin de mieux comprendre les comportements des piétons, il ne faut pas uniquement comprendre où ils sont, mais aussi qui ils sont. Pour cela, des données socio-économiques telles que l’âge ou le genre sont utiles. Dans le cas du campus, il est possible d’obtenir des informations anonymisées sur l’activité principale (employé ou étudiant), voire sur la classe (5e semestre bachelor ou 2e semestre master) sans mettre en péril la sphère privée de l’individu. Dans un cas plus général, le développement de réseaux hétérogènes14, où l’utilisateur d’un téléphone portable se connecte soit à l’antenne GSM la plus proche, soit à la borne WiFi de l’opérateur, pourrait fournir ce type de données. En effet, le processus est transparent pour l’utilisateur, mais son identité est connue dans le réseau WiFi. Ce type de système existe par exemple déjà pour certains clients de Swisscom qui se connectent automatiquement et gratuitement au réseau MOBILE dans les gares et ailleurs 15. L’inconvénient majeur de cette méthode est évidemment sa faible précision. Une solution consiste à augmenter le nombre de bornes d’accès . Il est aussi possible de calibrer le système de localisation en créant une cartographie des puissances reçues (et donc des interférences des différents obstacles). Une autre solution consiste à utiliser d’autres sources de données comme une connaissance a priori du comportement des individus. Sur le campus par exemple, les horaires de cours fournissent une première information sur la distribution géographique des étudiants. Il est intéressant de noter ici que la notion d’horaires se retrouve dans de nombreuses infrastructures piétonnes: sur le campus, mais aussi dans les gares avec les horaires des trains, et dans les festivals, avec les horaires des concerts. De la même manière, une connaissance du réseau piétonnier permet de mieux saisir les mouvements piétons à partir des données de localisation (voir encadré).
Le nombre d’étudiants bachelor-master suivant des cours l’EPFL par quart d’heure, cumulés sur tous les jours de la semaine (semestre printemps 2012). Invisibles sur la figure, onze étudiants avaient des cours 19h15 à 21h. En associant ces données d’horaires à la localisation des salles classe, on obtient une information sur les flux d’étudiants sur le campus
à de de de
Une méthode pour extraire les destinations à partir de la localisation WiFi, du réseau piéton et de connaissances a priori Cette méthode probabiliste a pour objectif d’utiliser les données de géolocalisation, cartographiques et d’horaires pour générer un ensemble de séquences de destinations potentiellement effectuées par un individu pendant une journée, associées à la probabilité d’être la vraie séquence de destinations effectuée par le piéton. Elle se compose d’un modèle de mesure – afin d’associer à chaque séquence de destinations une probabilité, d’un générateur de séquence de destinations candidates, d’une gestion des signaux intermédiaires générés en marchant, et d’une procédure d’élimination des séquences de destinations improbables. Le modèle de mesure associe à chaque séquence de destinations une probabilité d’être la vraie séquence, connaissant les signaux générés par l’utilisateur. Une approche bayésienne permet d’associer les données de géolocalisation aux données d’horaires. L’équation de mesure en elle-même dépend de la distance entre le lieu de la destination et la géolocalisation. La probabilité a priori dépend quant à elle uniquement des horaires, et est indépendante des destinations précédentes. Pour pouvoir appliquer le modèle de mesure, il faut une séquence de destinations candidates. Pour cela, toutes les destinations possibles (en fonction de la liste des salles de classe, restaurants et bureaux selon plan.epfl.ch) dans un rayon de 60 à 80 mètres du signal sont associées à toutes les destinations du signal suivant, et ainsi de suite. Ainsi, si la localisation du signal bouge peu, une des séquences candidates consistera à rester au même endroit. La durée passée à chaque destination est aussi générée en fonction des instants auxquels les signaux ont été mesurés ainsi qu’en fonction du temps nécessaire pour connecter deux destinations avec le plus court chemin dans le réseau piétonnier du campus. De cette manière, une destination candidate est générée pour chaque signal reçu du WiFi. Cependant, en pratique, certains signaux seront générés en mouvement, alors qu’il ne s’agit pas d’une destination, mais du fait que l’utilisateur marche. Pour cela, chaque destination où le temps passé à destination est en dessous d’une certaine valeur limite – environ 5 minutes – est supprimée. Finalement, cette méthode génère une énorme quantité de séquences candidates. Chaque signal représente environ 150 nouvelles possibilités. On élimine alors les séquences les moins probables selon le modèle de mesure et on ne garde que les plus probables. Ainsi, à terme, on obtient un nombre défini de candidats les plus probables. Article: infoscience.epfl.ch/record/180079, Poster: infoscience.epfl.ch/record/177419, Présentation: infoscience.epfl.ch/record/183228 (tout en anglais)
HOADLEY, John, MAVEDDAT, Payam. Enabling small cell deployment with HetNet. in Ieee Wireless Communications (2012). ieeexplore.ieee.org/xpl/
14
articleDetails.jsp?arnumber=6189405
www.swisscom.ch/fr/clients-prives/internet/internet-en-deplacement/pwlan.html
15
6 flash informatique
Quand le WiFi se met au service du réseau piétonnier
Le réseau piétonnier de l’EPFL (données de plan.epfl. ch). En gris, l’étage 0 et en couleur, le 1e étage.
Le réseau piétonnier du Rolex Learning Center (données de plan.epfl.ch)
Le but n’est pas de suivre un individu en particulier, mais de reconnaître parmi l’ensemble de la population les tendances globales. Il s’agit de modéliser le choix de destinations dans la journée et comment ce choix va évoluer dans le futur, tout comme on étudie déjà ce type de flux à l’échelle d’une ville pour évaluer la demande en infrastructure. Ce choix dépend de la distance à parcourir, de la période de la journée, du réseau piétonnier ou encore des horaires des cours. On suppose ici que si le choix peut changer, de même que les facteurs explicatifs de ce choix, le modèle comportemental sousjacent est stable. Il doit pour cela être au plus proche de la réalité et prendre en compte certaines caractéristiques de ce choix: différencier le choix d’activité (manger à midi) et sa réalisation (aller à l’Ornithorynque), de même que les activités planifiées (aller en cours) et les activités secondaires (aller boire un café). À l’aide de ces modèles, on saura peut-être demain comment les festivaliers réagiront à la nouvelle scène des Arches à Paléo avant
de la construire 16, combien de personnes utiliseront le passage sous voie pour se rendre au futur Swiss Tech Conference Center 17 sur le campus ou dans la gare de Lausanne en 2030, ou encore les temps d’attente et la qualité de service dans les aéroports. Et créer un système prédictif des files d’attente dans les cafétérias du campus, afin de les éviter !
Remerciements à z Richard Timsit (DIT-TI) et Jean-François Pujol (Cisco) pour les données WiFi, z Florent Deseneux (DII) et Yves Bolognini (Camptocamp) pour la carte du campus, et z Cédric Junillon (SAC) pour les données d'inscription aux cours et les horaires. n
yeah.paleo.ch/fr/news/2013/02/11/paleo-remanie-trois-lieux-sceniques conventioncenter.epfl.ch
16 17
19 MARS 2013 - N° 2
7
Blue Gene/Q Lemanicus, le dernier bijou technologique de la région lémanique ../.. Suite de la première page
refroidissement sophistiqué. À cet égard, notre Blue Gene/Q est classé au 10 ème rang de la liste GREEN500 & des ordinateurs les plus écologiques du monde. En outre, pour satisfaire aux demandes de plus en plus exigeantes des simulations scientifiques en matière de volume et de flux de données sur disque, le système est un des premiers au monde à bénéficier d’une technologie d’avant garde d’IBM en matière de stockage massivement parallèle. Il dispose de 2.1 PB & d’espace disque et a été dimensionné pour un débit lecture/écriture sur fichiers de 30 GB/s. Ainsi, grâce au nouveau système BG/Q, la fig. 3 – vue éclatée de la configuration du BG/Q Lemanicus région de Suisse occidentale s’inscrit dans la continuité en disposant d’un puissant outil pour promouvoir le calcul scientifique à haute performance concerne ce projet, nous tenons spécialement à remercier Aristide (HPC &) dans les instituts qui participent à l’initiative CADMOS, Boisseau et le personnel de la DII qui ont activement mené ces dont l’EPFL ainsi que les universités de Genève et Lausanne. travaux d’aménagement à satisfaction. Après trois ans et demi de service, le Blue Gene/P a définitivement Installation été arrêté le 28 février dernier, pour être ensuite démonté. Le BG/Q Lemanicus est installé dans le nouveau centre de calcul de l’EPFL inauguré l’été dernier (voir FI 5/12, Un nouveau centre de calcul à l’EPFL, flashinformatique.epfl.ch/spip.php?article2548). La figure 1 illustre l’ensemble des racks BG/Q en salle machine. L’installation du BG/Q s’est déroulée pendant le mois de novembre 2012. Les ingénieurs d’IBM et de Gate Informatic SA ont été présents sur site pendant environ quatre semaines. Après l’acceptation et la phase de test, la production a démarré à mi-février et le système tourne à plein régime depuis lors. Le système est géré par le groupe exploitation du Domaine IT de l’EPFL (DIT-EX).
fig. 2 – vue des installations de refroidissement hydraulique du rack BG/Q en soussol du centre de calcul (© Alain Herzog)
Il faut souligner que l’arrivée du BG/Q a nécessité des travaux d’aménagement très importants des infrastructures de refroidissement hydraulique du centre de calcul. Il a fallu en effet construire une boucle de refroidissement séparée avec un système de purification d’eau très performant. La figure 2 montre les installations hydrauliques en sous-sol propres au BG/Q. En ce qui
8 flash informatique
Caractéristiques du Blue Gene/Q Lemanicus Le BG/Q Lemanicus compte au total 16384 cœurs et 16 TB de mémoire vive. Bien que considérablement plus performante, l’architecture parallèle du BG/Q est similaire à celle du BG/P. Le système est formé d’un seul rack de 1024 nœuds de calcul, câblé de manière à former un tore penta-dimensionnel de 4x4x4x8x2. Un rack est composé de deux mid-planes de 512 nœuds. Un midplane peut lui-même être subdivisé en blocs de 256, 128 ou 64 nœuds. La quasi-totalité des fonctions d’un nœud de calcul est assurée par un circuit intégré de type BQC spécialement conçu et fondu par IBM, intégrant des processeurs PowerA2 64-bits cadencés à 1.6 GHz. Les différents composants matériels du système BG/Q Lemanicus sont illustrés à la figure 3. Du point de vue efficacité énergétique – c’est-à-dire en terme de puissance de calcul fournie par unité de puissance électrique consommée – le BG/Q se situe avec un rendement de 2101.12 MFLOPS/W & dans le peloton de tête des solutions HPC listées au GREEN500. Cet excellent résultat est essentiellement dû à l’utilisation de puces de faible puissance à basse fréquence, et donc à faible dissipation de chaleur, ainsi qu’à un système de refroidissement hydraulique novateur qui s’étend jusqu’au cœur du système, autour des composants des cartes processeur. Cette solution permet d’intégrer 1024 nœuds de seize cœurs dans une armoire de 1.2 x 1.3 x 2 m qui consomme moins de 90 kWh.
Architecture du système La figure 4 schématise l’architecture générale du système BG/Q Lemanicus. À droite se trouve la machine parallèle représentée par son rack. À gauche, on distingue les systèmes périphériques, dont le serveur central de gestion de l’ensemble (nœud de service), les
Blue Gene/Q Lemanicus, le dernier bijou technologique de la région lémanique serveurs de fichiers et leurs disques, le serveur de backup, et les deux frontales. Un réseau fonctionnel de type QDR Infiniband & interconnecte les nœuds de la machine parallèle avec tous les systèmes périphériques. Un réseau secondaire Ethernet permet au nœud de service de contrôler la machine parallèle (pour les diagnostics et le démarrage des nœuds). Deux frontales présentent le système à l’extérieur via le réseau EPNET de l’EPFL et offrent aux utilisateurs l’environnement de compilation, de lancement des tâches et de mise au point des applications. Finalement, le système BG/Q est relié temporairement au système BG/P par un réseau rapide de 2x10 GbE pour la migration des données.
Allocation des ressources de calcul Pour exécuter une application parallèle sur le BG/Q, un utilisateur demande au système batch LoadLeveler & le nombre de nœuds de calcul qu’il souhaite pour exécuter sa tâche. Si disponibles, ces nœuds lui sont alloués sous forme d’un bloc régulier de cartes processeurs pour toute la durée de sa tâche. Les seuls blocs réalisables par le système d’allocation des ressources BG/Q sont de 64, 128, 256, 512 et 1024 nœuds de calcul. L’ordonnanceur de tâches de LoadLeveler alloue les blocs physiques de la machine en fonction de l’importance des projets dans un mode dit fair share. Le grain élevé du bloc (64 nœuds) et le petit nombre de blocs réalisables sur un système d’un rack, restreignent significativement les possibilités de partage des ressources de calcul entre les différents utilisateurs par rapport aux précédentes machines.
Type d’applications pouvant bénéficier de la puissance de calcul du BG/Q
fig. 4 – architecture du système BG/Q Lemanicus
De L à Q en passant par P Les différences essentielles entre le BG/L, le BG/P et le BG/Q sont illustrées sur le tableau ci-dessous. On remarquera qu’à unité de calcul égale, le BQ/Q opère des sauts de performance et d’efficacité bien plus significatifs que son prédécesseur le BG/P. Dans l’en-tête, les années de mise en service des systèmes à l’EPFL sont indiquées entre parenthèses.
Blue Gene/L (2005)
Le BG/Q est un superordinateur massivement parallèle, offrant un rapport élevé entre bande passante des communications et vitesse de calcul des processeurs. La machine est dite équilibrée, car la vitesse de ses processeurs est plutôt modeste et la bande passante de ses réseaux plutôt relativement élevée. Le BG/Q a donc essentiellement été conçu pour des applications parallèles capables de s’exécuter efficacement sur un très grand nombre de processeurs et dont les tâches communiquent souvent et beaucoup entre elles. Il est à souligner que ce n’est pas forcément le cas de toutes les applications de calcul scientifique. En particulier, seules des applications utilisant la librairie MPI & peuvent être exécutées. C’est donc le rôle des ingénieurs applicatifs de CADMOS de sélectionner et d’allouer les ressources de calcul aux projets scientifiques pouvant le mieux exploiter l’architecture du BG/Q.
Blue Gene/P (2009)
Blue Gene/Q (2012)
Système
4 racks, 4096 nœuds, 8192 cœurs
4 racks, 4096 nœuds, 16384 cœurs 1 racks, 1024 nœuds, 16384 cœurs
Mémoire principale
2 TB
16 TB
16 TB
Perf. Max / Linpack
23 / 18 TFLOPS
56 / 47 TFLOPS
172 / 209 TFLOPS
Efficacité
0.23 GFLOPS/W
0.37 GFLOPS/W
2.1 GFLOPS/W
Refroidissement
Air
Air-eau
Entièrement eau
Cœurs
2 x PowerPC 440
4 x PowerPC 450
16 x PowerA2
Fréquence CPU
700 MHz
850 MHz
1.6 GHz
Architecture
PowerPC 32-bits
PowerPC 32-bits
PowerPC 64-bits
L3 Cache
4 MB
8 MB
32 MB
Mémoire Principale
512 MB – 5.6 GB/s
4 GB – 13.6 GB/s
16 GB - 42.6 GB/s
Topologie
Tore 3D
Tore 3D
Tore 5D
Bande passante
2.1 GB/s
5.1 GB/s
40 GB/s
≈ 1 GB/s
Max 10 GB/s
Max 30 GB/s
Nœud
Réseau
Entrées/sorties Bande passante
19 MARS 2013 - N° 2
9
Blue Gene/Q Lemanicus, le dernier bijou technologique de la région lémanique
Système de stockage GSS avant-gardiste Le système BG/Q Lemanicus a été retenupar IBM pour une installation pilote d’un tout nouveau système de stockage appelé GSS &, annoncé à SC’12 (Super Computing). C’est donc un des premiers systèmes au monde à bénéficier de cette technologie très prometteuse dans le monde HPC, et plus largement dans bien d’autres domaines de l’informatique. Le système GSS consiste à confier directement la gestion des disques aux serveurs de fichiers, au lieu de s’appuyer sur des baies de stockage externes avec contrôleurs. Les disques sont donc directement attachés aux serveurs de fichiers. Le logiciel GNR tourne sur les serveurs pour réaliser toutes les tâches inhérentes au contrôle des disques, telles que le calcul et la répartition des parités, la reconstruction en cas de panne, la vérification des données, etc. Une bonne présentation de la solution GSS est disponible à https://eventbooking.stfc.ac.uk/uploads/mew23/ckeableibm.pdf. Cette approche comporte de nombreux avantages par rapport aux solutions classiques avec baies de stockage, dont les plus significatifs sont les suivants: z Réduction significative du TCO (coût total) du sous-système de stockage: w pas de contrôleur hardware externe (souvent onéreux, complexe et difficile à gérer); w accepte des disques et enceintes standard low-cost du marché; w tourne sur des serveurs x86 standard, sous Linux RedHat; w complètement intégré à GPFS; z Mécanismes d’intégrité des données plus souples: w plusieurs schémas de redondances disponibles; w sommes de contrôle des données de bout-en-bout; w données et parités réparties sur tous les disques (Declustered Raid); w impact limité de la reconstruction des disques; z Performances accrues et équilibrées: w réglage de bout-en-bout du système simplifié, car il y a moins de protocoles et technologies impliqués dans la chaîne des entrées-sorties; w n’importe quel système de fichiers bénéficie de la bande passante maximale, car tous les disques sont toujours mis à contribution; w les performances se mesurent naturellement avec le nombre d’éléments (blocs) GSS utilisés.
GLOSSAIRE
&
GREEN500: liste des 500 ordinateurs les plus efficaces de la planète du point de vue énergétique (www.green500.org). GSS (GPFS Storage Server): solution de stockage d’IBM basée sur GPFS et la technologie GPFS Native Raid (GNR). HPC (High Performance Computing ou en français Calcul à Haute Performance): terme utilisé pour se démarquer de calculs faits sur des ordinateurs de bureau standard, et implique en général des clusters ou des superordinateurs.
10 flash informatique
La solution GSS retenue pour le système Lemanicus comporte trois blocs. Chaque bloc est constitué de deux serveurs IBM de type x3650 M4 et de six enceintes comprenant chacune 58 disques NL-SAS de 3TB, soit au total 1044 TB de capacité brute et 10 GB/s de bande passante max par bloc. Les trois blocs GSS offrent au total 2.1PB de capacité de stockage utile et une bande passante maximale de lecture et d’écriture d’environ 30 GB/s. Les performances réelles des entrées-sorties mesurées depuis les nœuds de calculs du BG/Q atteignent entre 20 et 26 GB/s suivant les cas de tests, c’est-à-dire accès en lecture ou écriture à un fichier unique partagé, ou accès à des fichiers séparés par chaque processus.
Conclusion Le Blue Gene/Q Lemanicus - premier supercalculateur de ce type installé en Suisse - dote la région lémanique d’un puissant outil de calcul scientifique au service des institutions participantes. Il leur offre un environnement HPC précurseur tant du point de vue de l’efficacité énergétique que de la solution de stockage, basée sur une technologie qui semble vouée à un bel avenir. De manière plus générale, les supercalculateurs de type Blue Gene sont actuellement des acteurs incontournables dans le cercle restreint des machines à haute performance. À ce jour, le deuxième ordinateur le plus puisant du monde est le Blue Gene/Q Sequoia de www.llnl.gov qui compte 96 racks pour une puissance de calcul maximale théorique de 20.132 PFLOPS. Nous avons vu que le Blue Gene/Q opère un saut important en terme de performance et d’efficacité par rapport à ces prédécesseurs. Cette nette amélioration technologique place les ordinateurs d’IBM en bonne position dans la course à l’exascale (un milliard de milliards d’opérations de calcul par seconde), dont les premières réalisations sont espérées pour 2020.
Informations pratiques z Site Web du propriétaire: cadmos.org z Site Web concernant l’exploitation: bgq1.epfl.ch z Demande d’ouverture d’un compte de test: hpc-dit.epfl.ch/ docs/inscription-utilisateurs-enligne.pdf. n
Infiniband: technologie de communication point-à-point, utilisée principalement dans le domaine du calcul à haute performance, pour les échanges de données à haute vitesse et faible latence. QDR en est la version à 40 Gbits/s. LoadLeveler: système batch d’IBM, réalisant la gestion et l’ordonnancement des tâches. MFLOPS/W: unité de mesure de l'efficacité d'un ordinateur exprimée en million d'opérations de calcul en virgule flottante par seconde et par Watt consommé.
MPI (Message Passing Interface): protocole de communication utilisé pour programmer les communications entre les différents noeuds de calcul d'un cluster. PB (Pétabytes): 1015 octets. TB (Terabytes): 1012 octets. TFLOPS (Teraflops): unité de mesure de la puissance des ordinateurs exprimée en mille milliards d'opérations de calcul en virgule flottante par seconde (1012). TOP500: liste des 500 ordinateurs les plus puissants de la planète (top500.org).
Analyse
Virtualisation pour tous Laurent.Kling@epfl.ch, EPFL -STI, coordinateur informatique à la Faculté des Sciences et Techniques de l’Ingénieur
How virtualization is changing our approach to IT? Comment la virtualisation change notre approche de l’informatique ? Nous utilisons une technologie stupéfiante, la virtualisation, quand: z nous exécutons une application Java sur un navigateur Web, z nous émulons un logiciel obsolète, z notre fournisseur favori décide de changer de fabricant de processeurs, z notre service informatique emploie ces outils. En simplifiant, la virtualisation consiste à encapsuler des processus informatiques en dehors du contrôle direct du système. Pour reprendre l’exemple de Java, le code est transformé pour être exécuté dans un environnement sécurisé isolé de l’ordinateur. Si ce mécanisme est disponible pour différentes plates-formes, cela offre une comptabilité entre toutes, la panacée ! A priori, cette technologie semble réservée aux spécialistes. En réalité, elle est abordable par presque chacun d’entre nous. Son agrément est tellement fort que maintenant ce sont les systèmes d’exploitation qui intègrent cette technique: z Microsoft, dans Windows 7 pour émuler Windows XP, z Apple, cette technique a permis de changer de famille de processeur en émulant le précédent: w 68’000 vers PowerPC, w PowerPC vers Intel. Cette simulation d’un autre processeur physique entraîne naturellement des pertes de performance importantes. Cerise sur le gâteau, des outils sont accessibles dans presque toutes les plates-formes. Un bémol cependant, uniquement un Macintosh peut reproduire un Macintosh. Dans Wikipédia, vous trouverez un résumé des produits disponibles: en.wikipedia. org/ wiki/Comparison_of_platform_virtual_machines.
Pour dépasser cette vision partisane, nous devons effectuer un choix raisonné de l’écosystème, trois éléments sont à considérer: l’étendue, le coût et l’interopérabilité. Pour l’étendue, la possibilité de déplacer une machine virtuelle entre des hébergements de qualité croissante est un critère important. Au départ, on crée une machine virtuelle sur son poste de travail, puis, on désire l’accueillir dans un environnement performant. Pour le coût, il faut tenir compte des éléments nécessaires pour bâtir un milieu performant avec les coûts de licence. Finalement, la portabilité de votre travail pour éviter une dépendance a un seul constructeur. Au départ, le choix est quasi cornélien, il paraît impossible de changer de fournisseur.
Open Virtualisation Format (OVF) Heureusement, une méthode permet d’échanger les machines virtuelles. Dans un esprit de concorde, cinq constructeurs, conscients de la nécessité d’ouvrir le marché entre concurrents, décidèrent en 2007 de créer un format commun, www.dmtf.org/standards/ovf. En pratique, un conteneur OVF se décompose en trois parties: ➊ un fichier descriptif au format XML, ➋ la copie du disque dur, ➌ le tout dans un dossier compressé avec le format TAR.
conteneur au format OVF
Quel logiciel choisir pour virtualiser ? À l’EPFL, quatre écosystèmes de virtualisation cohabitent: z VMware, www.vmware.com, utilisé par le DIT-EX pour le service myvm.epfl.ch, z Oracle avec VM Virtual Box, www.virtualbox.org, Sun Container et Oracle VM, z Microsoft avec Hyper-V 2012 et Hyper-V 2008, www.microsoft. com/en-us/server-cloud/hyper-v-server/default.aspx, z KVM sur Linux, www.linux-kvm.org. Nous trouvons rapidement des adeptes de chaque fournisseur dont les zélotes vanteront les caractéristiques uniques.
Dans l’idéal, on doit pouvoir déplacer une machine virtuelle entre les écosystèmes. Malheureusement, ce ne sont que des promesses car les machines virtuelles sont aussi des machines.
Pourquoi décrire le matériel alors qu’on souhaite utiliser une machine virtuelle ? Elles ne sont pas immatérielles, elles singent une machine réelle. Et quand on désire transférer des machines virtuelles, on doit transporter également les composants sous-jacents. Pour compliquer le travail, chaque fabricant interprète à sa manière la description des périphériques. 19 MARS 2013 - N° 2
11
Virtualisation pour tous
Notre institution dispose de licences VMware éducation gratuite ! Thierry Charles l’annonçait dans cette revue en 2010, flashinformatique.epfl.ch/spip.php?article2000. La principale contrainte pour l’utilisation de ces licences est leur durée, une année avec un renouvellement possible pour le personnel. Pour les étudiants, l’usage est limité à un an non reconductible, vmware-edu.epfl.ch. Actuellement, la liste des logiciels VMware accessibles pour le personnel EPFL est particulièrement étendue. Cerise sur le gâteau, les licences avancées sont également disponibles dans le modèle éducatif de VMware. L’environnement virtuel utilisé par le service informatique central de l’EPFL (DIT) est aussi lié à cette entreprise, myvm.epfl.ch. VirtualBox – configuration des périphériques pour une machine virtuelle
Si on essaye de réaliser ce transfert entre constructeurs rivaux, le résultat est décevant. Il n’est pas possible de transmettre simplement des machines. De nombreux forums vous suggèrent d’éditer directement le fichier de description XML de la machine virtuelle. Compte tenu des différentes variantes, c’est un travail de titan que de tenter d’énumérer toutes les modifications à faire. La solution la plus aisée est de s’occuper simplement du disque dur. Il faut procéder à une autopsie de l’ordinateur pour comprendre les limites. Une machine est composée d’un processeur, de mémoires et de ses périphériques: z la compatibilité pour le processeur est assurée, car tous utilisent des puces Intel, z la mémoire se décompose en deux parties: w vive, pour le système d’exploitation et les programmes, w permanente, sous forme de disque dur qui conserve les données, z Les périphériques sont multiples: cartes vidéo, audio, réseau, port USB. Sur le papier, pour disposer d’un format d’échange parfaitement fonctionnel, les constructeurs devraient définir en commun tous ces composants. La diversité commerciale et technologique a rendu cet accord impossible. Si le format du disque dur est parfaitement décrit dans OVF, il reste une question subsidiaire, le contrôleur de disque dur. Tel un archéologue industriel, nous devons remonter dans le temps. année technologie d’arrivée
Interface parallèle Interface série
1982
SCSI (Small Computer System Interface)
1986
IDE (Integrated Drive Elelectronic) ou ATA
2003
SATA (serial ATA)
2005
SAS (attached serial SCSI)
Les deux premières sont des technologies parallèles, cela signifie que chaque bit de formation est transmis dans le câble sur un fil défini, 16 bits = 16 câbles.
12 flash informatique
licences éducation de VMware disponible pour le personnel EPFL
Naturellement, ces licences éducation sont réservées pour un usage académique; si vous désirez une utilisation en dehors des conditions contractuelles, il faudra passer par la case Start et acquérir un produit commercial. Les deux dernières utilisent une transmission série, trois fils sont suffisants, un pour une référence électrique (la masse), un autre pour émettre, et le troisième pour recevoir. En réalité, le connecteur SATA possède sept fils, deux paires de fils pour une transmission différentielle des données, trois fils pour la masse. Pour rendre la situation plus opaque, les deux standard SAS et SATA possèdent la même interface physique ! Avec ce principe sériel, on peut atteindre des vitesses de débit très élevées, dans la norme actuelle. Avec SATA version 3, le débit maximum est de 600 Mo/s. Les performances annoncées par les
Virtualisation pour tous constructeurs de disque dur semblent merveilleuses, autour de 100 Mo/s. Si on prend en compte l’ensemble de la chaîne, matériel, système d’exploitation et application, la performance chute drastiquement et il est rare de dépasser 10 Mo/s. Pour éviter des allers-retours inutiles, voici la charte de comptabilité dans des transferts de machines virtuelles: IDE IDE
OK
IDE SATA
OK
SCSI SCSI
OK
SATA SAS
impossible
Sur le poste de travail, la situation n’est pas aussi catastrophique, le disque dur virtuel a été créé correctement. 4. La quatrième étape consiste à réutiliser ce disque dur dans une nouvelle machine virtuelle dans VitualBox. On recrée la machine virtuelle avec les mêmes caractéristiques de mémoires, de périphériques, et du système d’exploitation.
Au premier degré, on ne comprend pas pourquoi SAS n’est pas compatible avec SATA. Le connecteur est le même, mais les protocoles utilisés sont fondamentalement différents. Pour cet article, j’ai transféré des machines virtuelles entre les deux environnements largement utilisés dans l’EPFL: VMware vers VirtualBox et VirtualBox vers VMware.
VMware vers VirtualBox
VirtualBox: création d’une nouvelle machine à l’identique
Pour simuler l’écosystème complètement, j’ai choisi comme point de départ un environnement professionnel, VMware vSphere 4.1 accompagné par l’OS Windows 7. La machine cliente est un Macintosh avec VirtualBox. Pour éviter de perdre du temps dans chacun des tests des différentes technologies de disque dur, j’ai utilisé l’outil d’installation automatique install-os.epfl.ch développé en collaboration avec le DIT. Comme expliqué au préalable, le point crucial est le type d’interface du disque dur. Sans transformation ésotérique, uniquement les normes IDE et SATA sont compatibles pour des échanges entre ces deux plates-formes concurrentes. 1. La première étape consiste à exporter la machine virtuelle au format OVF. Attention, on transfère une machine virtuelle, mais dont la taille du disque est conséquente, 30 ou 40 Go pour Windows 7. Cela équivaut à copier toute une bibliothèque de musique ou d’images ! 2. Pour la deuxième étape, il faut partager ce volumineux document entre la source et la destination. De nouveau, le temps de transfert n’est pas négligeable. 3. Ensuite on essaie d’ouvrir la machine virtuelle avec VirtualBox. Le temps d’attente est important, car l’outil décomprime les données du disque dur dans un format utilisable. Le résultat est désastreux, le transfert a apparemment échoué.
VirtualBox: échec importation OVF
VirtualBox: ajout d’un disque IDE
Il ne faut pas créer de disque dur, car celui-ci existe déjà.
VirtualBox: ne pas créer de disque dur
Après il faut créer le composant virtuel disque dur avec une interface IDE. Sur un Macintosh il faut désactiver la case Use host I/O cache.
19 MARS 2013 - N° 2
13
Virtualisation pour tous 5. Ensuite le moment de vérité, démarrer la machine virtuelle et miracle la conversion est réalisée ! Windows va se réparer automatiquement en installant les différents pilotes.
Il faut appliquer exactement la même méthode qu’avec Virtual Box: 1. exporter la machine virtuelle ou format OVF, 2. transférer le disque dur de la machine virtuelle, 3. créer la machine virtuelle sans disque dur, 4. ajouter le disque dur, 5. laisser Windows réparer les pilotes, 6. ajouter les extensions VMwareTools dans la machine virtuelle.
VirtualBox: réparation des pilotes par Windows 7
6. Puis installer les extensions VirtualBox dans la machine virtuelle.
VMware vSphere: réparation des pilotes par Windows 7
Conclusion, du monde virtuel au réel
VirtualBox: ajout des extensions client
VirtualBox vers VMware Pour transférer une machine de VirtualBox vers VMware, les étapes d’exportation, de transfert et d’importation sont les mêmes. De manière similaire à VirtualBox, VMware m’informe que l’opération a échoué !
VMware vSphere: échec importation OVF
14 flash informatique
Les machines virtuelles ne sont que des métaphores du monde réel, elles présentent les mêmes inconvénients, comme des connexions avec des composants matériels, même virtualisés. Premièrement, les machines virtuelles sont utiles pour compléter votre ordinateur en ajoutant par exemple Windows 7 sur un Macintosh, pour compenser les lacunes de la mise à disposition de certains outils. Deuxièmement, c’est tout ce qui dépasse ce portage d’application. En particulier quand il est possible de conserver les états successifs d’un ordinateur allumé ou déplacer un serveur sans l’éteindre. Ces fonctionnalités seront décrites dans un prochain article. Troisièmement, on peut même utiliser les possibilités de virtualisation d’un système d’exploitation pour dépasser les limites du temps. Cette possibilité est décrite dans ce numéro dans l’article … jusqu'où aller dans la virtualisation ?. Pour conclure cette série sur la virtualisation, je présenterai dans un dernier article les capacités du logiciel Atempo pour sauvegarder le contenant ou le contenu d’une machine. Des pirates ont compris les avantages de la virtualisation. Plutôt que d’écrire un virus pour chaque cible, il est plus simple d’exploiter les failles de sécurité présentes dans la machine virtuelle de Java. Quand une brèche permet l’exécution d’un code malicieux en dehors de la machine virtuelle, vous avez un problème de sécurité universel pour toutes les machines possédant Java. Il devient particulièrement plus grave quand l’extension Java est présente dans le navigateur. Ironiquement, c’est la méthode qui vient d’être utilisée pour attaquer Facebook, Apple et Microsoft malgré la décision d’Apple de désinstaller l’extension Java dans le butineur ! n
Comment faire ?
… jusqu’où aller dans la virtualisation ? Laurent.Kling@epfl.ch, EPFL -STI, coordinateur informatique à la Faculté des Sciences et Techniques de l’Ingénieur
How some different technologies extend the life of the software? Comment différentes technologies prolongent la durée de vie des logiciels ?
Comme préambule, l’objectif de cet article est de présenter les possibilités cachées de l’utilisation de la virtualisation. Si vous désirez mettre en œuvre les outils graphiques d’Adobe, il est certainement préférable d’utiliser la version commerciale actuelle dans votre environnement favori et avec une conscience tant soit peu libertaire, vous allez certainement utiliser les alternatives Open Source pour éviter ces logiciels commerciaux. Dans la société de consommation, il est inhabituel de trouver des choses gratuites. Quand celles-ci sont disponibles, tout le monde se précipite pour les obtenir. Cette frénésie atteint des sommets pendant les périodes des soldes, mais ce qui parfois paraît intéressant se révèle en fait un canard boiteux. En effet, rares sont les bonnes affaires dont personne n’est au courant. Dans le cadre universitaire, nous bénéficions pour les logiciels de conditions très généreuses. Certains semblent même être gratuits pour l’utilisateur.
Acrobat Pro 8.0
création et édition de PDF
GoLive CS2
création et édition de sites Web Uniquement pour PC
Audition 3.0
gestion de flux audio
Adobe Premiere Pro 2.0
édition vidéo
Sur un Macintosh, cette action paraît trop belle pour être vraie. C’est dans le détail que les problèmes commencent: z il s’agit d’une suite vieille de sept ans, z elle n’est disponible que pour des systèmes d’exploitation obsolètes: Mac OS X 10.3.8 PowerPC, z l’utilisation de ces logiciels est-elle vraiment nécessaire ? Partons de l’hypothèse que vous désirez utiliser cette suite sur une machine moderne, elle est a priori inutilisable. Sur mon Macintosh Intel 10.7, la tentative d’installation se solde par un échec.
Le déclencheur Voici l’annonce révélée par de nombreux sites début janvier 2013: La suite Adobe Creative Suite 2 (CS2) de logiciels (professionnelle) est accessible pour tous sur Windows et Macintosh 1. Le blog officiel de l’entreprise est plus circonspect: blogs.adobe. com/conversations/2013/01/update-on-cs2-and-acrobat-7-activation-servers.html; il nous apprend que le 13 décembre 2012, un
bogue empêcha l’activation de la suite CS2. En conséquence, à partir du 7 janvier, la société rend disponibles directement au téléchargement ces logiciels accompagnés de leurs numéros de série valides ! www.adobe.com/downloads/cs2_downloads/index.html. Adobe Creative Suite 2 comprend ces logiciels pour Macintosh et PC Windows Illustrator CS2
dessin vectoriel
Photoshop CS2
traitement d’images
Photoshop Elements 4.0/5.0 traitement d’images simplifié InDesign CS2
mise en page
InCopy CS2
édition de documents complexes Vérification préalable de la configuration et échec du matériel
La page de téléchargement a été modifiée depuis l’écriture de cet article et vous informe précisément des conditions d’utilisation
1
19 MARS 2013 - N° 2
15
… jusqu'où aller dans la virtualisation?
Utiliser la suite CS2 virtuellement La suite CS2 semble inutilisable pour le Macintosh, car basée sur un système d’exploitation obsolète avec un processeur inaccessible. Les seuls à se montrer ravis sont les aficionados qui auraient gardé une antiquité. En réalité, jusqu’à Snow Leopard (10.6.8), le Macintosh a émulé les microprocesseurs PowerPC avec la technologie Rosetta. On peut tenir ce raisonnement: z la suite CS2 sur Macintosh a besoin d'un processeur PowerPC, z Mac OS X 10.6.8 émule le PowerPC avec Rosetta, z un système actuel sur un Macintosh, 10.7 ou 10.8 peut virtualiser un Mac OS X 10.6.8. Pour résoudre le problème, il faut maintenant suivre les étapes dans le bon ordre. z utiliser un outil de virtualisation, z installer Mac OS 10.6.8 avec Rosetta, z finalement, installer la suite CS2.
En pratique, la virtualisation sur Macintosh Pour Macintosh, trois outils de virtualisation sont disponibles facilement: z un produit open source et gratuit: w Oracle VM VirtualBox, décrit dans un article de cette revue par Thierry Charles, flashinformatique.epfl.ch/spip.
z Rosetta qui permet l’émulation pour le processeur PowerPC, z QuickTime 7.0 pour les interfaces de programmation graphiques. Pour ceux qui possèdent déjà une machine virtuelle Mac OS 10.6, Rosetta s’installe automatiquement dès qu’on essaye d’exécuter un logiciel compilé pour PowerPC.
Installer les outils VMware Quand le système d’exploitation est installé, la résolution de l’écran est fixe, 1024 x 768. Cela est rapidement corrigé avec l’ajout des outils VMware, www.vmware.com. Cette étape est essentielle, elle permet l’accès aux différents modes de fonctionnement de Fusion.
Mettre à jour le système Naturellement comme pour chaque nouvelle machine, une mise à jour du système est obligatoire.
Installer Adobe CS 2 La première étape consiste à télécharger l’ensemble des logiciels Macintosh. Une lecture attentive du document PDF disponible sur le site Web explique le processus de l’installation. On travaille en parallèle sur deux Macintosh, le réel et le virtuel: z créer un dossier partagé entre son Mac et la machine virtuelle:
php?article1968
z deux produits commerciaux: w Parallels Desktop 8.0, w VMware Fusion 5.0. Mon sentiment sur les trois logiciels est ambivalent. Sur le plan de coût, VirtualBox est gratuit pour tous, cependant sa communauté sur Macintosh est limitée, on ne trouve qu’un seul article dans le forum officiel: https://forums.virtualbox.org/viewforum.php?f=27. Pour départager les deux produits commerciaux, je suggère de lire l’article paru en septembre 2012 dans Ars Technica: arstechnica. com/features/2012/09/parallels-desktop-8-and-vmware-fusion5pro-review-showdown/.
z sur la machine virtuelle: w Il faut ouvrir l’ensemble des images disques sur le bureau, w sélectionner CS_20_IE_NonRet_D1.dmg pour lancer l’installation,
En performance pure, Parallels Desktop paraît être supérieur. En stabilité et compatibilité, VMware Fusion semble meilleur. Compte tenu des licences éducation à l'EPFL et de mon expérience sur cette plate-forme, mon choix s’est porté sur VMware Fusion.
Dans un premier temps, obtenir le logiciel de virtualisation et sa licence L’installation de Fusion est particulièrement simple pour les collaborateurs de l’EPFL; pour obtenir le logiciel et sa licence, allez sur le site: vmware-edu.epfl.ch. Pour les utilisateurs ne désirant pas employer un produit commercial, il est possible d’avoir recours à VirtualBox, https://www.virtualbox.org.
La deuxième étape consiste à créer la machine virtuelle Le secret consiste au départ à personnaliser l’installation en sélectionnant les deux outils qui nous intéressent:
16 flash informatique
w les conditions étant réunies, l’installation démarre normalement,
… jusqu'où aller dans la virtualisation ?
Un monde virtuel? Sur une machine moderne, un iMac avec un processeur Intel Core i5, 4 cœurs et 16 Go de RAM, il est aisé de consacrer une partie minime des ressources disponibles (un cœur et 1 Go de RAM) à la machine virtuelle. Le fonctionnement de CS2 est fluide, parfait pour éditer quelques illustrations ou photographies. Pour exemple des synergies entre Illustrator et Photoshop, je réalise mon opération favorite: z dans Illustrator, je crée une illustration avec des courbes de Bézier; ensuite je copie ce dessin c’est-à-dire l’objet vectoriel, z j’ouvre Photoshop et je colle mon illustration, que comme par magie, je peux agrandir l’illustration sans en altérer la qualité! Ce tour de passe-passe est possible uniquement par la capacité de ces deux logiciels à convertir le presse-papiers d’un format vectorisé en un format bitmap directement. w uniquement la présence de l’ensemble des images ouvertes offre l’installation directe des quatre outils majeurs. w pour Acrobat 8 et Golive CS2, il faut procéder à leur installation individuelle. La seule astuce est le problème du son avec 10.6 (j’aimerais regarder la vidéo livrée avec les logiciels CS2). Une brève recherche sur Internet décrit la marche à suivre, communities.vmware.com/ thread/336996: z ajouter la carte audio dans la configuration de la machine virtuelle; z introduire dans la machine virtuelle 10.6 le pilote audio EnsoniqAudioPCI_v1.0.3_Common_Installer disponible sous ce lien: sourceforge.net/projects/vmsvga2/files/Audio; z pour VMware fusion 4 il est nécessaire de modifier le fichier de configuration .vmx contenu à l’intérieur du fichier de la machine virtuelle (Afficher le contenu du paquet): sound.virtualDev = "hdaudio" en sound.virtualDev = "es1371"
Maintenant, la machine virtuelle devient un conteneur. Comme l’application de la loi de Moore a permis en sept ans de décupler la puissance réellement disponible, l’émulation du Processeur PowerPC ne semble pas ralentir l’utilisation.
transfert vectoriel entre Illustrator et Photoshop
Les mécanismes décrits dans cet article sont exotiques, c'est-àdire utiliser un OS du passé pour exécuter un logiciel obsolète. Au deuxième degré, les amateurs trouveront facilement des émulateurs pour des machines totalement dépassées, console de jeux, ordinateurs, processeur et même système d’exploitation. Ces outils permettent un exploit non encore réalisé pour le monde vivant, dépasser la mort physique. Ce phénomène est possible par la propriété intrinsèque de l’information numérique qui ne s’altère pas, un message prémonitoire devant le déluge d’informations numériques que nous entassons. n
19 MARS 2013 - N° 2
17
Agenda
Insomni'hack, concours de hacking éthique Paul Such, directeur SCRT, insomnihack@scrt.ch
SCRT organizes for the sixth year a contest of Ethical Hacking Insomni’hack which will take place in Geneva on March 21 and 22. La société SCRT organise la sixième édition d’Insomni’hack, l’un des plus grands évènements de sécurité informatique francophone, à Genève les 21 et 22 mars prochain.
Le programme Jeudi 21 mars de 09h00 à 17h30 Plusieurs workshops donnés par des experts mondialement connus auront lieu durant la journée. Uniquement douze places par workshop sont disponibles. Certaines présentations auront lieu en français et d’autres en anglais. Vendredi 22 mars de 09h00 à 17h00 Douze conférences seront réparties en deux sessions qui auront lieu simultanément. Tout comme les workshops, certaines conférences seront en français et d’autres en anglais. Vendredi 22 mars de 18h00 à 01h00 Le concours d’ethical hacking débutera à 18 heures. Cet événement consiste en une série d’épreuves de tous niveaux (facile à difficile) relatives à la sécurité informatique. L’inscription est gratuite et divers prix sont à la clé.
Les workshops z Stephen Ridley & Stephen Lawler: Practical ARM Exploitation z Paul Rascagneres: Le framework d’exploitation open source: Metasploit z Mario Heiderich: Offensive HTML, HTML5, SVG and CSS or How to make sure your Pentest Report is never empty z Jeremy Kenaghan: Méthodologies simples de management de risques: CORAS & OCTAVE-ALLEGRO -SCRT: Exploitation Linux
Richard Lane: ISC2: Safe & Secure Online Initiative Bruno Kerouanton: Software Defined Radio hacks Pascal Junod: Chasse à l’Hash-DoS Paul Rascagnere: Projet Malware.lu Patrick Trinkler & Matthieu Legré: Boite à outils de l’espion à l’heure des communications par fibre optique z François Deppierraz & Nicolas Desir: Comment j’ai créé un ISP dans mon garage? z Eloi Sanfelix Gonzalez: Modern embedded systems analysis z Angelo Brancato: How to increase the chance to detect and stop a Targeted Attack AKA Advanced Persistent Threat (APT) z z z z z
Où ?
Geneva Palexpo, 1218 Le Grand-Saconnex
Public cible z Hackers européens. z Ouvert à tous les professionnels ou particuliers, passionnés ou simplement intéressés par le hacking et la sécurité informatique.
À propos de l'organisateur SCRT est une société basée à Préverenges (en Suisse), entièrement dédiée à la sécurité de l’information. Depuis maintenant plus de dix ans, nous proposons une large gamme de services dans le domaine de la sécurité informatique, tels que tests d’intrusion, audit, intégration, formations, etc.
Ethical hacking Le hacking éthique consiste à attaquer le système de sécurité d’une entreprise avec son consentement et à sa propre demande. Il a pour but de détecter les failles du système qui pourraient être exploitées par une personne mal intentionnée. Il utilise les mêmes méthodes que les pirates informatiques à proprement parler, mais à des fins honnêtes et constructives.
Objectifs du concours
Les conférences z Charlie Miller: Hacking phones with Near Field Communication z Ian Pratt: The Soul of the New Machine: The Role of Hypervisors in Next Gen Information Security z Mario Heiderich:- XSS from 1999 to 2013: The Doctrine Classique of Websecurity - The innerHTML Apocalypse - How mXSS attacks change everything we believed to know so far z Stephen Ridley & Stephen Lawler: Advanced ARM Exploitation
18 flash informatique
z Faire connaître au grand public les enjeux et les risques induits par l’émergence des nouvelles technologies. z Permettre aux participants de pratiquer leur art dans un cadre légal. z Donner une image positive du hacking en montrant qu’il peut être utilisé à des fins saines et légales. z Offrir un lieu d’échange entre passionnés et professionnels afin de partager des connaissances et des compétences en matière de sécurité informatique. n
À votre service
Authentification forte à l’EPFL Pierre.Mellier@epfl.ch, EPFL - Domaine IT, responsable du KIS
EPFL chooses the OATH standard as strong authentication mechanism for Tequila L'EPFL choisit le standard OATH comme mécanisme d'authentification forte sur Tequila. Dans son article Sésame ouvre-toi! du FI 9/2012 (flashinformatique.epfl.ch/spip.php?article2622), Laurent Kling mentionnait les dangers qui existent autour des mots de passe et des moyens mnémotechniques pour s’en souvenir, et qui peuvent être à l’origine d’astucieuses techniques de piratage dont je mentionnais par ailleurs les exploits dans La Guerre des mots de passe (flashinformatique.epfl.ch/spip.php?article2619) paru dans le même FI. Pour protéger des données sensibles ou confidentielles, il faut malheureusement constater que le mot de passe n’est plus un instrument sûr pour se protéger des pirates, et qu’il faut trouver autre chose. Bien sûr, des techniques existent, et elles sont déjà largement utilisées par les banques. La technique la plus classique est celle de la calculette distribuée à tous les clients d’une même banque. Lorsqu’un client souhaite accéder à son compte bancaire, la banque lui indique un challenge qui permet à sa calculette de fournir une réponse que seul ce client peut fournir et qui prouve qu’il est bien le propriétaire du compte! Le pirate ayant volé un mot de passe ne peut pas se connecter à un compte sans posséder également la calculette du client. Les opérateurs mobiles utilisent une démarche analogue pour permettre à leurs clients de consulter l’état de leur compte. Lorsqu’un client veut se connecter, l’opérateur lui envoie un SMS sur son téléphone mobile avec un code qui doit être fourni en retour pour terminer la procédure de login. Là encore, le pirate vous ayant volé un mot de passe ne peut pas se connecter au compte, car il n’a pas accès au code SMS.
Dans son article L’authentification forte aux services Google du FI 7/2012 (flashinformatique.epfl.ch/spip.php?article2596), Denis Rochat expliquait en détail la démarche mise en place par Google pour permettre des accès plus sûrs aux comptes Google. La démarche est encore une fois analogue, il s’agit là d’utiliser un smartphone comme moyen auxiliaire. Un logiciel spécial est installé sur le smartphone qui fournit toutes les 30 secondes un nouveau code de six chiffres qu’il faut indiquer à Google en plus du mot de passe. Le pirate ayant volé seulement le mot de passe ne peut pas deviner ce code qui change tout le temps. Ces différentes stratégies d’authentification sont dites fortes car elles utilisent au moins deux facteurs d’authentification, à savoir quelque chose que l’on connaît: son mot de passe, et quelque chose que l’on possède: un téléphone mobile ou smartphone ou encore une calculette. Mais ce dernier facteur a un défaut, chaque service (banque, opérateur mobile, …) utilise sa propre solution et si ce type de démarche se généralise, on risque bien de se retrouver dans un proche avenir avec quinze calculettes distinctes, vingt-cinq applications sur son smartphone, etc. Toutefois, un des avantages de la solution mise en avant par Google est qu’elle est basée sur un standard industriel parfaitement normalisé appelé OATH (www.openauthentication.org), d’autres entreprises se sont mises récemment à l’utiliser comme Amazon, ou encore Dropbox pour améliorer la sécurité des accès de leurs utilisateurs. Ces différents fournisseurs Internet utilisent donc la même démarche et le même logiciel sur le smartphone pour garantir un accès sécurisé, voilà qui est mieux.
L’EPFL a décidé d’utiliser également ce standard OATH pour renforcer l’accès et la sécurité à certaines prestations informatiques qui contiennent des données importantes. Cela se fera par le biais de l’authentification Tequila qui, dans certains cas, contiendra un champ supplémentaire appelé code de sécurité et de la même application GoogleAuthenticator utilisée par Google ou Dropbox pour fournir ce code de sécurité. Ce nouveau service sera disponible à partir de début mai sur Tequila, mais les personnes qui souhaiteraient accéder à sa version de test peuvent contacter l'auteur à partir de la mi-mars. n 19 MARS 2013 - N° 2
19
Actualité
Clavitude Appoline.Raposo@epfl.ch, EPFL-Domaine IT, claviste du Flash informatique
Jacqueline has decided to cease her activities at the EPFL and, therefore, to move on in a new direction. Jacqueline a décidé de cesser ses activités à l'EPFL et corolairement, de tourner la page du Flash informatique.
Bref historique Sa thèse en physique du solide en poche, suivie d’une année chez Renault au développement d'un logiciel CAO, Jacqueline commence sa longue carrière au service des utilisateurs de l'informatique à l'Institut Français du Pétrole, où elle reste cinq ans. En 1987, elle entre à la Réponse aux questions du Centre de calcul de l'EPFL, qui deviendra la Permanence d'aide technique du Service informatique central; c'est dans ce cadre-là que nous avons commencé notre collaboration étroite. L'aide technique et l'information allant de pair, le FI a toujours connu Jacqueline, d'abord membre du comité de rédaction et relectrice dès le 1er numéro de 1988. En 1990, elle participe activement à la rédaction du premier numéro spécial été: PAO/PréAO, puis elle assume la rédaction en chef des numéros spécial été: Échanges en 1991 et Fenêtres en 1992. Elle s'investira toujours plus jusqu'à prendre la responsabilité de la rédaction à part entière. Dans le FI 10/09, flashinformatique.epfl.ch/spip.php?article1950, Autopsie du numéro deux, je décrivais la face cachée du FI et le travail du rédacteur en chef qui consiste à animer les séances du comité de rédaction, inciter les auteurs à écrire, relire leurs textes, les corriger, écrire des articles de dernière minute pour combler le multiple de quatre pages auquel est tenu le journal, créer de nouvelles rubriques (la boîte à lettres, il y a 20 ans dans le FI, mot-croisé,…), choisir des thèmes pour les numéros spéciaux, mettre sur pied des concours (concours de la meilleure nouvelle, concours pour les étudiants), élargir le comité de rédaction, etc. Une publication en cachant une autre, il y aura aussi le catalogue des prestations devenu plaquette de présentation du service, Internet@EPFL, … Et naturellement l'information n'étant pas
que papier, Jacqueline mettra sur pied des séances d'information: Forum-IT, Heure DIT, … Jacqueline aime se tenir au courant des nouveautés et en faire profiter les utilisateurs et les lecteurs du Flash informatique. Le Web du Domaine IT est ainsi le témoin de son exigence de transmission de l'information.
et le CERN créa le Web… Dans le numéro du 22 février 1994, Mosaic, vers une nouvelle culture ? dit-archives.epfl.ch/FI94/2-94-page1.html, Jacqueline nous parlait de la naissance d'un nouveau phénomène: le World Wide Web et de la création de la première Home Page de l'EPFL. Elle a été très active pour animer ce nouveau portail et l'alimenter avec des informations glanées dans les divers instituts de l'École. Cela semble évident aujourd'hui, mais convaincre les départements de l'époque de se mettre en évidence sur le Net n'était pas toujours tâche facile. À l'époque, Jacqueline donnait même des cours de navigation. C'est ainsi que le Flash informatique s'est naturellement retrouvé sur Internet dès ce moment-là.
et la roue tourna à notre insu … Déjà un quart de siècle que je travaille aux côtés Jacqueline, qui est naturellement devenue une amie et vous comprendrez aisément que je ne pouvais pas passer son départ sous silence dans notre dernier numéro ensemble.
Chapeau bas ! J'aime son tempérament jovial, conciliant et positif, cette manière qu'elle a de ne pas se prendre au sérieux, ni de se prendre la tête. Nombreux sont les fous-rires que nous avons partagés. Avec elle, il y a toujours un nouveau défi à tenter et je sais qu'elle sera toujours partante… et encore aujourd'hui en tournant la page avant l'heure J … Permettez-moi de la remercier ici pour ces quelques vingt-cinq années de route ensemble qui, grâce à elle, m'ont paru très courtes… Je lui souhaite une longue vie pleine de voyages, films, amis, toutes ces choses qu’elle aime faire et pour lesquelles elle aura maintenant, plus de temps ! n
ISSN 1420-7192