“De Cloud, toekomstig slachtoffer van disruptieve innovatie?”
Cy7/Cy21 ARM Cloud Servers Benelux Introduction A Compatibles2 Paper door Hans Noort compatibles2@gmail.com
Q4 2014 ver 1.2
Contents Executive Summary ................................................................................................................. 3 “De Cloud, toekomstig slachtoffer van disruptieve innovatie?” ........................................ 4 De Cloud IS een disruptive technology! ................................................................................ 4 Hoe kwam het zover? .............................................................................................................. 5 En waar gaat dat naartoe? ...................................................................................................... 5 Cloud Technologie ................................................................................................................... 6 The Bare-Metal Cloud .............................................................................................................. 6 De architectuur van de toekomst ........................................................................................... 7 De architectuur van de toekomst NU ..................................................................................... 8 Solution Overview .................................................................................................................... 9 Conclusions ............................................................................................................................10 APPENDIX 1 The “What Is?” Section, 1844 TB Storage, hoeveel is dat? (NL) ................11 APPENDIX 2 The “What Is?” Section, GlusterFS, wat is dat? (UK) ..................................12 Advantages to GlusterFS .................................................................................................... 12 What makes Gluster outstanding among other distributed file systems? .......................... 12 APPENDIX 2 The “What Is?” Section, GlusterFS, wat is dat? (1) .....................................13 Storage concepts in GlusterFS ........................................................................................... 13 APPENDIX 2 The “What Is?” Section, GlusterFS, wat is dat? (2) .....................................14 APPENDIX 3 The “What Is?” Section, Ceph, wat is dat? (UK) ..........................................15 APPENDIX 3 The “What Is?” Section, Ceph, wat is dat? (1) .............................................16 APPENDIX 3 The “What Is?” Section, Ceph, wat is dat? (2) .............................................17 APPENDIX 4 The “What Is?” Section, Apache Hadoop wat is dat? (UK).........................18 APPENDIX 5 The “What Is?” Section, OpenStack wat is dat? (UK) .................................19
Q4 2014 ver. 1.2
2
Compatibles2 Cloud Servers
1
Section
Executive Summary Om tegemoet te komen aan de groeiende behoefte aan Groene IT oplossingen, in combinatie met Cloud Computing, introduceren wij extreem zuinige Cloud Servers. Met de volstrekt unieke CyOne, Cy7 en Cy21 ARM based servers, met als bijzondere kwaliteit oneindige schaalbaarheid, bieden wij revolutionaire maar zeer betaalbare oplossingen. Server oplossingen op basis van ARM CPU’s, voor o.a. Hostingbedrijven, Datacenters en in-house ICT klanten, die momenteel beperkingen ondervinden op het gebied van stroom en ruimte en die de kosten willen reduceren. Maar denk ook aan Cloud Test-omgevingen, Research, Educatie, Data Analyse en specifieke nieuwe toepassingen, zoals Social Media. Met een server density van 532 micro servers en 456 HDD en 76 SSD’s = 1844 TB in een Server rack en toch maar een een stroomverbruik van max. 7.04 KWatt bij volledige belasting vormen ARM-based Cloud Servers de meest innovatieve ICT-oplossingen die ook nog eens direct besparingen opleveren. In deze paper gaan wij in op het ontstaan en de ontwikkelingen rond de Cloud, explosieve data groei en de antwoorden die ARM based servers geven op de behoefte aan computing power en storage capaciteit tegen lagere kosten in aanschaf en rackspace, minder onderhoud, halvering van de energiekosten en reductie van de benodigde koelingscapaciteit
Q4 2014 ver. 1.2
3
Compatibles2 Cloud Servers
Section
2
“De Cloud, toekomstig slachtoffer van disruptieve innovatie?” Jazeker, maar het grappige is dat Cloud Computing wel eens de computer technologie zou kunnen zijn die straks gewoon weer naar uw eigen IT-afdeling, datacenter of zo u wilt in de bezemkast terugkomt. Het is al een tijdje aan de gang….. veranderingen in opvattingen over Cloud en Cloud Technologie. Na een heel voorzichtige start van het eerder Foggy dan Cloudy fenomeen, leek het er even op dat alle bedrijfsmatige ICT activiteiten definitief buiten de deur, in de Cloud geplaats moesten worden. Wat die Cloud nu precies was of deed, leek er niet zo veel toe te doen, als ICT maar geen zorg meer zou zijn van de eigen organisatie. Een utopie uiteraard, en de Cloud had daarmee in eerste instantie meer weg van een Hype dan een structurele IT(r)evolutie. Maar hypes verdwijnen vaak nog sneller dan ze opkomen. Veel organisaties voelden er niets voor om van alles te veranderen, en wellicht was er eenvoudigweg ook geen budget voor, de business case ontbrak in veel gevallen. Anderen besloten een aantal activiteiten op basis van de Cloud in te richten (veelal een hybride-variant). Keuzes ingegeven door kostenoverwegingen, maar ook door een duidelijke behoefte aan schaalbare oplossingen. Want in een snel veranderende maatschappij is het onvoorspelbaar wat de korte termijn bedrijfsomvang en ICT-behoefte zal zijn. Bovendien speelden - naast de crisis lastige zaken zoals de privacy wetgeving en de (inter)nationale wetgeving m.b.t. dataopslag en informatie- beveiliging een belangrijke rol in de vlakke acceptatie curve. De Cloud, is inmiddels het stadium hype wel voorbij: So Far So Good!
De Cloud IS een disruptive technology! De Cloud is op zich al een zogenaamde disruptive innovation. Wat is dat? Een uitvinding, een nieuwe productie mogelijkheid, een technologische doorbraak, die een hele bedrijfstak op z’n kop zet. Een voorbeeld: Stel, je maakt al jaren z/w laserprinters. Vooral de tonerverkoop in poedervorm blijkt het zwarte goud te zijn. Op een dag komt een slimme jongen van de R&D afdeling langs. Hij heeft een raar plastic printertje onder z’n arm en zegt: “Ik kan met dit kastje heel nauwkeurig inktkleuren op papier spuiten tegen een fractie van de kosten van zo’n toner cartridge”. Als fabrikant denk je dan in eerste instantie mooi, maar wie zit er nou op kleurenprints te wachten? En ehh, dat is behoorlijk disruptief voor e mijn bestaande toner/printer business! Dus zou een 1 impulsieve reactie kunnen zijn, de beste jongen met inkjetprinter en al op straat te zetten…. Maar innovatie gaat zijn weg, want mensen hebben toegang tot en delen kennis, bij jou of bij een ander. In dit printer verhaal is de ontwikkeling gelukkig doorgezet. Er is een extra, nog veel grotere markt voor kleurenprints onstaan. En als spin-off de uitvinding van de kleurenlaser printer. Maar een ander gevolg is dat de traditionele drukker en analoge fotografie bijna van de aardbodem verdwenen zijn. Disruptive innovation zorgt soms niet alleen meer in een bepaalde industrie voor opschudding, maar voor totale verandering in de samenleving. De Cloud en haar technologie is hier een voorbeeld van. Een innovatie die alles op z’n kop zet en waar iedereeen mee te maken heeft of krijgt.
Q4 2014 ver. 1.2
4
Compatibles2 Cloud Servers
Section
2 Sommigen spreken zelfs over de Nieuwe Renaissance (letterlijk: wedergeboorte) als gevolg van de toegankelijkheid tot informatie en de technologische innovaties die momenteel plaatsvinden. Maar….. het is natuurlijk ook zo’n buzz woord waarmee marketing guru’s al te graag goede sier maken en er niet voor terugdeinzen om het label “disruptieve innovatie” vaak ten onrechte aan hun bedrijfsinitiatieven te hangen.
Hoe kwam het zover? Grote veranderingen, het start vaak met een simpel idee. Bijvoorbeeld dat het slim zou zijn dat je telefoon in plaats van cijferknoppen een mooi scherm zou hebben. Een kleurendisplay met vrolijke knoppen, die door ze aan te raken dingen gaan doen (iPhone, de eerste SmartPhone). En wat te denken van de 3D printer die spare-parts of hele producten ter plekke uit kan printen, waardoor de gehele transportsector zal veranderen? Of dat het handig zou zijn, als je software ergens centraal “in de Cloud” neerzet en gebruikers op afstand toegang geeft. Zodat je de programmatuur niet telkens op PC’s, tablets en mobieltjes hoeft te installeren. Toen die Cloud er was moest er nog een stapje verder gegaan worden. Want al die programma’s moesten weer gegevens met elkaar gaan delen en samenwerken. De application programing interface (API) zorgde voor de (noodzakelijke) doorbraak om software met elkaar te laten “praten”. De overal beschikbare high speed datacommunicatie, de koppeling van alles en iedereen, is de globale (r)evolutie van “De Cloud”. Waar inmiddels ook iedereen gebruik van maakt, soms zonder het te beseffen.
En waar gaat dat naartoe? Maar we zijn er nog niet. De next en grootste wave komt er nog aan: de Smart houses, cars, watches: “de Smart Everythings”… Apparatuur, sensoren en implantaten, die zullen meten om te weten en communiceren om te delen. Die 7*24 uur informatie gaan verzamelen om je van dienst te zijn (gezondheid, file informatie reminders, energiebesparing etc,) en te stalken met de “best passende” aanbiedingen, informatie op basis van je gedrag, lokatie, medicijnen (voordat je ziek bent) noem het maar op… Het is niet eens te bedenken waar het naartoe zal gaan. Interessante en tegelijkertijd beangstigende innovaties. Fantastische dingen kunnen bereikt worden op het gebied van preventieve gezondheidszorg. Er zal op grote schaal data beschikbaar komen zoals hartslag, bloeddruk etc., fantastisch voor zorg en wetenschap. Maar tegelijkertijd zullen beveiligingslekken en inbreuk op privé-levens enorme issues veroorzaken. Toestanden die de recente iCloud naaktfoto’s hack doen verbleken. Want smart sensoren en Internet connected apparatuur zijn vaak helemaal niet ontworpen vanuit security of privacy oogpunt, maar juist puur op gebruiksmogelijkheden. Bovendien zijn de meeste gebruikers geen expert op het gebied dus ook niet in staat de privacy en security gevaren te herkennen en te voorkomen. Waarmee uw nieuwe Cloud-koelkast wel eens ongewenst de backdoor zou kunnen vormen naar uw thuisnetwerk en gevoelige privé-informatie. Gevolgen van technologie die zo dicht op het persoonlijke leven en de privacy van het individu staan, zullen zeker grote invloed hebben op de publieke opinie hierover.
Q4 2014 ver. 1.2
5
Compatibles2 Cloud Servers
Section
2 Persoonlijke en globale impact zijn de factoren die er voor kunnen zorgen dat een disruptieve technologie, disruptief voor zichzelf kan gaan worden. Omdat de mens een streep kan trekken tot waar, en niet verder, de informatieuitwisseling mag gaan. “The Rise and Fall of The Cloud, in een notedop?”, de geschiedenis zal het leren. En mogelijk komt het niet zover. Een industrietak of liever gezegd een aantal gecombineerde industrietakken, zullen de bedreigingen, naar mijn verwachting (en hoop), tijdig onderkennen en zichzelf beperkingen op gaan leggen om de publieke opinie niet teveel tegen zich te krijgen. Daarnaast zullen (friendly) Hackers de maatschappij blijven informeren over de kwetsbaarheden, lekken en privacy-schendingen die het (onhandig) gebruik van bepaalde technologie met zich mee kan brengen.
Cloud Technologie Tot zover het fenomeen De Cloud, en over naar wat het ons gebracht heeft: Cloud Technologie. En dat is eigenlijk heel goed nieuws. Want door de eisen die grote organisaties, overheden en aanbieders van diensten aan De Cloud stelden, is er in korte tijd heel veel gedaan aan innovatie. Omdat ICT opeens een vorm van “dienstverlening door derden” was geworden, was er veel aan gelegen om aan het hoge verwachtingpatroon van de afnemers te kunnen voldoen. En met grote concurrentie in een overvolle markt, was er noodzakelijke aandacht voor: zuiniger, goedkoper, compacter, efficienter en vul de kenmerken maar in om de concurrent op prijs en/of kwaliteit te verslaan. En er is heel veel operationele ervaring opgedaan met live systemen. Ervaringen die terug te vinden zal zijn in de nieuwste oplossingen op basis van Cloud Technologie die binnen organisaties inzetbaar zijn, “The bare-metal Cloud”.
The Bare-Metal Cloud "The next generation of cloud computing could actually be found in a cloud format that has already been around for a while. The bare-metal cloud brings all of the advantages that have become synonymous with the cloud but minus one element — there is no virtualization". Een interessante en realistische gedachte in de wetenschap dat met de komst van IoT (Internet of Things) de behoefte aan extreem veel dataopslag zal ontstaan en snellere toegang dan "via Internet” (voor analyse) noodzakelijk is. En waarbij bovendien de informatie en data security veel beter gegarandeerd moet gaan worden dan Cloud providers "op-afstand" tot nu toe waar konden maken. Zo zie je maar weer hoe trends in de IT een andere wending kunnen nemen en we eigenlijk onverwacht ook naast toename van Cloud oplossingen tegelijkertijd ook afstevenen op een toename van In-house ICT. Maar dit keer gebruik makend van geleerde lessen en mogelijkheden van Cloud Technologie.
Q4 2014 ver. 1.2
6
Compatibles2 Cloud Servers
Section
2 We kennen allemaal wel de Wet van Gordon E. Moore die ons leert dat het vermogen van computerprocessoren elke twee jaar zal verdubbelen, een wetmatigheid die nog steeds opgaat. Maar inmiddels is de groei van processorcapaciteit al lang niet meer de enige maatgevende factor om de explosieve groei aan data in wereldwijde netwerken te kunnen bijbenen. Er is nu immers sprake van de Big Data revolutie. Het is een veel breder spectrum geworden, waar de benodigde groei ook plaats zal moeten vinden via verhoging van de storage-capaciteit en de netwerkdoorvoersnelheid, en tegelijkertijd drastische reductie van het energieverbruik. Wij voorzien dat goedkope non-Intel powered systemen uitgerust met Open Source software, hier een belangrijke rol in zullen gaan spelen. Door het ongelooflijke verkoopsucces van SmartPhones en Tablets draaien heel veel nonIntel systemen op een Linux basis (vooral Android). Met als gevolg dat er ook veel expertise op bijvoorbeeld ARM systemen aanwezig is, met de focus op energie efficiency en zo klein en licht mogelijke componenten. Voeg hierbij de snelle productontwikkelingen (we kennen inmiddels al 8-core CPU’s voor mobiel gebruik) en de lage CPU-kosten door de enorme afzet in de mobiele wereld, en het is al snel duidelijk dat de concurrentie voor de dominante Intel multicore server processors uit de hoek van ARM en PowerPC zal gaan komen, en snel ook. Veel Smartphone mogelijkheden komen voort uit het gebruik van een System on a Chip – een geïntegreerd systeem op een enkele chip, een SOC. Gebruik maken van de mogelijkheden van SOC’s voor serverdoeleinden vormt één van de basisprincipes van een ware revolutie op servergebied. Het gebruikmaken van een CPU per Storage module en die microserver/storage combinaties 1:1 met elkaar koppelen via snelle netwerktechnologie is dé servertechniek in opkomst, die geen gebruik meer maakt van virtualisatie technieken. Niet in de laatste plaats omdat virtualisatie voor veel toepassingen helemaal niet nodig of gewenst is, maar eerder een kunstje om te dure processorkracht beter te benutten door de workload te verdelen. De kosten van hard-en software zullen aanmerkelijk lager worden, de “don’t fix it if its broken” principes van oneindig schaalbare micro-servers zullen de onderhoudskosten minimaliseren en de elektriciteitsrekening halveren t.o.v. traditionele servers. Waarmee Cloud Technologie (ook zelfs voor het MKB) een zeer aantrekkelijk alternatief gaat worden voor bijvoorbeeld opslag en data analyse.
De architectuur van de toekomst Om oplossingen te vinden voor de Big Data uitdagingen van nu en in de toekomst, zoeken hardware leveranciers zoals HP en IBM het in een architectuur met uitgangspunten die als volgt samen te vatten zijn: 1) System On a Chip, de vervanging van universele processoren door gespecialiseerde cores die met geheugen en netwerktechnologie in één chip geïntegreerd worden 2) Memristors, nieuwe vormen van permanent geheugen, waarbij de huidige beperkingen van de verschillende lagen direct toegankelijk geheugen, systeem
Q4 2014 ver. 1.2
7
Compatibles2 Cloud Servers
Section
2 geheugen en opslag overwonnen worden door ultrasnel geheugen waarbij geen elektriciteit nodig is om de data te (onder)houden. 3) Photonics, gebruik van “glasvezelverbindingen” bij interne dataverbindingen tussen servercomponenten 4) New OS, besturingssoftware die optimaal gebruik maakt van bovenstaande nieuwe componenten en dus ook over heel andere eigenschappen moet beschikken in vergelijking tot de huidige besturingssystemen met conventionele architectuur en bovendien toegang tot veel grotere datasets dan de huidige moet ondersteunen.
De architectuur van de toekomst NU Dat is allemaal mooi, maar vooral toekomstmuziek, die pas (als het meezit) in de komende 5 jaar beschikbaar komt. Big Data, energieverbuik, ruimtegebrek, schaalbaarheid en kostenvraagstukken zijn echter allen een NU-probleem. Dus is het raadzaam om met nu beschikbare technologie dezelfde principes alvast toe te gaan passen. In voorbereiding op datgene wat met de komst van nieuwe technolgische vindingen in een vergelijkbare architectuur mogelijk zal worden. Niet alleen worden op deze wijze hedendaagse Big Data problemen direct aangepakt, het biedt ook de mogelijkheid nu al ervaring op te doen en te profiteren van lineaire en ongelimiteerde schaalbaarheid, tegen lagere aanschaf en energiekosten almede een lagere TCO dan investeringen in traditionele technologie. De momenteel verkrijgbare Cy7 (en zeer binnenkort de Cy21-SSD only) serversysteem maakt bijvoorbeeld nu al gebruik van de volgende technieken: 1) ARM System On a Chip, de vervanging van universele processoren door gespecialiseerde SOC’s waarbij CPU, geheugen en netwerktechnologie in één micro server board geïntegreerd worden. 2) In plaats van Memristors, gebruik maken van de laatste vorm van permanent geheugen: SSD 3) In plaats van Photonics, het gebruik maken van chassis integrated “Ethernet fabric switches on board” voor de interne dataverbindingen tussen servercomponenten, geen interne bekabeling! 4) OS, bestaande standaard(!) Linux besturingssoftware die optimaal gebruik maakt van bovenstaande nieuwe componenten en in vergelijking tot de huidige besturingssystemen met conventionele architectuur toegang tot veel grotere datasets weet te bieden, Gluster Ceph, Hadoop etc. . Op basis van de genoemde 4 elementen is het momenteel al mogelijk om met Cy7 systemen PER SERVER RACK een capaciteit te realiseren van: 76 chassis = 532 micro servers 456 HDD’s and 76 SSD’s: 1844 TB *) 4 x 48-ports Giga bps switch with 2 x 10G bps internet up link Maximum 7.04K Watts power consumption at full load 220V AC, 16A max per zijde Gebruik Standard server rack 60 cm x 120 cm *) 1844 TB Hoeveel data is dat ook alweer? Zie de “What Is?” Section 1 in de Appendix
Q4 2014 ver. 1.2
8
Compatibles2 Cloud Servers
Section
3
Solution Overview Het concept van de de Cy7 ARM Server is vergelijkbaar met dat van Hadoop. Het is een 1U hoog chassis met daarin 7 micro servers (CyOne modules). Iedere CyOne module werkt als onafhankelijke en volledige server met 1 GHz ARM v7 CPU, DRAM, NAND flash, 2 Giga LAN and SATA 2.0 interface. Uiteraard heeft iedere CyOne een eigen IP-adres. Per CyOne micro server is 1 storage device zoals een harddisk of een SSD verbonden. De storage capaciteit en de performance is te verhogen door eenvoudigweg meer CyOne’s toe te voegen. De architectuur van het storage systeem is zo ontworpen dat je zoveel Cy7 servers via Ethernet LAN met elkaar kunt verbinden als maar wenselijk is. Er zitten 2 Gigabit Ethernet switches op de server backplane om alle CyOne microservers met elkaar te verbinden en van 2 Gigabit up-links te voorzien. Door Cy7s chassis’s met externe switches onderling te koppelen vorm je het totale cloud storage cluster. De storage capaciteit en computing power is lineair evenredig aan het aantal CyOne’s en Disks in het systeem. De CyOne micro server draait op Linux zodat het eenvoudig is om bestaande Open Source Cloud Software zoals Gluster FS, Ceph, Hadoop of OpenStack te draaien. Maar er is ook support voor Ubuntu, Debian, Red Hat file systems. De redundantie van data en servers is software defined. Alle taken vinden plaats via verdeling over de clusternodes. En dat is dan ook de reden waarom er in deze Cloud Server geen Single Points of Failure (SPOF) aanwezig zijn. Zelfs al valt er een node uit, zal dit geen invloed hebben op de gezondheid van de Server Cloud en weinig invloed op de performance. Direct repareren van een node of disk is dan ook niet nodig. Herstel kan men uitstellen tot een tijdstip van scheduled onderhoud, zodat de onderhoudskosten flink naar beneden gaan.
Q4 2014 ver. 1.2
9
Compatibles2 Cloud Servers
Section
4
Conclusions De (r)evolutie naar een op Cloud Technologie en Big Data gebaseerde ITomgeving biedt ongekende mogelijkheden en tevens vele uitdagingen, van o.a. technologische, maatschappelijke en economische aard. ARM Micro Servers gemodelleerd naar de systeem architectuur van de toekomst, bieden een logisch en aantrekkelijk alternatief voor de tot op heden door Xeon processors en Virtualisatie techniek gedomineerde server markt. ARM based Micro Servers bieden een uitstekende mogelijkheid om op kosteneffectieve wijze invulling te geven aan een groot aantal actuele problemen en behoeften waarin servers en data centers nu en in de toekomst oplossingen voor moeten gaan bieden:
Extreme Reductie Stroomverbruik: < 50% t.o.v. Intel Server Ongelimiteerde Schaalbaarheid: van 1e tot oneindig Computerkracht neemt lineair toe met de storage capaciteit Geen SPOF’s (Single Point of Failure) Geen urgent en ongepland onderhoud noodzakelijk Voorkomen van virtualisatie overhead Besparing op TCO door: o o o o
Lagere stroomrekening Minder floor en rackspace Lagere kosten hardware Minder storingen en minder downtime
Typische toepassingen voor ARM based Micro Server zijn:
Exabyte scale object en block Cloud Storage op basis van GlusterFS, Ceph of een ander clustered network filesystem
AWS S3 Compatible Object Store met REST interface
Big Data Analyse met Hadoop
Parallel Computing voor wetenschappelijk onderzoek
Web Serving voor gedistribueerde Cloud omgevingen
In de appendix 1 t/m 5 worden de minder bekende termen uit deze white paper nader uiteengezet. Deels in het Nederlands maar grotendeels in de Engelse taal, omdat de compacte en heldere uitleg, rechtstreeks afkomstig van de websites ven de betreffende organisaties of gelieerde sites, het beste de hoofdpunten van de technologie weergeeft.
Q4 2014 ver. 1.2
10
Compatibles2 Cloud Servers
Appendices APPENDIX 1 The “What Is?” Section, 1844 TB Storage, hoeveel is dat? (NL) Processor or Virtual Storage
Disk Storage
· · · · · · · · · · · ·
· · · · · · · · · · · ·
1 Bit = Binary Digit 8 Bits = 1 Byte 1024 Bytes = 1 Kilobyte 1024 Kilobytes = 1 Megabyte 1024 Megabytes = 1 Gigabyte 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte 1024 Exabytes = 1 Zettabyte 1024 Zettabytes = 1 Yottabyte 1024 Yottabytes = 1 Brontobyte 1024 Brontobytes = 1 Geopbyte
1 Bit = Binary Digit 8 Bits = 1 Byte 1000 Bytes = 1 Kilobyte 1000 Kilobytes = 1 Megabyte 1000 Megabytes = 1 Gigabyte 1000 Gigabytes = 1 Terabyte 1000 Terabytes = 1 Petabyte 1000 Petabytes = 1 Exabyte 1000 Exabytes = 1 Zettabyte 1000 Zettabytes = 1 Yottabyte 1000 Yottabytes = 1 Brontobyte 1000 Brontobytes = 1 Geopbyte
Bijna 2 Petabyte! Maar hoeveel data is dat? Een Terabyte is ongeveer 1,000 Gigabytes. Het is nog niet zo heel lang geleden dat het ondenkbaar was dat er ooit 1 Terabyte mechanische harddisks te koop zouden zijn, maar momenteel is een capaciteit van 4 tot 8 TB drives heel gewoon om thuis in je PC te hebben en een 1 TB SSD gewoon verkrijgbaar. 1 TB is ruwweg de opslagcapaciteit van 300 uur video, 1000 volledige Encyclopedien of 3,6 miljoen medium resolutie foto’s. Een Petabyte is ongeveer 1,000 Terabytes (!) en daarmee al een vrijwel niet voor te stellen hoeveelheid data. 1 Petabyte zou de informatie kunnen bevatten van 20 miljoen 4-ladige archiefkasten vol met tekst of anders gezegd 500 miljard volgeschreven blaadjes tekst.
Q4 2014 ver. 1.2
11
Compatibles2 Cloud Servers
Appendices APPENDIX 2 The “What Is?” Section, GlusterFS, wat is dat? (UK) GlusterFS is a distributed file system defined to be used in user space, i.e. File System in User Space (FUSE). It is a software based file system which accounts to its own flexibility feature. Look at the following figure which schematically represents the position of GlusterFS in a hierarchical model. By default TCP protocol will be used by GlusterFS.
GlusterFS Design Advantages to GlusterFS
Innovation – It eliminates the metadata and can dramatically improve the performance which will help us to unify data and objects. Elasticity – Adapted to growth and reduction of size of the data. Scale Linearly – It has availability to petabytes and beyond. Simplicity – It is easy to manage and independent from kernel while running in user space. What makes Gluster outstanding among other distributed file systems?
Q4 2014 ver. 1.2
Salable – Absence of a metadata server provides a faster file system. Affordable – It deploys on commodity hardware. Flexible – As I said earlier, GlusterFS is a software only file system. Here data is stored on native file systems like ext4, xfs etc. Open Source – Currently GlusterFS is maintained by Red Hat Inc, a billion dollar open source company, as part of Red Hat Storage.
12
Compatibles2 Cloud Servers
Appendices APPENDIX 2 The “What Is?” Section, GlusterFS, wat is dat? (1) Storage concepts in GlusterFS
Q4 2014 ver. 1.2
Brick – Brick is basically any directory that is meant to be shared among the trusted storage pool. Trusted Storage Pool – is a collection of these shared files/directories, which are based on the designed protocol. Block Storage – They are devices through which the data is being moved across systems in the form of blocks. Cluster – In Red Hat Storage, both cluster and trusted storage pool convey the same meaning of collaboration of storage servers based on a defined protocol. Distributed File System – A file system in which data is spread over different nodes where users can access the file without knowing the actual location of the file. User doesn’t experience the feel of remote access. FUSE – It is a loadable kernel module which allows users to create file systems above kernel without involving any of the kernel code. glusterd – glusterd is the GlusterFS management daemon which is the backbone of file system which will be running throughout the whole time whenever the servers are in active state. POSIX – Portable Operating System Interface (POSIX) is the family of standards defined by the IEEE as a solution to the compatibility between Unix-variants in the form of an Application Programmable Interface (API). RAID – Redundant Array of Independent Disks (RAID) is a technology that gives increased storage reliability through redundancy. Subvolume – A brick after being processed by least at one translator. Translator – A translator is that piece of code which performs the basic actions initiated by the user from the mount point. It connects one or more sub volumes. Volume – A volumes is a logical collection of bricks. All the operations are based on the different types of volumes created by the user.
13
Compatibles2 Cloud Servers
Appendices APPENDIX 2 The â&#x20AC;&#x153;What Is?â&#x20AC;? Section, GlusterFS, wat is dat? (2) Different Types of Volumes
Representations of different types of volumes and combinations among these basic volume types are also allowed as shown below.
Q4 2014 ver. 1.2
14
Compatibles2 Cloud Servers
Appendices APPENDIX 3 The â&#x20AC;&#x153;What Is?â&#x20AC;? Section, Ceph, wat is dat? (UK) Ceph is a free software storage platform designed to present object, block, and file storage from a single distributed computer cluster. Ceph's main goals are to be completely distributed without a single point of failure, scalable to the exabyte level, and freely-available. The data is replicated, making it fault tolerant, using an algorithm called CRUSH (Controlled Replication Under Scalable Hashing) to ensure that data is evenly distributed across the cluster.
Ceph software runs on commodity hardware. The system is designed to be both self-healing and self-managing and strives to reduce both administrator and budget overhead. OSDs OSD stands for Object Storage Device, and can be considered as a physical disk. An OSD is actually a directory (eg./var/lib/ceph/osd-1) that Ceph makes use of, residing on a regular filesystem, though it should be assumed to be opaque for the purposes of using it with Ceph. A feature of Ceph is that it can tolerate the loss of OSDs. This means you can theoretically achieve fantastic utilisation of storage devices by obviating the need for RAID on every single device.
Q4 2014 ver. 1.2
15
Compatibles2 Cloud Servers
Appendices APPENDIX 3 The “What Is?” Section, Ceph, wat is dat? (1) Placement Groups Also referred to as PGs, help ensure performance and scalability, as tracking metadata for each individual object would be too costly. A PG collects objects from the next layer up and manages them as a collection. It represents a mostlystatic mapping to one or more underlying OSDs. Replication is done at the PG layer: the degree of replication (number of copies) is asserted higher, up at the Pool level, and all PGs in a pool will replicate stored objects into multiple OSDs. Pools A pool is the layer at which most user-interaction takes place. This is the important stuff like GET, PUT, DELETE actions for objects in a pool. Pools contain a number of PGs, not shared with other pools (if you have multiple pools). The number of PGs in a pool is defined when the pool is first created, and can’t be changed later. You can think of PGs as providing a hash mapping for objects into OSDs, to ensure that the OSDs are filled evenly when adding objects to the pool. CRUSH maps CRUSH mappings are specified on a per-pool basis, and serve to skew the distribution of objects into OSDs according to administrator-defined policy. This is important for ensuring that replicas don’t end up on the same disk/host/rack/etc, which would break the entire point of having replicant copies. A CRUSH map is written by hand, then compiled and passed to the cluster. So……:
Many objects will map to one PG Each object maps to exactly one PG One PG maps to a list of OSDs. The first one in the list is the primary and the rest are replicas Many PGs can map to one OSD
A PG represents nothing but a grouping of objects; you configure the number of PGs you want, and all of your stored objects are evenly distributed to the PGs. So a PG explicitly does NOT represent a fixed amount of storage; it represents 1/pg_num ‘th of the storage you happen to have on your OSDs. Ceph services What the lower layers ultimately provide is a RADOS cluster: Reliable Autonomic Distributed Object Store. At a practical level this translates to storing opaque blobs of data (objects) in high performance shared storage. Because RADOS is fairly generic, it’s ideal for building more complex systems on top. One of these is RBD.
Q4 2014 ver. 1.2
16
Compatibles2 Cloud Servers
Appendices APPENDIX 3 The “What Is?” Section, Ceph, wat is dat? (2) RBD As the name suggests, a RADOS Block Device (RBD) is a block device stored in RADOS. RBD offers useful features on top of raw RADOS objects. From the official docs: RBDs are striped over multiple PGs for performance
RBDs are resizable
Thin provisioning means on-disk space isn’t used until actually required
RBD also takes advantage of RADOS capabilities such as snapshotting and cloning CephFS CephFS is a POSIX-compliant clustered filesystem implemented on top of RADOS. This is very elegant because the lower layer features of the stack provide really awesome filesystem features (such as snapshotting), while the CephFS layer just needs to translate that into a usable filesystem. CephFS isn’t considered ready for prime-time just yet, but RADOS and RBD are.
Q4 2014 ver. 1.2
17
Compatibles2 Cloud Servers
Appendices APPENDIX 4 The “What Is?” Section, Apache Hadoop wat is dat? (UK) The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures. The project includes these modules:
Q4 2014 ver. 1.2
Hadoop Common: The common utilities that support the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A distributed file system that provides highthroughput access to application data.
Hadoop YARN: A framework for job scheduling and cluster resource management.
Hadoop MapReduce: A YARNbased system for parallel processing of large data sets.
18
Compatibles2 Cloud Servers
Appendices APPENDIX 5 The “What Is?” Section, OpenStack wat is dat? (UK) OpenStack is a free and open-source software cloud computing software platform. It can be described best as being a massively scalable cloud operating system. Users primarily deploy it as an infrastructure as a service (IaaS) solution. The technology consists of a series of interrelated projects that control pools of processing, storage, and networking resources throughout a data center—which users manage through a web-based dashboard, command-line tools, or a RESTful API. OpenStack.org release it under the terms of the Apache License. OpenStack began in 2010 as a joint project of Rackspace Hosting and NASA. Currently, it is managed by the OpenStack Foundation, a non-profit corporate entity established in September 2012 to promote OpenStack software and its community. More than 200 companies have joined the project, including Arista Networks, AT&T, AMD, Avaya, Canonical, Cisco, Dell, EMC, Ericsson, Go Daddy, Hewlett-Packard, IBM, Intel, Mellanox, Mirantis, NEC, NetApp, Nexenta, Oracle, Red Hat, SUSE Linux, VMware and Yahoo!
OpenStack is a global collaboration of developers and cloud computing technologists producing the ubiquitous open source cloud computing platform for public and private clouds. The project aims to deliver solutions for all types of clouds by being simple to implement, massively scalable, and feature rich. The technology consists of a series of interrelated projects delivering various components for a cloud infrastructure solution. Who uses OpenStack? Corporations, service providers, VARS, SMBs, researchers, and global data centers looking to deploy large-scale cloud deployments for private or public clouds leveraging the support and resulting technology of a global open source community. Why open matters: All of the code for OpenStack is freely available under the Apache 2.0 license. Anyone can run it, build on it, or submit changes back to the project. We strongly believe that an open development model is the only way to foster badly-needed cloud standards, remove the fear of proprietary lock-in for cloud customers, and create a large ecosystem that spans cloud providers.
Q4 2014 ver. 1.2
19
Compatibles2 Cloud Servers