Issue link: http://hub-fr.insight.com/i/532038
16 commandes Hadoop fonctionnent directement sur les blobs Azure. D'autre part, quand vous supprimez votre cluster HDInsight, les données demeurent. Le service est disponible dans les zones géogra- phiques Europe, Etats-Unis et Asie. Une création simple et rapide Pour créer un cluster HDInsight, c'est très simple : > Dans le portail Azure, on crée un nouveau service HDInsight. > On renseigne le nom, la taille du cluster (jusqu'à 40 nœuds, dans le cas d'une créa- tion personnalisée), le compte de stockage (qu'il faut créer préalablement). Vous pouvez utiliser des scripts PowerShell pour gérer votre cluster HDInsight. C'est tout ! Azure s'occupe du reste. En quel- ques minutes, votre cluster Hadoop est activé et disponible. La connexion au cluster est possible en remote desktop. La particularité de HDInsight est d'être administré par Power- Shell (Powershell for HDInsight). Les fonctions hive et pig sont nativement supportées. Autre outil disponible, HDInsight Emulator for Azure. Il procure un environnement de déve- loppement local pour HDInsight. Pour être utilisable, vous devez disposer d'un Windows / Windows Server 64 bits (et installer Power- Shell for HDInsight). HDInsight + Business Intelligence Mais les données stockées dans votre cluster n'ont un intérêt que si elles sont exploitées, manipulées et traitées. HDInsight permet de connecter les outils de BI à votre "Big Data". L'add-in Power Query pour Excel permet de récupérer les exports de données provenant de HDInsight. Mais HDInsight s'ouvre aussi à SQL Server, Power BI pour Office 365. ■ U ne étude biMA souligne que 42 % des entreprises françaises interrogées voient dans le Big Data un moyen d'améliorer les processus de planification et de prévisions. Et 34 % pensent que cela les aiderait à mieux connaître et maîtriser leur business. Cepen- dant, seules 7 % des entreprises européennes estiment que l'analyse Big Data serait impor- tante pour leur activité. Hadoop intégré à Azure Azure possède sa "distribution" Hadoop : HDIn- sight. L'idée est de proposer en mode Cloud un service Hadoop complet. HDInsight s'ar- ticule autour de trois idées : > Une architecture par cluster : c'est la base même d'Hadoop. > La possibilité de stocker en dehors du cluster, dans le service de stockage Azure, pour une meilleure souplesse et permettre de tirer parti de l'élasticité naturelle offerte par le Cloud. > Comment exploiter les données et les traiter : connectivité et export vers des outils familiers tels que Excel, Power BI, Office 365. Typiquement, un cluster HDInsight se compose de deux éléments : un nœud principal (instance de très grande taille) et des nœuds de calculs. Une des forces de ce framework est le système de fichiers distribués : HDFS qui est à la fois une interface au sens API du terme, et une implémentation de cette interface. Dans HDIn- sight, nous avons deux implémentations du système de fichiers : HDFS et WASB (Azure Storage Blob). HDFS permet un stockage sur les nœuds du cluster. WASB permet d'accéder en lecture/écriture aux blobs Azure via l'in- terface HDFS. Ainsi, le stockage des données déposées sur le système de fichiers distri- bués par défaut passe par Azure, apportant trois avantages : une tarification attractive, une montée en charge forte, la sécurité. Les Bien que l'on évoque beaucoup le Big Data, les entreprises sont- elles prêtes à l'utiliser ? ✔ Tarification, support et SLA HDInsight est disponible en paiement à la demande ou sur des plans de 6 à 12 mois. Head Node (instance A4) : 0,48 € / heure Compute Node (instance A3) : 0,24 € / heure Secure Gateway (instance A2) : gratuit A cela se rajoute le coût du stockage et des transferts de données. Le SLA du service est de 99,9 % mensuel. Un support technique est disponible auprès de Microsoft (à partir de 21,60 € / mois). CAS CLIENT Gérer les données de 40 millions de joueurs sur Facebook et mobiles Adictiz, éditeur de jeux sociaux et mobiles, s'ap- puie sur HDInsight pour traiter le volume de don- nées des joueurs. Adictiz collecte et traite les données sur les comportements des joueurs. L'éditeur a démarré en 2009 avec "Paf le Chien". Aujourd'hui Adictiz revendique 40 millions de joueurs sur Facebook et mobiles. HDInsight a été choisi pour sa maturité, les services et la réac- tivité des équipes techniques. Le projet a duré 3 mois pour déployer le cluster et intégrer le Big Data dans les jeux. Pour cela, il a fallu insérer des tags. Ces tags sont collectés, corrélés et croi- sés. Pour utiliser ces données, l'éditeur a défini une centaine de métriques servant aux data ana- lysts de l'éditeur. HDInsight et Azure permettent une grande souplesse dans le stockage et la réac- tivité nécessaire pour récolter les données en temps réel. ■ HDInsight : quand Hadoop s'invite sur Azure Big Data