Cloudera (Spark et Cloudera Data Science Workbench)

Avec Doneyli De Jesus et Vincent Fortier, conseillers techniques

À l’aide des outils de la plateforme Cloudera, nous allons utiliser Spark pour intégrer des données de deux sources différentes et Impala pour faire des requêtes SQL sur les données extraites. Enfin, nous allons bâtir un modèle en Python en utilisant Cloudera Data Science Workbench.

Problématique :
L’exercice auquel seront soumis les participants consistera ultimement à trouver, à l’aide des outils présentés, la corrélation entre le produit intérieur brut et les taux de mortalité pour les 50 états américains, en utilisant les données publiques.

Réservé aux participants inscrits à la journée de Datavore du 20 mars 2018
Sur inscription seulement

Places limitées (premier arrivé, premier servi)

Je veux y participer