LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos

DeLes Cast Codeurs Podcast

Commencer à écouter Voir l'émission du podcast

LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos

DeLes Cast Codeurs Podcast

évaluations:

Longueur:

72 minutes

Sortie:

22 déc. 2014

Format:

Épisode de podcast

Description

Dans cet épisose, on discute avec Sam Bessalah de ce “nouveau” métier qu’est le data scientist. On explore aussi l’univers Apache Hadoop et l’univers Apache Mesos. Ces endroits sont pleins de projets aux noms bizarres, cette interview permet de s’y retrouver un peu dans cette mythologie.
Enregistré le 16 decembre 2014
Téléchargement de l’épisode LesCastCodeurs-Episode–115.mp3
Interview
Ta vie, ton oeuvre
@samklr Ses présentations, encore ici et là
Data scientist
Kesako ?! C’est nouveau ? On a toujours eu des données pourtant dans nos S.I. ?! Le job le plus sexy du 21eme siecle ? Drew conway’s Data Science Venn diagram
Traiter les données, les plateformes
MapR, Hadoop, … C’est Quoi ? C’est nouveau ? Ca vient d’où ? Comment ça marche ? A quoi ça sert ?
Ca s’intègre à tout ? Et nos sources de données legacy (Mon bon vieux mainframe et son EBCDIC) ?
Où sont passés mes EAI, ETL, et autres outils d’intégration B2C/B2B ?
EAI ETL EBCDIC BI (Business Intelligence)
Hadoop
MapReduce Doug Cutting Apache Lucene - moteur de recherche full-text
Apache Hadoop - platforme de process distribués et scalables HDFS - système de fichier distribué Apache Hive - datawarehouse au dessus d’Hadoop offrant du SQL-like Terradata Impala - database analytique (“real time”) SQL queries etc Apache Tez - directed-acyclic-graph of tasks Apache Shark remplacé par Spark SQL Apache Spark - Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing Apache Storm - process de flux de données de manière scalable et distribuée
Data Flow Machine Learning - apprendre de la donnée
Graph Lab
Et l’infrastructure dans tout ça ?
De nos bons vieux serveurs qui remplissent les salles machines au cloud (IAAS, PAAS), en passant par la virtualisation (), les conteneurs (XLC, Docker, …) …. Des ressources à gogo c’est bien mais comment les gérer ?
YARN
Apache Mesos
Apache Mesos Comment démarrer Mesos Tutoriaux Data Center OS de Mesosphere Presentation de Same à Devoxx sur Mesos Mesos et les container docker Cluster Management and Containerization by Benjamin Hindman Integration continue avec Mesos par EBays
Docker
Docker Démarrer un cluster Spark avec Docker Shell Spark dans Docker Docker et Kubernetes dans Apache Hadoop YARN Cluster Hadoop sur Docker Docker, Kubernetes and Mesos
cgroups LXC Docker vs LXC Marathon Chronos Code de Chronos Aurora
Kubernetes Kubernetes workshop
Oscar Boykin Scalding Présentation Scala + BigData et une autre Apache Ambari
Comment je m’y mets ?
Comment devient-on data scientist ? (se former, ouvrages de références, sources d’infos, …) Mesosphere
Cours de Andrew Ng sur le Machine Learning Introduction to data science sur Coursera Kaggle MLlib Mahoot R Scikit-learn (Python) Machine Learning pour Hackers (livre) Scala TypeSafe Activator
iPython NoteBooks Autres référence iPython NoteBooks Notebooks temporaires en line - démarre un container docker sur rackspace gratuitement (pour vous) Des notebooks Parallel Machine Learning with scikit-learn and IPython Visualiser les notebooks en ligne sans les télécharger Spark / Scala notebooks for web based spark development http://zeppelin-project.org/ Spark et Scala avec un notebook ipython
Nous contacter
Contactez-nous via twitter http://twitter.com/lescastcodeurs sur le groupe Google http://groups.google.com/group/lescastcodeurs ou sur le site web http://lescastcodeurs.com/ Flattr-ez nous (dons) sur http://lescastcodeurs.com/ En savoir plus sur le sponsoring? sponsors@lescastcodeurs.com

Sortie:

22 déc. 2014

Format:

Épisode de podcast

Titres dans cette série (100)

Restez informes sur les sujets brulants de l industrie Java. Plongez sur un sujet precis avec l interview de l episode. Supportez les radotages de vos hôtes : Emmanuel Bernard (JBoss, Hibernate), Arnaud Héritier (CloudBees, Jenkins), Guillaume Laforge (Google, Groovy), Antonio Goncalves (freelance, auteur), Vincent Massol (XWiki, Maven), Audrey Neveu (Saagie, Devoxx4Kids).

Ignorer le carrousel

Plus d'épisodes de Les Cast Codeurs Podcast

Ignorer le carrousel

Épisodes de podcast liés

Ignorer le carrousel

Découvrez ce podcast, et bien plus encore

LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos

LCC 115 - Interview de Sam Bessalah sur la data science, Hadoop et Mesos

Description

Titres dans cette série (100)

Plus d'épisodes de Les Cast Codeurs Podcast

Épisodes de podcast liés