Capacité SI principale
Données et analytiqueSpark
Moteur distribué unifié pour traitement de données à grande échelle, SQL, streaming et MLlib.
Partage repo
Partager cette fiche système
Pratique pour envoyer rapidement un repère open source exploitable, pas seulement un lien brut vers le repo.
Ressources essentielles
Rôle dans le SI
Cycle de vie principal
Exécuter
Position architecturale
Socle d’infrastructure
Effet organisationnel
Mutualisation
Catégorie / sous-catégorie
Data engineering / Compute distribuéPublic cible
Renforcer mutualisation dans un contexte équipes data, plateformes, big data.
Quand le choisir
- Positionnement clair: Compute distribué.
- Interopérabilités naturelles: data lakes, SQL, ML.
- Niveau de maturité très élevée pour des usages équipes data, plateformes, big data.
Quand ne pas le choisir
- Complexité avancée: cadrer la mise en œuvre pour éviter la dette d’exploitation.
- Nécessite une gouvernance explicite du périmètre données et analytique.
Interopérabilités naturelles
Cas d’usage types
- Concevoir une trajectoire données et analytique sur socle d’infrastructure.
- Accélérer le cycle exécuter sans rompre la gouvernance d'ensemble.
- Renforcer mutualisation dans un contexte équipes data, plateformes, big data.
Maturité, complexité et exploitation
Maturité
très élevée
Complexité
avancée
Licence
Apache-2.0
Stars / activité
42.5k
activité récente sur master, date exacte non remontée proprement dans ce lot
Topologies où ce système a du sens
Décisions d’architecture associées
Systèmes proches ou complémentaires
Partage repo
Partager cette fiche système
Vous devez arbitrer au-delà de cette fiche ?
Une fiche système aide à comparer. La décision utile consiste ensuite à replacer ce choix dans votre architecture, vos contraintes d'exploitation et vos marges de réversibilité.