Système open source

Spark

Moteur distribué unifié pour traitement de données à grande échelle, SQL, streaming et MLlib.

Ouvrir le repo source Parler de cet usage dans votre SI

Partage repo

Partager cette fiche système

Pratique pour envoyer rapidement un repère open source exploitable, pas seulement un lien brut vers le repo.

Ressources essentielles

Repo source

Rôle dans le SI

Capacité SI principale

Données et analytique

Cycle de vie principal

Exécuter

Position architecturale

Socle d’infrastructure

Effet organisationnel

Mutualisation

Catégorie / sous-catégorie

Data engineering / Compute distribué

Public cible

Renforcer mutualisation dans un contexte équipes data, plateformes, big data.

Quand le choisir

Positionnement clair: Compute distribué.
Interopérabilités naturelles: data lakes, SQL, ML.
Niveau de maturité très élevée pour des usages équipes data, plateformes, big data.

Quand ne pas le choisir

Complexité avancée: cadrer la mise en œuvre pour éviter la dette d’exploitation.
Nécessite une gouvernance explicite du périmètre données et analytique.

Interopérabilités naturelles

data lakesSQLMLpipelinesnotebooksclusters

Cas d’usage types

Concevoir une trajectoire données et analytique sur socle d’infrastructure.
Accélérer le cycle exécuter sans rompre la gouvernance d'ensemble.
Renforcer mutualisation dans un contexte équipes data, plateformes, big data.

Maturité, complexité et exploitation

Maturité

très élevée

Complexité

avancée

Licence

Apache-2.0

Stars / activité

42.5k

activité récente sur master, date exacte non remontée proprement dans ce lot

Topologies où ce système a du sens

data platform analytique

Décisions d’architecture associées

Choisir une plateforme data / analytique

Systèmes proches ou complémentaires

Apache Airflow

Données et analytique

Dagster

Données et analytique

dbt-core

Données et analytique

Pandera

Données et analytique

Airbyte

Données et analytique

Meltano

Données et analytique

Partage repo

Partager cette fiche système

Vous devez arbitrer au-delà de cette fiche ?

Une fiche système aide à comparer. La décision utile consiste ensuite à replacer ce choix dans votre architecture, vos contraintes d'exploitation et vos marges de réversibilité.

Décrire votre contexte Voir les arbitrages d’architecture Comparer d’autres systèmes