spark有哪些部分组成Apache Spark 是一款高性能分布式大数据计算引擎整体架构分工明确主要由核心组件构成各司其职完成大数据调度、计算、资源管理全流程。Driver 驱动器程序运行主入口负责解析用户编写代码构建任务执行逻辑向集群申请资源统筹调度所有计算任务协调集群整体运行。Executor 执行器运行在集群从节点上的进程接收 Driver 下发的计算任务实际执行数据运算同时负责数据存储、缓存是真正干活的计算节点。Cluster Manager 集群资源管理器专门负责整个集群服务器资源内存、CPU分配与调度统一管控集群硬件资源为 Spark 任务分配运行资源。Application 应用程序开发者编写的完整 Spark 业务代码包含业务逻辑、数据处理流程是最终需要提交运行的大数据程序。二、Spark 四大运行部署模式Spark 适配不同开发、测试、生产场景提供多种灵活运行模式满足单机调试与线上集群部署需求。1. 本地模式Local最基础单机运行模式无需搭建集群仅依靠单机内部多线程模拟完整 Spark 运行环境。适用场景日常代码调试、本地开发测试、零基础入门学习无需依赖任何集群环境。2. Standalone 独立集群模式Spark 原生自带集群模式不依赖第三方资源框架Spark 自身内置集群管理角色以独立进程形式搭建专属 Spark 集群。特点部署简单、轻量化纯 Spark 生态独立运行适合中小型大数据集群使用。3. YARN 集群模式大数据主流生产部署模式Spark 任务所有运行角色均运行在 Hadoop YARN 容器之内依托 YARN 统一管理集群资源。优势与 Hadoop 生态无缝融合企业大数据集群通用方案资源统一管控生产环境首选。4. Kubernetes 容器集群模式云原生主流部署方式将 Spark 各类运行组件封装至 K8s 容器中运行依托容器实现任务弹性扩缩容、快速部署、环境隔离。适用场景云平台大数据架构、容器化运维、微服务式大数据集群。三、Spark 核心 RDD 两类算子RDD弹性分布式数据集是 Spark 最核心的数据抽象所有数据运算都依靠算子完成算子严格分为两大类型执行特性完全不同。1. Transformation 转换算子执行特性懒加载、惰性执行调用后不会立即执行任务作用对原有 RDD 进行数据转换、拆分、过滤、映射等操作返回结果始终返回新的 RDD构建任务执行血缘依赖链常见算子map、flatMap、filter、reduceByKey、join 等2. Action 行动算子执行特性触发实际计算调用后立即触发 Spark 任务提交运行作用终止数据转换流程输出最终计算结果、落地数据返回结果不再返回 RDD返回数值、集合、无返回值等最终结果常见算子count、collect、foreach、saveAsTextFile、reduce 等3. 总结哪些是触发算子count,take,foreach,saveAsTextFile, first,top,takeOrdered,collect,reduce,collectAsMap,foreachPartition哪些是转换算子map、filter、flatMap、reduceByKey,groupByKey,sortByKey,sortBy, union,join(很多个),distinct, repartition,coalesce ,keys,values,mapPartitions, mapValues哪些是shuffle算子: reduceByKey,groupByKey,sortByKey,repartition,coalesce(shuffleTrue), sortBy,join(类型的),distinct核心执行流程Spark 程序执行顺序编写多个 Transformation 转换算子构建任务流程 → 调用 Action 行动算子 → 触发集群提交任务 → 正式执行分布式计算。