• Summary

    Summary

    • Introduction
    • 快速上手
      • Spark Shell
      • 独立应用程序
      • 开始翻滚吧!
    • 编程指南
      • 引入 Spark
      • 初始化 Spark
      • Spark RDDs
        • 并行集合
        • 外部数据集
        • RDD 操作
          • 传递函数到 Spark
          • 使用键值对
          • Transformations
          • Actions
        • RDD持久化
      • 共享变量
      • 从这里开始
    • Spark Streaming
      • 一个快速的例子
      • 基本概念
        • 关联
        • 初始化StreamingContext
        • 离散流
        • 输入DStreams
        • DStream中的转换
        • DStream的输出操作
        • 缓存或持久化
        • Checkpointing
        • 部署应用程序
        • 监控应用程序
      • 性能调优
        • 减少批数据的执行时间
        • 设置正确的批容量
        • 内存调优
      • 容错语义
    • Spark SQL
      • 开始
      • 数据源
        • RDDs
        • parquet文件
        • JSON数据集
        • Hive表
      • 性能调优
      • 其它SQL接口
      • 编写语言集成(Language-Integrated)的相关查询
      • Spark SQL数据类型
    • GraphX编程指南
      • 开始
      • 属性图
      • 图操作符
      • Pregel API
      • 图构造者
      • 顶点和边RDDs
      • 图算法
      • 例子
    • 部署
      • 独立运行Spark
      • 在yarn上运行Spark
    • Spark配置
      • RDD 持久化