• 图构造者

    图构造者

    GraphX提供了几种方式从RDD或者磁盘上的顶点和边集合构造图。默认情况下,没有哪个图构造者为图的边重新分区,而是把边保留在默认的分区中(例如HDFS中它们的原始块)。@groupEdges((ED,ED">Graph.groupEdges⇒ED):Graph[VD,ED])
    需要重新分区图,因为它假定相同的边将会被分配到同一个分区,所以你必须在调用groupEdges之前调用@partitionBy(PartitionStrategy">Graph.partitionBy:Graph[VD,ED])

    1. object GraphLoader {
    2. def edgeListFile(
    3. sc: SparkContext,
    4. path: String,
    5. canonicalOrientation: Boolean = false,
    6. minEdgePartitions: Int = 1)
    7. : Graph[Int, Int]
    8. }

    @edgeListFile(SparkContext,String,Boolean,Int">GraphLoader.edgeListFile:Graph[Int,Int])
    提供了一个方式从磁盘上的边列表中加载一个图。它解析如下形式(源顶点ID,目标顶点ID)的连接表,跳过以#开头的注释行。

    1. # This is a comment
    2. 2 1
    3. 4 1
    4. 1 2

    它从指定的边创建一个图,自动地创建边提及的所有顶点。所有的顶点和边的属性默认都是1。canonicalOrientation参数允许重定向正方向(srcId < dstId)的边。这在connected components
    算法中需要用到。minEdgePartitions参数指定生成的边分区的最少数量。边分区可能比指定的分区更多,例如,一个HDFS文件包含更多的块。

    1. object Graph {
    2. def apply[VD, ED](
    3. vertices: RDD[(VertexId, VD)],
    4. edges: RDD[Edge[ED]],
    5. defaultVertexAttr: VD = null)
    6. : Graph[VD, ED]
    7. def fromEdges[VD, ED](
    8. edges: RDD[Edge[ED]],
    9. defaultValue: VD): Graph[VD, ED]
    10. def fromEdgeTuples[VD](
    11. rawEdges: RDD[(VertexId, VertexId)],
    12. defaultValue: VD,
    13. uniqueEdges: Option[PartitionStrategy] = None): Graph[VD, Int]
    14. }

    @apply[VD,ED](RDD[(VertexId,VD">Graph.apply],RDD[Edge[ED]],VD)(ClassTag[VD],ClassTag[ED]):Graph[VD,ED])
    允许从顶点和边的RDD上创建一个图。重复的顶点可以任意的选择其中一个,在边RDD中而不是在顶点RDD中发现的顶点分配默认的属性。

    @fromEdges[VD,ED](RDD[Edge[ED]],VD">Graph.fromEdges(ClassTag[VD],ClassTag[ED]):Graph[VD,ED])
    允许仅仅从一个边RDD上创建一个图,它自动地创建边提及的顶点,并分配这些顶点默认的值。

    @fromEdgeTuples[VD](RDD[(VertexId,VertexId">Graph.fromEdgeTuples],VD,Option[PartitionStrategy])(ClassTag[VD]):Graph[VD,Int])
    允许仅仅从一个边元组组成的RDD上创建一个图。分配给边的值为1。它自动地创建边提及的顶点,并分配这些顶点默认的值。它还支持删除边。为了删除边,需要传递一个PartitionStrategy
    为值的Some作为uniqueEdges参数(如uniqueEdges = Some(PartitionStrategy.RandomVertexCut))。分配相同的边到同一个分区从而使它们可以被删除,一个分区策略是必须的。