SS04 | DoubleHappy or Jepson

之前的ss程序都是运行在idea
那么如何提交到服务器上运行呢？
  演示：
  一步一步来  先不管理offset 把代码提交到yarn上 把wc统计出来

数据从Kafka过来然后 ss消费到 把wc统计出来：

object StreamingKakfaDirectYarnApp {

  def main(args: Array[String]): Unit = {

    //参数从外面传进 来    topics groupId brokers
    if(args.size != 3){
      System.err.println("Usage:StreamingKakfaDirectYarnApp <brokers> <topic> <groupId>")
      System.exit(-1)
    }

    val Array(brokers,topic,groupId) = args
    
    val sparkConf: SparkConf = new SparkConf()
    val ssc =new StreamingContext(sparkConf,Seconds(10))
   // val ssc = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 10)

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> brokers, //Kafka地址
      "key.deserializer" -> classOf[StringDeserializer], //反序列化  接收端是反序列化   数据发送是要序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest", //偏移量 从哪开始
      "enable.auto.commit" -> (false: java.lang.Boolean) //自动提交么？ 选择不自动提交  手工来管理
    )

    val topics = Array(topic)
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent, //数据尽量均匀分布到各个executor上去
      Subscribe[String, String](topics, kafkaParams) //固定写法
    )


    //TODO...业务逻辑
    val result: DStream[(String, Int)] = stream.map(_.value()).
      flatMap(_.split(","))
      .map((_, 1)).reduceByKey(_ + _)

    result.print()


    ssc.start()
    ssc.awaitTermination()
  }
}
idea测试结果：
Usage:StreamingKakfaDirectYarnApp <brokers> <topic> <groupId>

注意：idea里怎么把参数传进去呢？

在这里插入图片描述

运行结果：
-------------------------------------------
Time: 1572763410000 ms
-------------------------------------------
(d,19)
(b,18)
(f,21)
(e,17)
(a,24)
(c,21)

-------------------------------------------
Time: 1572763420000 ms
-------------------------------------------

-------------------------------------------
Time: 1572763430000 ms
-------------------------------------------

说明本地改造完成 那么我们打包上传到服务器上运行

提交命令：
./spark-submit \
--master local[2] \
--name StreamingKakfaDirectYarnApp \
--class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
/home/double_happy/lib/spark-core-1.0.jar \
hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3

[double_happy@hadoop101 bin]$ ./spark-submit \
> --master local[2] \
> --name StreamingKakfaDirectYarnApp \
> --class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
> /home/double_happy/lib/spark-core-1.0.jar \
> hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3
19/11/03 15:08:42 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/11/03 15:08:42 INFO SparkContext: Running Spark version 2.4.4
19/11/03 15:08:43 INFO SparkContext: Submitted application: StreamingKakfaDirectYarnApp
19/11/03 15:08:43 INFO SecurityManager: Changing view acls to: double_happy
19/11/03 15:08:43 INFO SecurityManager: Changing modify acls to: double_happy
19/11/03 15:08:43 INFO SecurityManager: Changing view acls groups to: 
19/11/03 15:08:43 INFO SecurityManager: Changing modify acls groups to: 
19/11/03 15:08:43 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(double_happy); groups with view permissions: Set(); users  with modify permissions: Set(double_happy); groups with modify permissions: Set()
19/11/03 15:08:43 INFO Utils: Successfully started service 'sparkDriver' on port 40978.
19/11/03 15:08:43 INFO SparkEnv: Registering MapOutputTracker
19/11/03 15:08:43 INFO SparkEnv: Registering BlockManagerMaster
19/11/03 15:08:43 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
19/11/03 15:08:43 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
19/11/03 15:08:43 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-d01d319f-1fe4-4025-bcf4-418a06809ccc
19/11/03 15:08:43 INFO MemoryStore: MemoryStore started with capacity 366.3 MB
19/11/03 15:08:43 INFO SparkEnv: Registering OutputCommitCoordinator
19/11/03 15:08:43 INFO Utils: Successfully started service 'SparkUI' on port 4040.
19/11/03 15:08:43 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://hadoop101:4040
19/11/03 15:08:43 INFO SparkContext: Added JAR file:/home/double_happy/lib/spark-core-1.0.jar at spark://hadoop101:40978/jars/spark-core-1.0.jar with timestamp 1572764923743
19/11/03 15:08:43 INFO Executor: Starting executor ID driver on host localhost
19/11/03 15:08:43 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 33748.
19/11/03 15:08:43 INFO NettyBlockTransferService: Server created on hadoop101:33748
19/11/03 15:08:43 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
19/11/03 15:08:43 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, hadoop101, 33748, None)
19/11/03 15:08:43 INFO BlockManagerMasterEndpoint: Registering block manager hadoop101:33748 with 366.3 MB RAM, BlockManagerId(driver, hadoop101, 33748, None)
19/11/03 15:08:43 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, hadoop101, 33748, None)
19/11/03 15:08:43 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, hadoop101, 33748, None)
19/11/03 15:08:45 INFO EventLoggingListener: Logging events to hdfs://hadoop101:8020/spark_directory/local-1572764923782
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer
        at com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp$.main(StreamingKakfaDirectYarnApp.scala:36)
        at com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp.main(StreamingKakfaDirectYarnApp.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:845)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:161)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:184)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:920)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:929)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.kafka.common.serialization.StringDeserializer
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        ... 14 more
19/11/03 15:08:45 INFO SparkContext: Invoking stop() from shutdown hook
19/11/03 15:08:45 INFO SparkUI: Stopped Spark web UI at http://hadoop101:4040
19/11/03 15:08:45 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
19/11/03 15:08:45 INFO MemoryStore: MemoryStore cleared
19/11/03 15:08:45 INFO BlockManager: BlockManager stopped
19/11/03 15:08:46 INFO BlockManagerMaster: BlockManagerMaster stopped
19/11/03 15:08:46 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
19/11/03 15:08:46 INFO SparkContext: Successfully stopped SparkContext
19/11/03 15:08:46 INFO ShutdownHookManager: Shutdown hook called
19/11/03 15:08:46 INFO ShutdownHookManager: Deleting directory /tmp/spark-6ffb645c-d7fd-44e8-b0e5-256cae7b11ea
19/11/03 15:08:46 INFO ShutdownHookManager: Deleting directory /tmp/spark-8a31f335-3d75-4c59-b7a5-c5bf023d1265
[double_happy@hadoop101 bin]$

注意：
1. Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer
为什么呢？ 在idea里都可以的 
StringDeserializer 类是在
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
这个包里面的

而这个包Spark本身是没有的 是我们额外加进来的喽 
那么这个包没有在服务器上 为什么该怎么办呢？ 看看官网怎么说的

Deploying：部署
As with any Spark applications, spark-submit is used to launch your application.

For Scala and Java applications, if you are using SBT or Maven for project management, then package spark-streaming-kafka-0-10_2.12 and its dependencies into the application JAR. Make sure spark-core_2.12 and spark-streaming_2.12 are marked as provided dependencies as those are already present in a Spark installation. Then use spark-submit to launch your application (see Deploying section in the main programming guide).
这种方式不好换一个

因为需要把这个spark-streaming-kafka-0-10_2.11包 传到服务器上
./spark-submit --help  查查 可以加maven 的依赖  怎么加呢？

 --packages                  Comma-separated list of maven coordinates of jars to include
                              on the driver and executor classpaths. Will search the local
                              maven repo, then maven central and any additional remote
                              repositories given by --repositories. The format for the
                              coordinates should be groupId:artifactId:version.

这个参数 可以指向 maven的一些jar包 **** 
修改提交命令：
./spark-submit \
--master local[2] \
--name StreamingKakfaDirectYarnApp \
 --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.4 \
--class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
/home/double_happy/lib/spark-core-1.0.jar \
hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3

但是这个东西 需要联网 不能联网是不行的 一会看日志就清除了 它需要联网去下载 maven依赖

[double_happy@hadoop101 bin]$ ./spark-submit --master local[2] --name StreamingKakfaDirectYarnApp  --packageg.apache.spark:spark-streaming-kafka-0-10_2.11:2.4.4 --class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp /home/double_happy/lib/spark-core-1.0.jar hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3
Ivy Default Cache set to: /home/double_happy/.ivy2/cache
The jars for the packages stored in: /home/double_happy/.ivy2/jars
:: loading settings :: url = jar:file:/home/double_happy/app/spark-2.4.4-bin-2.6.0-cdh5.15.1/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
org.apache.spark#spark-streaming-kafka-0-10_2.11 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-c0781f34-3101-4762-8694-9aa38b463184;1.0
        confs: [default]
        found org.apache.spark#spark-streaming-kafka-0-10_2.11;2.4.4 in central
        found org.apache.kafka#kafka-clients;2.0.0 in central
        found org.lz4#lz4-java;1.4.0 in central
        found org.xerial.snappy#snappy-java;1.1.7.3 in central
        found org.slf4j#slf4j-api;1.7.16 in central
        found org.spark-project.spark#unused;1.0.0 in central
:: resolution report :: resolve 496ms :: artifacts dl 9ms
        :: modules in use:
        org.apache.kafka#kafka-clients;2.0.0 from central in [default]
        org.apache.spark#spark-streaming-kafka-0-10_2.11;2.4.4 from central in [default]
        org.lz4#lz4-java;1.4.0 from central in [default]
        org.slf4j#slf4j-api;1.7.16 from central in [default]
        org.spark-project.spark#unused;1.0.0 from central in [default]
        org.xerial.snappy#snappy-java;1.1.7.3 from central in [default]
        ---------------------------------------------------------------------
        |                  |            modules            ||   artifacts   |
        |       conf       | number| search|dwnlded|evicted|| number|dwnlded|
        ---------------------------------------------------------------------
        |      default     |   6   |   0   |   0   |   0   ||   6   |   0   |
        ---------------------------------------------------------------------
:: retrieving :: org.apache.spark#spark-submit-parent-c0781f34-3101-4762-8694-9aa38b463184
        confs: [default]
        0 artifacts copied, 6 already retrieved (0kB/10ms)

我截取了一小部分日志 你看 第一次需要下载maven依赖的  
所以这个 参数也有弊端的  (毕竟公司的服务器是不可能连接外网的  )

还有其他的方式可以解决 一会介绍

那么刚刚packages  有小问题  那么怎么办呢 ？

1.先把spark-streaming-kafka-0-10_2.11依赖包 上传到服务器上 
2.通过--jars 来指定

./spark-submit \
--master local[2] \
--name StreamingKakfaDirectYarnApp \
--jars /home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar \
--class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
/home/double_happy/lib/spark-core-1.0.jar \
hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3

结果：
[double_happy@hadoop101 bin]$ ./spark-submit \
> --master local[2] \
> --name StreamingKakfaDirectYarnApp \
> --jars /home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar \
> --class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
> /home/double_happy/lib/spark-core-1.0.jar \
> hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3
19/11/03 15:38:38 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/11/03 15:38:39 INFO SparkContext: Running Spark version 2.4.4
19/11/03 15:38:39 INFO SparkContext: Submitted application: StreamingKakfaDirectYarnApp
19/11/03 15:38:39 INFO SecurityManager: Changing view acls to: double_happy
19/11/03 15:38:39 INFO SecurityManager: Changing modify acls to: double_happy
19/11/03 15:38:39 INFO SecurityManager: Changing view acls groups to: 
19/11/03 15:38:39 INFO SecurityManager: Changing modify acls groups to: 
19/11/03 15:38:39 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(double_happy); groups with view permissions: Set(); users  with modify permissions: Set(double_happy); groups with modify permissions: Set()
19/11/03 15:38:39 INFO Utils: Successfully started service 'sparkDriver' on port 45422.
19/11/03 15:38:39 INFO SparkEnv: Registering MapOutputTracker
19/11/03 15:38:39 INFO SparkEnv: Registering BlockManagerMaster
19/11/03 15:38:39 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
19/11/03 15:38:39 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
19/11/03 15:38:39 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-ed285e0b-aab6-4fa6-a09d-6776f02d7a71
19/11/03 15:38:39 INFO MemoryStore: MemoryStore started with capacity 366.3 MB
19/11/03 15:38:39 INFO SparkEnv: Registering OutputCommitCoordinator
19/11/03 15:38:39 INFO Utils: Successfully started service 'SparkUI' on port 4040.
19/11/03 15:38:39 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://hadoop101:4040
19/11/03 15:38:39 INFO SparkContext: Added JAR file:///home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar at spark://hadoop101:45422/jars/spark-streaming-kafka-0-10_2.11-2.4.4.jar with timestamp 1572766719888
19/11/03 15:38:39 INFO SparkContext: Added JAR file:/home/double_happy/lib/spark-core-1.0.jar at spark://hadoop101:45422/jars/spark-core-1.0.jar with timestamp 1572766719889
19/11/03 15:38:39 INFO Executor: Starting executor ID driver on host localhost
19/11/03 15:38:40 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 40256.
19/11/03 15:38:40 INFO NettyBlockTransferService: Server created on hadoop101:40256
19/11/03 15:38:40 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
19/11/03 15:38:40 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, hadoop101, 40256, None)
19/11/03 15:38:40 INFO BlockManagerMasterEndpoint: Registering block manager hadoop101:40256 with 366.3 MB RAM, BlockManagerId(driver, hadoop101, 40256, None)
19/11/03 15:38:40 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, hadoop101, 40256, None)
19/11/03 15:38:40 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, hadoop101, 40256, None)
19/11/03 15:38:40 INFO EventLoggingListener: Logging events to hdfs://hadoop101:8020/spark_directory/local-1572766719940
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer
        at com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp$.main(StreamingKakfaDirectYarnApp.scala:36)
        at com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp.main(StreamingKakfaDirectYarnApp.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:497)
        at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:845)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:161)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:184)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:920)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:929)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.kafka.common.serialization.StringDeserializer
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        ... 14 more
19/11/03 15:38:41 INFO SparkContext: Invoking stop() from shutdown hook
19/11/03 15:38:41 INFO SparkUI: Stopped Spark web UI at http://hadoop101:4040
19/11/03 15:38:41 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
19/11/03 15:38:41 INFO MemoryStore: MemoryStore cleared
19/11/03 15:38:41 INFO BlockManager: BlockManager stopped
19/11/03 15:38:41 INFO BlockManagerMaster: BlockManagerMaster stopped
19/11/03 15:38:41 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
19/11/03 15:38:41 INFO SparkContext: Successfully stopped SparkContext
19/11/03 15:38:41 INFO ShutdownHookManager: Shutdown hook called
19/11/03 15:38:41 INFO ShutdownHookManager: Deleting directory /tmp/spark-7780e105-fa8c-4592-ac12-7d27fc631ccd
19/11/03 15:38:41 INFO ShutdownHookManager: Deleting directory /tmp/spark-58bc8e97-e4ea-4708-9819-b98f98cb2212
[double_happy@hadoop101 bin]$

注意：
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer

这个东西和上面一样 因为这个东西是在哪？

在这里插入图片描述

因为sparkStreaming-kafka包里面包含kafka-client 
你idea里pom 配置一个ss-kafka是可以的 但是到服务器上 是需要kafka-client这个jar包的
所以把它 也上传到服务器上

./spark-submit \
--master local[2] \
--name StreamingKakfaDirectYarnApp \
--jars /home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar,/home/double_happy/lib/kafka-clients-2.0.0.jar \
--class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp \
/home/double_happy/lib/spark-core-1.0.jar \
hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3

[double_happy@hadoop101 bin]$ ./spark-submit --master local[2] --name StreamingKakfaDirectYarnApp --jars /home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar,/home/double_happy/lib/kafka-clients-2.0.0.jar --class com.ruozedata.spark.ss04.StreamingKakfaDirectYarnApp /home/double_happy/lib/spark-core-1.0.jar hadoop101:9092,hadoop101:9093,hadoop101:9094 double_happy_offset double_happy_group3
19/11/03 15:51:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/11/03 15:51:12 INFO SparkContext: Running Spark version 2.4.4
19/11/03 15:51:12 INFO SparkContext: Submitted application: StreamingKakfaDirectYarnApp
19/11/03 15:51:12 INFO SecurityManager: Changing view acls to: double_happy
19/11/03 15:51:12 INFO SecurityManager: Changing modify acls to: double_happy
19/11/03 15:51:12 INFO SecurityManager: Changing view acls groups to: 
19/11/03 15:51:12 INFO SecurityManager: Changing modify acls groups to: 
19/11/03 15:51:12 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users  with view permissions: Set(double_happy); groups with view permissions: Set(); users  with modify permissions: Set(double_happy); groups with modify permissions: Set()
19/11/03 15:51:13 INFO Utils: Successfully started service 'sparkDriver' on port 44185.
19/11/03 15:51:13 INFO SparkEnv: Registering MapOutputTracker
19/11/03 15:51:13 INFO SparkEnv: Registering BlockManagerMaster
19/11/03 15:51:13 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
19/11/03 15:51:13 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
19/11/03 15:51:13 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-d86d96f2-228c-4046-b62b-bbc683c696e8
19/11/03 15:51:13 INFO MemoryStore: MemoryStore started with capacity 366.3 MB
19/11/03 15:51:13 INFO SparkEnv: Registering OutputCommitCoordinator
19/11/03 15:51:13 INFO Utils: Successfully started service 'SparkUI' on port 4040.
19/11/03 15:51:13 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://hadoop101:4040
19/11/03 15:51:13 INFO SparkContext: Added JAR file:///home/double_happy/lib/spark-streaming-kafka-0-10_2.11-2.4.4.jar at spark://hadoop101:44185/jars/spark-streaming-kafka-0-10_2.11-2.4.4.jar with timestamp 1572767473466
19/11/03 15:51:13 INFO SparkContext: Added JAR file:///home/double_happy/lib/kafka-clients-2.0.0.jar at spark://hadoop101:44185/jars/kafka-clients-2.0.0.jar with timestamp 1572767473467
19/11/03 15:51:13 INFO SparkContext: Added JAR file:/home/double_happy/lib/spark-core-1.0.jar at spark://hadoop101:44185/jars/spark-core-1.0.jar with timestamp 1572767473467
19/11/03 15:51:13 INFO Executor: Starting executor ID driver on host localhost
19/11/03 15:51:13 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 34854.
19/11/03 15:51:13 INFO NettyBlockTransferService: Server created on hadoop101:34854
19/11/03 15:51:13 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
19/11/03 15:51:13 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, hadoop101, 34854, None)
19/11/03 15:51:13 INFO BlockManagerMasterEndpoint: Registering block manager hadoop101:34854 with 366.3 MB RAM, BlockManagerId(driver, hadoop101, 34854, None)
19/11/03 15:51:13 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, hadoop101, 34854, None)
19/11/03 15:51:13 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, hadoop101, 34854, None)
19/11/03 15:51:14 INFO EventLoggingListener: Logging events to hdfs://hadoop101:8020/spark_directory/local-1572767473528
19/11/03 15:51:14 WARN KafkaUtils: overriding enable.auto.commit to false for executor
19/11/03 15:51:14 WARN KafkaUtils: overriding auto.offset.reset to none for executor
19/11/03 15:51:14 WARN KafkaUtils: overriding executor group.id to spark-executor-double_happy_group3
19/11/03 15:51:14 WARN KafkaUtils: overriding receive.buffer.bytes to 65536 see KAFKA-3135
19/11/03 15:51:14 INFO DirectKafkaInputDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO DirectKafkaInputDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO DirectKafkaInputDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO DirectKafkaInputDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO DirectKafkaInputDStream: Initialized and validated org.apache.spark.streaming.kafka010.DirectKafkaInputDStream@5427abd
19/11/03 15:51:14 INFO MappedDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO MappedDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO MappedDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO MappedDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO MappedDStream: Initialized and validated org.apache.spark.streaming.dstream.MappedDStream@7fbff13b
19/11/03 15:51:14 INFO FlatMappedDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO FlatMappedDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO FlatMappedDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO FlatMappedDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO FlatMappedDStream: Initialized and validated org.apache.spark.streaming.dstream.FlatMappedDStream@57b2814e
19/11/03 15:51:14 INFO MappedDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO MappedDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO MappedDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO MappedDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO MappedDStream: Initialized and validated org.apache.spark.streaming.dstream.MappedDStream@4b876f31
19/11/03 15:51:14 INFO ShuffledDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO ShuffledDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO ShuffledDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO ShuffledDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO ShuffledDStream: Initialized and validated org.apache.spark.streaming.dstream.ShuffledDStream@5d06636e
19/11/03 15:51:14 INFO ForEachDStream: Slide time = 10000 ms
19/11/03 15:51:14 INFO ForEachDStream: Storage level = Serialized 1x Replicated
19/11/03 15:51:14 INFO ForEachDStream: Checkpoint interval = null
19/11/03 15:51:14 INFO ForEachDStream: Remember interval = 10000 ms
19/11/03 15:51:14 INFO ForEachDStream: Initialized and validated org.apache.spark.streaming.dstream.ForEachDStream@5db077dc
19/11/03 15:51:15 INFO ConsumerConfig: ConsumerConfig values: 
        auto.commit.interval.ms = 5000
        auto.offset.reset = earliest
        bootstrap.servers = [hadoop101:9092, hadoop101:9093, hadoop101:9094]
        check.crcs = true
        client.id = 
        connections.max.idle.ms = 540000
        default.api.timeout.ms = 60000
        enable.auto.commit = false
        exclude.internal.topics = true
        fetch.max.bytes = 52428800
        fetch.max.wait.ms = 500
        fetch.min.bytes = 1
        group.id = double_happy_group3
        heartbeat.interval.ms = 3000
        interceptor.classes = []
        internal.leave.group.on.close = true
        isolation.level = read_uncommitted
        key.deserializer = class org.apache.kafka.common.serialization.StringDeserializer
        max.partition.fetch.bytes = 1048576
        max.poll.interval.ms = 300000
        max.poll.records = 500
        metadata.max.age.ms = 300000
        metric.reporters = []
        metrics.num.samples = 2
        metrics.recording.level = INFO
        metrics.sample.window.ms = 30000
        partition.assignment.strategy = [class org.apache.kafka.clients.consumer.RangeAssignor]
        receive.buffer.bytes = 65536
        reconnect.backoff.max.ms = 1000
        reconnect.backoff.ms = 50
        request.timeout.ms = 30000
        retry.backoff.ms = 100
        sasl.client.callback.handler.class = null
        sasl.jaas.config = null
        sasl.kerberos.kinit.cmd = /usr/bin/kinit
        sasl.kerberos.min.time.before.relogin = 60000
        sasl.kerberos.service.name = null
        sasl.kerberos.ticket.renew.jitter = 0.05
        sasl.kerberos.ticket.renew.window.factor = 0.8
        sasl.login.callback.handler.class = null
        sasl.login.class = null
        sasl.login.refresh.buffer.seconds = 300
        sasl.login.refresh.min.period.seconds = 60
        sasl.login.refresh.window.factor = 0.8
        sasl.login.refresh.window.jitter = 0.05
        sasl.mechanism = GSSAPI
        security.protocol = PLAINTEXT
        send.buffer.bytes = 131072
        session.timeout.ms = 10000
        ssl.cipher.suites = null
        ssl.enabled.protocols = [TLSv1.2, TLSv1.1, TLSv1]
        ssl.endpoint.identification.algorithm = https
        ssl.key.password = null
        ssl.keymanager.algorithm = SunX509
        ssl.keystore.location = null
        ssl.keystore.password = null
        ssl.keystore.type = JKS
        ssl.protocol = TLS
        ssl.provider = null
        ssl.secure.random.implementation = null
        ssl.trustmanager.algorithm = PKIX
        ssl.truststore.location = null
        ssl.truststore.password = null
        ssl.truststore.type = JKS
        value.deserializer = class org.apache.kafka.common.serialization.StringDeserializer

19/11/03 15:51:15 INFO AppInfoParser: Kafka version : 2.0.0
19/11/03 15:51:15 INFO AppInfoParser: Kafka commitId : 3402a8361b734732
19/11/03 15:51:15 INFO Metadata: Cluster ID: QW2v3GZOQYCYmgUBgDaicA
19/11/03 15:51:15 INFO AbstractCoordinator: [Consumer clientId=consumer-1, groupId=double_happy_group3] Discovered group coordinator hadoop101:9092 (id: 2147483647 rack: null)
19/11/03 15:51:15 INFO ConsumerCoordinator: [Consumer clientId=consumer-1, groupId=double_happy_group3] Revoking previously assigned partitions []
19/11/03 15:51:15 INFO AbstractCoordinator: [Consumer clientId=consumer-1, groupId=double_happy_group3] (Re-)joining group
19/11/03 15:51:15 INFO AbstractCoordinator: [Consumer clientId=consumer-1, groupId=double_happy_group3] Successfully joined group with generation 7
19/11/03 15:51:15 INFO ConsumerCoordinator: [Consumer clientId=consumer-1, groupId=double_happy_group3] Setting newly assigned partitions [double_happy_offset-0, double_happy_offset-1, double_happy_offset-2]
19/11/03 15:51:15 INFO Fetcher: [Consumer clientId=consumer-1, groupId=double_happy_group3] Resetting offset for partition double_happy_offset-1 to offset 0.
19/11/03 15:51:15 INFO Fetcher: [Consumer clientId=consumer-1, groupId=double_happy_group3] Resetting offset for partition double_happy_offset-2 to offset 0.
19/11/03 15:51:15 INFO Fetcher: [Consumer clientId=consumer-1, groupId=double_happy_group3] Resetting offset for partition double_happy_offset-0 to offset 0.
19/11/03 15:51:15 INFO RecurringTimer: Started timer for JobGenerator at time 1572767480000
19/11/03 15:51:15 INFO JobGenerator: Started JobGenerator at 1572767480000 ms
19/11/03 15:51:15 INFO JobScheduler: Started JobScheduler
19/11/03 15:51:15 INFO StreamingContext: StreamingContext started

注意：
StreamingContext started    ok没有问题


这样做 只需要把你需要的依赖包拿过来就可以了 

如果你需要额外的依赖包很多怎么办？

虽然 --packages  不能去中央仓库去下载 但是你公司应该有一个 maven私服 那么你直接用私服里的就可以  

 这样做的好处 就是你spark代码包很小的

[double_happy@hadoop101 lib]$ ll -lh
total 2.4M
-rw-r--r-- 1 double_happy double_happy 1.9M Nov  3 14:16 kafka-clients-2.0.0.jar
-rw-r--r-- 1 double_happy double_happy  48K Oct 24 23:24 local-1571929727692
-rw-r--r-- 1 double_happy double_happy 1.1K Sep 25 19:45 site.log
-rw-r--r-- 1 double_happy double_happy 225K Nov  3 15:05 spark-core-1.0.jar
-rw-r--r-- 1 double_happy double_happy 212K Nov  3 14:16 spark-streaming-kafka-0-10_2.11-2.4.4.jar
-rw-r--r-- 1 double_happy double_happy  37K Sep 23 18:32 udf.jar
-rw-r--r-- 1 double_happy double_happy  36K Sep 23 11:21 wc.jar
[double_happy@hadoop101 lib]$ 


其实还有一种方式 ：
我们开发的的都是 瘦包 ：仅仅只包含你自己开发的代码 不包括其他的依赖
 
 瘦包 ：仅仅只包含你自己开发的代码 不包括其他的依赖
 		包小
 		需要的依赖的包自己来挑选
胖包：不仅仅会把你自己开发的打包 还会把你的指定的依赖包一起打进去 
		包大
		所有的东西(Hadoop/Spark 除外 )都在里面 运行起来方便
那么胖包怎么使用呢？就是我上面不推荐的链接    因为我之前就用这个方式 修改代码的时候 还得把 那个选项打开 我不喜欢

瘦包还有一个好处就是 ： 方便升级   胖包真的不好

transformation

之前写的算子 都是按照每一个批次来处理的 或者是可以累计的等

新需求：
每隔5秒钟统计前10s钟的数据 
每隔1分钟统计前5分钟的数据

就是每隔多久统计前多久的数据  那么
这类需求 就是 Window

Window Operations
As shown in the figure, every time the window slides over a source DStream, the source RDDs that fall within the window are combined and operated upon to produce the RDDs of the windowed DStream. In this specific case, the operation is applied over the last 3 time units of data, and slides by 2 time units. This shows that any window operation needs to specify two parameters.

window length - The duration of the window (3 in the figure).
sliding interval - The interval at which the window operation is performed (2 in the figure).
These two parameters must be multiples of the batch interval of the source DStream (1 in the figure).
在这里插入图片描述

案列

  /**
   * Return a new DStream by applying `reduceByKey` over a sliding window. This is similar to
   * `DStream.reduceByKey()` but applies it over a sliding window. Hash partitioning is used to
   * generate the RDDs with Spark's default number of partitions.
   * @param reduceFunc associative and commutative reduce function
   * @param windowDuration width of the window; must be a multiple of this DStream's
   *                       batching interval
   * @param slideDuration  sliding interval of the window (i.e., the interval after which
   *                       the new DStream will generate RDDs); must be a multiple of this
   *                       DStream's batching interval
   */
  def reduceByKeyAndWindow(
      reduceFunc: (V, V) => V,
      windowDuration: Duration,
      slideDuration: Duration
    ): DStream[(K, V)] = ssc.withScope {
    reduceByKeyAndWindow(reduceFunc, windowDuration, slideDuration, defaultPartitioner())
  }

只要你见Window  参数里一定带 窗口大小 和 滑动大小的

5秒的批次 每隔5秒统计前10秒

object StreamingKakfaWindowApp {

  def main(args: Array[String]): Unit = {


    val ssc = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 5)
    
    val groupId = "double_happy_group"
    val topic = "double_happy_offset"

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop101:9092,hadoop101:9093,hadoop101:9094", //Kafka地址
      "key.deserializer" -> classOf[StringDeserializer], //反序列化  接收端是反序列化   数据发送是要序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest", //偏移量 从哪开始
      "enable.auto.commit" -> (false: java.lang.Boolean) //自动提交么？ 选择不自动提交  手工来管理
    )

    val topics = Array(topic)
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent, //数据尽量均匀分布到各个executor上去
      Subscribe[String, String](topics, kafkaParams) //固定写法
    )

    //TODO...业务逻辑
    val result: DStream[(String, Int)] = stream.map(_.value()).
      flatMap(_.split(","))
      .map((_, 1))
      .reduceByKeyAndWindow((a:Int,b:Int) =>
      (a + b),  //窗口内统计两辆相加    业务
      Seconds(10),  //窗口大小
      Seconds(5)) //滑动大小

    result.print()


    ssc.start()
    ssc.awaitTermination()
  }
}

结果：
-------------------------------------------
Time: 1572770060000 ms
-------------------------------------------
(d,2)
(b,1)
(f,3)
(e,2)
(a,1)
(c,1)

-------------------------------------------
Time: 1572770065000 ms
-------------------------------------------
(d,2)
(b,1)
(f,3)
(e,2)
(a,1)
(c,1)

-------------------------------------------
Time: 1572770070000 ms
-------------------------------------------

-------------------------------------------
Time: 1572770075000 ms
-------------------------------------------

业务理解即可  这是最基本的统计

问题：下图

在这里插入图片描述
DataFrame and SQL Operations
DataFrame and SQL Operations

这是批流一体带来的非常大的好处

object StreamingSqlApp {

  def main(args: Array[String]): Unit = {


    val ssc = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 5)

    val groupId = "double_happy_group"

    val topic = "double_happy_offset"

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop101:9092,hadoop101:9093,hadoop101:9094", //Kafka地址
      "key.deserializer" -> classOf[StringDeserializer], //反序列化  接收端是反序列化   数据发送是要序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest", //偏移量 从哪开始
      "enable.auto.commit" -> (false: java.lang.Boolean) //自动提交么？ 选择不自动提交  手工来管理
    )

    val topics = Array(topic)
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent, //数据尽量均匀分布到各个executor上去
      Subscribe[String, String](topics, kafkaParams) //固定写法
    ).map(_.value())


    //TODO...业务逻辑

    stream.foreachRDD(rdd => {   //注意 stream 前面把 value取出来

      // Get the singleton instance of SparkSession
      val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
      import spark.implicits._

      // Convert RDD[String] to DataFrame
      val wordsDataFrame = rdd.toDF("word")

      wordsDataFrame.groupBy("word").count().show(false)

    })


    ssc.start()
    ssc.awaitTermination()
  }
}

结果：
19/11/03 16:55:35 WARN SparkContext: Using an existing SparkContext; some configuration may not take effect.
+----+-----+
|word|count|
+----+-----+
|f   |25   |
|e   |20   |
|d   |25   |
|c   |23   |
|b   |21   |
|a   |26   |
+----+-----+

19/11/03 16:55:40 WARN SparkSession$Builder: Using an existing SparkSession; some configuration may not take effect.
+----+-----+
|word|count|
+----+-----+
+----+-----+

19/11/03 16:55:45 WARN SparkSession$Builder: Using an existing SparkSession; some configuration may not take effect.
+----+-----+
|word|count|
+----+-----+
+----+-----+


那么这个地方我们使用DF的方式 也可以按sql写 

官网也有些累加器广播变量在ss里面的使用 和RDD都是一样的  看官网学习

消费语义****
Definitions
The semantics of streaming systems are often captured in terms of how many times each record can be processed by the system. There are three types of guarantees that a system can provide under all possible operating conditions (despite failures, etc.)

1.At most once: Each record will be either processed once or not processed at all.
2.At least once: Each record will be processed one or more times. This is stronger than at-most once as it ensure that no data will be lost. But there may be duplicates.
3.Exactly once: Each record will be processed exactly once - no data will be lost and no data will be processed multiple times. This is obviously the strongest guarantee of the three.

1.流系统中 你的数据被处理了多少次  根据处理多少次 分为三大类
	At most once  
		 最多一次
		 数据可能有丢失
   At least once    
   		至少一次
   		数据不会丢失 但是数据可能会重复
   Exactly once
   		仅一次
   		数据不丢失 数据不会重复 数据也不会被处理多次


At most once  ：
	如果ss 消费kafka的数据 先保存offset 再处理结果 (我之前演示的代码 都是最后提交offset) 
	但是结果处理挂了 由于offset已经保存了 再处理结果 数据就丢失了 
	所以 一定要先处理结果再保存offset
	
 At least once ：按着上面的方式提交offset
 	就是结果处理挂了 offset没有提交 再处理结果 数据就重复了 

 Exactly once：
 	这个是最完美的 但是***
 	你要保证它还是有难度的   看官网

Semantics of output operations
Output operations (like foreachRDD) have at-least once semantics, that is, the transformed data may get written to an external entity more than once in the event of a worker failure. While this is acceptable for saving to file systems using the saveAsFiles operations (as the file will simply get overwritten with the same data), *additional effort may be necessary to achieve exactly-once semantics. There are two approaches.
1.Idempotent updates: Multiple attempts always write the same data. For example, saveAs*Files** always writes the same data to the generated files.
2.Transactional updates: All updates are made transactionally so that updates are made exactly once atomically. One way to do this would be the following.

Use the batch time (available in foreachRDD) and the partition index of the RDD to create an identifier. This identifier uniquely identifies a blob data in the streaming application.
Update external system with this blob transactionally (that is, exactly once, atomically) using the identifier. That is, if the identifier is not already committed, commit the partition data and the identifier atomically. Else, if this was already committed, skip the update.

	dstream.foreachRDD { (rdd, time) =>   //time就是你当前批次的时间
  rdd.foreachPartition { partitionIterator =>
    val partitionId = TaskContext.get.partitionId()    //task id 
    val uniqueId = generateUniqueId(time.milliseconds, partitionId)   //根据你 的批次的时间 和 task ID 来组成  唯一的一个key (这个key 你每次的操作基于这个key)
    // use this uniqueId to transactionally commit the data in partitionIterator
  }
}

Output operations (like foreachRDD) have at-least once semantics

foreachRDD是保证 at-least onc 这个级别的奥   并不是保证 仅一次的语义

 two approaches:
 	1.Idempotent updates  幂等    幂等可以通过主键来控制  主键设计不好等于0
	2.Transactional updates
   3.自己实现  把我们数据和offset绑定  

也就是说 spark 默认是达到 At least once  

需要借助At least once 去自己实现 Exactly once

Exactly once：其实挺简单的 
1.一个是offset提交
2.第二个是 业务数据写出去 
这个两个东西只要有offset能够关联的上  是没有问题的

调优 ****

Performance Tuning

1.减少每隔批次处理的时间
2.设置合理的批次大小  也就是说  你多久跑一个批次

那么通过案例结合UI讲解

object StreamingTuningApp {

  def main(args: Array[String]): Unit = {


    val ssc = ContextUtils.getStreamingContext(this.getClass.getSimpleName, 5)

    val groupId = "double_happy_group"

    val topic = "double_happy_offset"

    val kafkaParams = Map[String, Object](
      "bootstrap.servers" -> "hadoop101:9092,hadoop101:9093,hadoop101:9094", //Kafka地址
      "key.deserializer" -> classOf[StringDeserializer], //反序列化  接收端是反序列化   数据发送是要序列化
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest", //偏移量 从哪开始
      "enable.auto.commit" -> (false: java.lang.Boolean) //自动提交么？ 选择不自动提交  手工来管理
    )

    val topics = Array(topic)
    val stream = KafkaUtils.createDirectStream[String, String](
      ssc,
      PreferConsistent, //数据尽量均匀分布到各个executor上去
      Subscribe[String, String](topics, kafkaParams) //固定写法
    )

    //TODO...业务逻辑
    val result: DStream[(String, Int)] = stream.map(_.value()).
      flatMap(_.split(","))
      .map((_, 1)).reduceByKey(_ + _)

    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}
查看UI：

在这里插入图片描述
华丽——————————————————————————————————

ok 我们往kafka写10条数据

在这里插入图片描述
华丽——————————————————————————————————

华丽——————————————————————————————————

Input Rate：数据输入的速率
Scheduling Delay：每个批次启动任务等待了多少时间被调度  叫 调度的延迟
Processing Time：每个批次处理花费了多少时间
Total Delay：调度延迟 + 处理时间

这些在ui最下面都能看到

在这里插入图片描述

最佳实践：
	在下一个批次启动任务之前，一定要运行完前一个批次的数据处理     

如果你当前批次数据都没有处理完 下一个批次数据进来 也就意味着 你的数据逐渐逐渐堆积的 
你的数据在堆积 也就意味着 后面的作业肯定 对于Scheduling Delay 要花一些时间的 
整个作业运行时间也就越来越长的

这个就符合官网的两点 ：
	1.合适的batch size  也就是你的这一个批次 尽快的 处理完 不然你这个一个批次 接受数据以后 都不能很快的处理完
		后面的作业逐渐的堆积的 越堆积越多 那么越到后面你的应用程序会完蛋
   那么 batch time 设置多少合适？是根据需求来定的 

影响任务运行时长的要素有哪些？
	1.数据规模       
			数据量大 一定要多放core （多放core 不一定有用 为什么？ 因为你topic的partition 和RDD的partition是一一对应的）
			可以调整topic的分区数  分区数越多 也就意味着RDD的分区越多   RDD的分区越多task也就越多  task多 并行度就上去了
	2.batch time  
			time越长表示 一个批次的数据越多  数据越多你相同的资源下面 处理数据的时长肯定要多一点
	3.业务复杂度
			如果你的算子用的不好 也就意味着整个 带着大量的shuffle 你的性能会差很多很多  
所以这些东西一定要先测
	batch time 设置 需求来定是一方面  另一个一定到环境上测试 测试得到满意的结果 不是像sb产品经理拍脑袋那样 设置的

在这里插入图片描述

这个地方kafka是有一个限速的

为了ss程序7*24小时高性能稳定的跑 所以尽可能的 你的批次处理时间和调度间隔 有一个什么关系呢？ 你的批次处理处理时间 要比调度间隔小

Kafka限速：
  	配置一个参数 
  		 spark.streaming.kafka.maxRatePerPartition  ： 
  		 	Maximum rate (number of records per second) read from kafka
  		 	 when using the new Kafka direct stream API

修改代码：
  def getStreamingContext(appname:String,batch:Int,defalut:String = "local[2]") ={

    val sparkConf: SparkConf = new SparkConf().setAppName(appname).setMaster(defalut)
    
    //
    sparkConf.set("spark.streaming.kafka.maxRatePerPartition","10")

    new StreamingContext(sparkConf,Seconds(batch))
  }

先测试没有修改前的：
 同时我写入kafka一些数据   查看结果

在这里插入图片描述

测试修改后的

在这里插入图片描述

说明这个参数没有生效 emm 
我的问题 因为 我们每次往kafka写的数据才10条 我调大一下在测试   改为1000条  我写了两次往kafka里 查看结果

在这里插入图片描述

看 说面限速成功了  这样第一次处理就很好的限制你能处理的范围内

但是 300 怎么来的？
	而 这个参数 sparkConf.set("spark.streaming.kafka.maxRatePerPartition","10")
	我们设置的是 10 
	为什么ui上面看到的是300呢？

有个计算公式的 
	10s一个批次 
	topic 3 个分区   ==》数据量 = 10 *3*10 =300 	
	topic 1个分区   ===》 数据量 = 10 *1 *10 =100

maxRatePerPartition 指的是每一个分区10条	  那么一个topic就是30条  10s就是 300条

这个参数只适合 direct api  

限速的地方：
	1.当你topic里有大量没有处理的数据的时候 并且  "auto.offset.reset" -> "earliest" 选择earliest （就是从最早消费）
		为了防止第一个批次数据量过大 要设置限速
    2.你的业务高峰期和低峰期的时候数据量是不一样的       高峰期是低峰期数据量的很多倍的
    你不限速 很多作业都会处在等待状态 因为你前面批次的那一点时间已经处理不过来这一批次的数据了


但是有一个问题哟？
 我们把消费进来的最大数据量是控制住了 但是这个值是个静态的值  
 
 假设你的集群吞吐量可以 你的这个值设置小了 怎么办？
 	随着业务的数据量增长，那么这个东西在生产环境上运行一段时间以后 kafka 消费进来的数据最大的量 应该也
 	要随着 业务变化而变化就好了 引出一个东西   背压机制

背压机制  ： backpressure  1.5版本引进来的
什么是背压呢？
	可以在运行时根据前一个批次数据的运行情况，动态调整后续批次读入的数据量
	这样可以很长从容的面对数据量 突增 和波动的情况 

这个东西就是一个参数控制一下就ok了 

spark.streaming.backpressure.enabled

背压：它是根据当前批次决定后一个批次 
	
	如果offset 从头开始消费 而且数据量很多的时候   我们启动的时候是从第一个批次启动的
	但是第一个批次 依据谁呢？  没有的
	所以你第一次处理 没有很好的办法评估读取的量  所以还有一个参数 初始化的一个东西
spark.streaming.backpressure.initialRate  用来控制背压初始化读取的数据量
	但是：看下图

在这里插入图片描述

如果按照官方这个描述 数据是从receiver过来的  
而我们是没有receiver 这个东西的  direct是没有receiver的

这个参数能起作用么？测试一下

我设置为150
 def getStreamingContext(appname:String,batch:Int,defalut:String = "local[2]") ={

    val sparkConf: SparkConf = new SparkConf().setAppName(appname).setMaster(defalut)

    //
    sparkConf.set("spark.streaming.kafka.maxRatePerPartition","10")
    sparkConf.set("spark.streaming.backpressure.enabled","true")
    sparkConf.set("spark.streaming.backpressure.initialRate","150")

    new StreamingContext(sparkConf,Seconds(batch))
  }
  查看ui：

在这里插入图片描述
不能使用

那么该怎么办呢？  自己找找答案

优雅的关闭JVM

spark.streaming.stopGracefullyOnShutdown  
	If true, Spark shuts down the StreamingContext gracefully on JVM shutdown rather than immediately.
	会缓慢的关闭 而不是直接关闭

def getStreamingContext(appname: String, batch: Int, defalut: String = "local[2]") = {

  val sparkConf: SparkConf = new SparkConf().setAppName(appname).setMaster(defalut)

  //
  sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "10")
  sparkConf.set("spark.streaming.backpressure.enabled", "true")
  sparkConf.set("spark.streaming.stopGracefullyOnShutdown ", "true")
  new StreamingContext(sparkConf, Seconds(batch))
}