这几天在学习spark-streaming做流式计算,一开始写了一个比较简单的
测试程序能够顺利运行,但是当在项目pom.xml中加入了一些项目公共依赖之后就死活编译不过,或者能编译过但是不能run,根本原因就是如下这些包:
<dependency>
<groupId>org.apache.sparkgroupId>
<artifactId>spark-core_2.10artifactId>
<version>1.5.2version>
dependency>
<dependency>
<groupId>org.apache.sparkgroupId>
<artifactId>spark-streaming_2.10artifactId>
<version>1.5.2version>
dependency>
<dependency>
<groupId>org.apache.sparkgroupId>
<artifactId>spark-streaming-kafka_2.10artifactId>
<version>1.5.2version>
dependency>
间接依赖了
servlet-api
,
org.jboss.netty
这些包,并且pom中我引入的另外一个依赖包A,它也间接地依赖了
org.jboss.netty
和
servlet-api
,并且和spark中引用的不是同一个版本。这样,一个项目中就出现了好几对相同的jar包,并且版本不一致,这个时候就会出现版本冲突。那Maven是如何决定选择哪一个版本的呢?
Maven对重复依赖的解决方案
当一个项目中出现重复的依赖包时,maven 2.0.9之后的版本会用如下的规则来决定使用哪一个版本的包:
最短路径原则
比如有如下两个依赖关系:
A -> B -> C -> D(V1)
F -> G -> D(V2)
这个时候项目中就出现了两个版本的D,这时maven会采用最短路径原则,选择V2版本的D,因为V1版本的D是由A包间接依赖的,整个依赖路径长度为3,而V2版本的D是由F包间接依赖的,整个依赖路径长度为2。
声明优先原则
假设有如下两个依赖关系:
A -> B -> D(V1)
F -> G -> D(V2)
这个时候因为两个版本的D的依赖路径都是一样长,最短路径原则就失效了。这个时候Maven的解决方案是:
按照依赖包在pom.xml中声明的先后顺序,优先选择先声明的包