JAVA线程池管理及分布式HADOOP调度框架搭建 (一)

2014-11-24 11:03:48 · 作者: · 浏览: 2

平时的开发中线程是个少不了的东西,比如tomcat里的servlet就是线程,没有线程我们如何提供多用户访问呢?不过很多刚开始接触线程的开发攻城师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发,这确实是个比较难搞的工程。
那具体什么是线程呢?首先看看进程是什么,进程就是系统中执行的一个程序,这个程序可以使用内存、处理器、文件系统等相关资源。例如 QQ软件、eclipse、tomcat等就是一个exe程序,运行启动起来就是一个进程。为什么需要多线程?如果每个进程都是单独处理一件事情不能多个任务同时处理,比如我们打开qq只能和一个人聊天,我们用eclipse开发代码的时候不能编译代码,我们请求tomcat服务时只能服务一个用户请求,那我想我们还在原始社会。多线程的目的就是让一个进程能够同时处理多件事情或者请求。比如现在我们使用的QQ软件可以同时和多个人聊天,我们用eclipse开发代码时还可以编译代码,tomcat可以同时服务多个用户请求。

线程这么多好处,怎么把单进程程序变成多线程程序呢?不同的语言有不同的实现,这里说下java语言的实现多线程的两种方式:扩展java.lang.Thread类、实现java.lang.Runnable接口。
先看个例子,假设有100个数据需要分发并且计算。看下单线程的处理速度:


package thread;

import java.util.Vector;

public class OneMain {
public static void main(String[] args) throws InterruptedException {
Vector list = new Vector(100);

for (int i = 0; i < 100; i++) {
list.add(i);
}

long start = System.currentTimeMillis();
while (list.size() > 0) {
int val = list.remove(0);
Thread. sleep(100);//模拟处理
System. out.println(val);
}
long end = System.currentTimeMillis();

System. out.println("消耗 " + (end - start) + " ms");

}

// 消耗 10063 ms
}

再看一下多线程的处理速度,采用了10个线程分别处理:


package thread;

import java.util.Vector;
import java.util.concurrent.CountDownLatch;

public class MultiThread extends Thread {
static Vector list = new Vector(100);
static CountDownLatch count = new CountDownLatch(10);

public void run() {

while (list.size() > 0) {
try {
int val = list.remove(0);
System.out.println(val);
Thread.sleep(100);//模拟处理
} catch (Exception e) {
// 可能数组越界,这个地方只是为了说明问题,忽略错误
}

}

count.countDown(); // 删除成功减一

}

public static void main(String[] args) throws InterruptedException {

for (int i = 0; i < 100; i++) {
list.add(i);
}

long start = System.currentTimeMillis();

for (int i = 0; i < 10; i++) {
new MultiThread().start();
}

count.await();
long end = System.currentTimeMillis();
System.out.println("消耗 " + (end - start) + " ms");

}

// 消耗 1001 ms
}

大家看到了线程的好处了吧!单线程需要10S,10个线程只需要1S。充分利用了系统资源实现并行计算。也许这里会产生一个误解,是不是增加的线程个数越多效率越高。线程越多处理性能越高这个是错误的,范式都要合适,过了就不好了。需要普及一下计算机硬件的一些知识。我们的cpu是个运算器,线程执行就需要这个运算器来运行。不过这个资源只有一个,大家就会争抢。一般通过以下几种算法实现争抢cpu的调度:

1、队列方式,先来先服务。不管是什么任务来了都要按照队列排队先来后到。
2、时间片轮转,这也是最古老的cpu调度算法。设定一个时间片,每个任务使用cpu的时间不能超过这个时间。如果超过了这个时间就把任务暂停保存状态,放到队列尾部继续等待执行。
3、优先级方式:给任务设定优先级,有优先级的先执行,没有优先级的就等待执行。

这三种算法都有优缺点,实际操作系统是结合多种算法,保证优先级的能够先处理,但是也不能一直处理优先级的任务。硬件方面为了提高效率也有多核cpu、多线程cpu等解决方案。目前看得出来线程增多了会带来cpu调度的负载增加,cpu需要调度大量的线程,包括创建线程、销毁线程、线程是否需要换出cpu、是否需要分配到cpu。这些都是需要消耗系统资源的,由此,我们需要一个机制来统一管理这一堆线程资源。线程池的理念提出解决了频繁创建、销毁线程的代价。线程池指预先创建好一定大小的线程等待随时服务用户的任务处理,不必等到用户需要的时候再去创建。特别是在java开发中,尽量减少垃圾回收机制的消耗就要减少对象的频繁创建和销毁。

之前我们都是自己实现的线程池,不过随之jdk1.5的推出,jdk自带了 java.util.concurrent并发开发框架,解决了我们大部分线程池框架的重复工作。可以使用Executors来建立线程池,列出以下大概的,后面再介绍。
newCachedThreadPool 建立具有缓存功能线程池
newFixedThreadPool 建立固定数量的线程
newScheduledThread