内存模型
Table of Contents
多任务处理 在现代计算机操作系统中几乎已是一项必备的功能了。在许多情况下,让计算机同时去做几件事情,不仅是因为计算机的运算能力强大了,还有一个很重要的原因是 计算机的 运算 速度与它的 存储 和 通信 子系统速度的差距太大 ,大量的时间都花费在 磁盘I/O 、 网络通信 或者 数据库 访问上。如果不希望处理器在大部分时间里都处于等待其他资源的状态,就必须使用一些手段去把处理器的运算能力“压榨”出来,否则就会造成很大的浪费,而让计算机同时处理几项任务则是最容易想到、也被证明是非常有效的“压榨”手段
除了充分利用计算机处理器的能力外, 一个服务端同时对多个客户端 提供服务则是另一个更具体的并发应用场景。衡量一个服务性能的高低好坏, 每秒事务处理数 ( TPS )是最重要的指标之一,它代表着 一秒内服务端平均能响应的请求总数 ,而TPS值与程序的并发能力又有非常密切的关系。对于计算量相同的任务,程序线程并发协调得越有条不紊,效率自然就会越高;反之,线程之间 频繁阻塞 甚至 死锁 ,将会 大大降低程序的并发能力
服务端是Java语言最擅长的领域之一,这个领域的应用占了Java应用中最大的一块份额,不过如何写好并发应用程序却又是服务端程序开发的难点之一,处理好并发方面的问题通常需要更多的编码经验来支持。幸好Java语言和虚拟机提供了许多工具,把并发编程的门槛降低了不少。并且各种中间件服务器、各类框架都努力地替程序员处理尽可能多的线程并发细节,使得程序员在编码时能更关注业务逻辑,而不是花费大部分时间去关注此服务会同时被多少人调用、如何协调硬件资源
但是无论语言、中间件和框架如何先进,开发人员都不能期望它们能独立完成所有并发处理的事情,了解并发的内幕也是成为一个高级程序员不可缺少的课程
Amdahl定律通过系统中并行化与串行化的比重来描述多处理器系统能获得的运算加速能力 摩尔定律则用于描述处理器晶体管数量与运行效率之间的发展关系 这两个定律的更替代表了近年来硬件发展从追求处理器频率到追求多核心并行处理的发展过程
硬件的效率与一致性
先花费一点时间去了解一下物理计算机中的 并发 问题
物理机遇到的并发问题与虚拟机中的情况有不少相似之处 物理机对并发的处理方案对于虚拟机的实现也有相当大的参考意义
让计算机并发执行若干个运算任务 与 更充分地利用计算机处理器的效能 之间的因果关系,看起来顺理成章,实际上它们之间的关系并没有想象中的那么简单,其中一个重要的复杂性来源是 绝大多数的运算任务都不可能只靠处理器 计算 就能完成 ,处理器至少要与 内存交互 ,如 读取运算数据 、 存储运算结果 等,这个I/O操作是很难消除的(无法仅靠寄存器来完成所有运算任务)。由于计算机的存储设备与处理器的运算速度有几个数量级的差距,所以现代计算机系统都不得不加入一层 读写速度尽可能接近处理器运算速度的高速缓存 来作为内存与处理器之间的缓冲:
- 将运算 需要使用到的数据复制到缓存 中,让运算能快速进行
- 当运算结束后再从 缓存同步计算结果回内存 之中,这样处理器就无须等待缓慢的内存读写了
基于高速缓存的存储交互很好地解决了处理器与内存的速度矛盾,但是也为计算机系统带来更高的复杂度,因为它引入了一个新的问题: 缓存一致性 。在多处理器系统中,每个处理器都有自己的高速缓存,而它们又共享同一主内存(Main Memory),如下图所示:
当多个处理器的运算任务都涉及同一块主内存区域时,将可能导致各自的缓存数据不一致 如果真的发生这种情况,那同步回到主内存时以谁的缓存数据为准呢? 为了解决一致性的问题,需要各个处理器访问缓存时都遵循一些协议,在读写时要根据协议来进行操作 这类协议有MSI、MESI、MOSI、Synapse、Firefly及Dragon Protocol等
以后将会多次提到的 内存模型 一词,可以理解为 在 特定的操作协议 下,对 特定的内存 或 高速缓存 进行读写访问的过程抽象
不同架构的物理机器可以拥有不一样的内存模型,而Java虚拟机也有自己的内存模型 这里介绍的内存访问操作与硬件的缓存访问操作具有很高的可比性
除了增加高速缓存之外,为了使得处理器内部的运算单元能尽量被充分利用,处理器可能会对输入代码进行 乱序执行 优化,处理器会在计算之后将乱序执行的结果重组,保证该结果与顺序执行的结果是一致的,但并不保证程序中各个语句计算的先后顺序与输入代码中的顺序一致,因此,如果存在一个计算任务依赖另外一个计算任务的中间结果,那么其 顺序性并不能靠代码的先后顺序来保证 。与处理器的乱序执行优化类似,Java虚拟机的即时编译器中也有类似的 指令重排序 优化
JVM内存模型
Java虚拟机规范中试图定义一种 Java内存模型 (JMM)来 屏蔽掉各种硬件和操作系统的内存访问差异 ,以实现让Java程序在各种平台下都能达到一致的内存访问效果
在此之前,主流程序语言(如C/C++等)直接使用物理硬件和操作系统的内存模型 由于不同平台上内存模型的差异,有可能导致程序在一套平台上并发完全正常,而在另外一套平台上并发访问却经常出错 因此在某些场景就必须针对不同的平台来编写程序
定义Java内存模型并非一件容易的事情:
- 这个模型必须定义得 足够严谨 ,才能让Java的并发内存访问操作不会产生歧义
- 也必须定义得 足够宽松 ,使得虚拟机的实现有足够的自由空间去利用硬件的各种特性(寄存器、高速缓存和指令集中某些特有的指令)来获取更好的执行速度
经过长时间的验证和修补,在 JDK 1.5(实现了 JSR-133[2] )发布后,Java内存模型已经成熟和完善起来了
主内存与工作内存
Java内存模型的主要目标是 定义程序中各个变量的访问规则 ,即在虚拟机中将变量存储到内存和从内存中取出变量这样的底层细节。此处的 变量 与 Java编程中所说的变量 有所区别,它包括了 实例字段 、 静态字段 和 构成数组对象的元素 ,但不包括 局部变量 与 方法参数 ,因为后者是 线程私有的 ,不会被共享,自然就不会存在竞争问题
为了获得较好的执行效能 Java内存模型并没有限制执行引擎使用处理器的特定寄存器或缓存来和主内存进行交互 也没有限制即时编译器进行调整代码执行顺序这类优化措施
Java内存模型规定了 所有的变量都存储在主内存 中
此处的主内存与介绍物理硬件时的主内存名字一样,两者也可以互相类比,但此处仅是虚拟机内存的一部分
每条 线程 还有自己的 工作内存 :
- 线程的工作内存中保存了被该线程使用到的 变量的主内存副本拷贝
- 线程对变量的所有操作( 读取 、 赋值 等)都必须在 工作内存 中进行,而不能 直接读写主内存中的变量
- 不同的线程 之间也 无法直接访问对方工作内存中的变量 ,线程间变量值的 传递 均需要通过 主内存 来完成
可与前面讲的处理器高速缓存类比
线程、主内存、工作内存三者的交互关系如下图所示:
注意:
- 如果局部变量是一个 reference 类型,它引用的对象在 Java堆中可被各个线程共享 ,但是reference本身在 Java栈的局部变量表 中,它是 线程私有的
- 拷贝副本,假设线程中访问一个10MB的对象,也会把这10MB的内存复制一份拷贝出来吗? 事实上并不会如此, 这个 对象的引用 、对象中 某个在线程访问到的字段 是 有可能存在拷贝 的,但不会有虚拟机实现成把整个对象拷贝一次
- volatile 变量依然有 工作内存的拷贝 ,但是由于它 特殊的操作顺序性 规定,所以看起来如同直接在主内存中读写访问一般,因此这里的描述对于volatile也并不存在例外
- 除了实例数据,Java堆还保存了对象的其他信息,对于HotSpot虚拟机来讲
- Mark Word
- 存储对象哈希码
- GC标志
- GC年龄
- 同步锁等信息
- Klass Point : 指向存储类型元数据的指针
- 字节对齐补白的填充数据 : 如果实例数据刚好满足8字节对齐的话,则可以不存在补白
- Mark Word
内存间交互操作
关于主内存与工作内存之间具体的交互协议,即一个变量如何从主内存拷贝到工作内存、如何从工作内存同步回主内存之类的实现细节,Java内存模型中定义了以下 8种操作 来完成,虚拟机实现时必须保证下面提及的 每一种操作都是原子的、不可再分的
对于double和long类型的变量来说,load、store、read和write操作在某些平台上允许有例外
- lock (锁定):作用于 主内存 的变量,它把一个变量 标识为一条线程独占 的状态
- unlock (解锁):作用于 主内存 的变量,它把一个处于 锁定状态的变量释放 出来,释放后的变量才可以被 其他线程 锁定
- read (读取):作用于 主内存 的变量,它把一个变量的值从 主内存传输到线程的工作内存 中,以便随后的 load 动作使用
- load (载入):作用于 工作内存 的变量,它把 read 操作从主内存中得到的 变量值放入工作内存的变量副本 中
- use (使用):作用于 工作内存 的变量,它把工作内存中一个 变量的值传递给执行引擎 ,每当虚拟机遇到一个 需要使用到变量的值 的字节码指令时将会执行这个操作
- assign (赋值):作用于 工作内存 的变量,它把一个 从执行引擎接收到的值赋给工作内存的变量 ,每当虚拟机遇到一个给 变量赋值 的字节码指令时执行这个操作
- store (存储):作用于 工作内存 的变量,它把工作内存中一个 变量的值传送到主内存 中,以便随后的 write 操作使用
- write (写入):作用于 主内存 的变量,它把 store 操作从 工作内存中得到的变量的值放入主内存的变量 中
执行顺序
- 如果要把一个变量从 主内存复制到工作内存 ,那就要 顺序地执行 read 和 load 操作
- 如果要把变量从 工作内存同步回主内存 ,就要 顺序地执行 store 和 write 操作
注意,Java内存模型只要求上述两个操作必须按顺序执行,而没有保证是连续执行 也就是说,read与load之间、store与write之间是可插入其他指令的 如对主内存中的变量a、b进行访问时,一种可能出现顺序是read a、read b、load b、load a
除此之外,Java内存模型还规定了在执行上述8种基本操作时必须满足如下规则:
- 不允许 read 和 load 、 store 和 write 操作之一 单独出现 ,即不允许一个变量从主内存读取了但工作内存不接受,或者从工作内存发起回写了但主内存不接受的情况出现
- 不允许一个线程丢弃它的最近的assign操作,即变量在 工作内存中改变了之后必须把该变化同步回主内存
- 不允许一个线程无原因地, 没有发生过任何 assign 操作 ,把数据从线程的 工作内存同步回主内存中
- 一个 新的变量只能在主内存中诞生 ,不允许在工作内存中直接使用一个 未被初始化 ( load 或 assign )的变量,换句话说,就是 对一个变量实施 use 、 store 操作之前,必须先执行过了 assign 和 load 操作
- 一个变量在 同一个时刻只允许 一条线程 对其进行 lock 操作
- 但 lock 操作可以被 同一条线程 重复执行多次 ,多次执行 lock 后,只有 执行相同次数的 unlock 操作 ,变量才会被解锁
- 如果对一个变量执行 lock 操作,那将会 清空工作内存中此变量的值 ,在 执行引擎 使用这个变量前,需要 重新执行 load 或 assign 操作 初始化变量的值
- 如果一个变量 事先没有被 lock 操作锁定 ,那就 不允许对它执行 unlock 操作 ,也 不允许去 unlock 一个 被其他线程 锁定 住的变量
- 对一个变量执行 unlock 操作之前,必须 先把此变量同步回主内存中 ,也就是执行 store 、 write 操作
基于理解难度和严谨性考虑,最新的JSR-133文档中,已经放弃采用这8种操作去定义Java内存模型的访问协议了 仅是描述方式改变了,Java内存模型并没有改变
volatile型变量的特殊规则
关键字 volatile 可以说是Java虚拟机提供的 最轻量级的同步机制
volatile 并不容易完全被正确、完整地理解,以至于许多程序员都习惯不去使用它,遇到需要处理多线程数据竞争问题的时候一律使用 synchronized 来进行同步 了解volatile变量的语义对后面了解多线程操作的其他特性很有意义 Java内存模型对volatile专门定义了一些特殊的访问规则,在介绍这些比较拗口的规则定义之前,先用不那么正式但通俗易懂的语言来介绍一下这个关键字的作用
可见性
当一个变量定义为 volatile 之后,它将保证此变量对所有线程的 可见性 ,这里的 可见性 是指 当一条线程修改了这个变量的值,新值对于其他线程来说是可以立即得知的 。而普通变量不能做到这一点,普通变量的值在线程间传递均需要通过主内存来完成
例如,线程A修改一个普通变量的值,然后向主内存进行回写 另外一条线程B在线程A回写完成了之后再从主内存进行读取操作,新变量值才会对线程B可见
关于volatile变量的可见性,经常会被开发人员误解,认为以下描述成立:“volatile变量对所有线程是立即可见的,对volatile变量所有的写操作都能立刻反应到其他线程之中,换句话说,volatile变量在各个线程中是一致的,所以基于volatile变量的运算在并发下是安全的”。这句话的论据部分并没有错,但是其论据并不能得出 基于volatile变量的运算在并发下是安全的 这个结论。volatile变量在 各个线程的工作内存中不存在一致性问题 (在各个线程的工作内存中,volatile变量也可以存在不一致的情况,但由于每次使用之前都要先刷新,执行引擎看不到不一致的情况,因此可以认为不存在一致性问题),但是Java里面的 运算并非原子操作 ,导致 volatile变量的运算在并发下一样是不安全的 ,可以通过一段简单的演示来说明原因,请看下面代码:
class VolatileTest { private static volatile int race = 0; private static void increase() { race++; } private static final int THREADS_COUNT = 20; public static void main(String[] args) { Thread[] threads = new Thread[THREADS_COUNT]; for (int i = 0; i < THREADS_COUNT; i++) { threads[i] = new Thread(() -> { for (int i1 = 0; i1 < 10000; i1++) { increase(); } }); threads[i].start(); } // 等待所有累加线程都结束 while (Thread.activeCount() > 1) Thread.yield(); System.out.println(race); } }
这段代码发起了20个线程,每个线程对race变量进行10000次自增操作 如果这段代码能够正确并发的话,最后输出的结果应该是200000 然而运行完这段代码之后,并不会获得期望的结果,而且会发现每次运行程序,输出的结果都不一样,都是一个小于200000的数字
问题就出现在自增运算 race++ 之中,用Javap反编译这段代码后会得到下面代码,发现只有一行代码的 increase() 方法在Class文件中是由 4条字节码指令构成的 (return指令不是由race++产生的,这条指令可以不计算),从字节码层面上很容易就分析出并发失败的原因了:
- 当 getstatic 指令把 race的值 取到 操作栈顶 时, volatile关键字保证了race的值在此时是正确的
- 但是在执行 iconst_1 、 iadd 这些指令的时候, 其他线程可能已经把race的值加大了 ,而 在操作栈顶的值就变成了过期的数据 ,所以 putstatic 指令执行后就可能 把较小的race值同步回主内存 之中
public static void increase(); descriptor: ()V flags: ACC_PUBLIC, ACC_STATIC Code: stack=2, locals=0, args_size=0 0: getstatic #2 // Field race:I 3: iconst_1 4: iadd 5: putstatic #2 // Field race:I 8: return LineNumberTable: line 11: 0 line 12: 8
客观地说,在此使用字节码来分析并发问题,仍然是不严谨的 因为即使编译出来只有一条字节码指令,也并不意味执行这条指令就是一个原子操作 一条字节码指令在解释执行时,解释器将要运行许多行代码才能实现它的语义 如果是编译执行,一条字节码指令也可能转化成若干条本地机器码指令 此处使用-XX:+PrintAssembly参数输出反汇编来分析会更加严谨一些,但考虑到阅读的方便,并且字节码已经能说明问题,所以此处使用字节码来分析
由于 volatile 变量只能保证可见性,在不符合以下两条规则的运算场景中,仍然要通过 加锁 来 保证原子性 :
- 运算结果并 不依赖变量的当前值 ,或者能够确保只有 单一的线程 修改变量的值
- 变量 不需要与其他的状态变量 共同参与不变约束
如下的代码所示的这类场景就很适合使用 volatile 变量来控制并发,当 shutdown() 方法被调用时,能保证所有线程中执行的 doWork() 方法都立即停下来:
volatile boolean shutdownRequested; public void shutdown(){ shutdownRequested=true; } public void doWork(){ while(!shutdownRequested){ //do stuff } }
指令重排
使用volatile变量的第二个语义是 禁止指令重排序优化 ,普通的变量仅仅会保证在 该方法的执行过程中所有 依赖赋值结果 的地方都能获取到正确的结果 ,而 不能保证 变量赋值操作 的顺序与 程序代码中的执行顺序 一致 。因为在一个线程的方法执行过程中无法感知到这点,这也就是Java内存模型中描述的所谓的 线程内表现为串行的语义
继续通过一个例子来看看为何指令重排序会干扰程序的并发执行,演示程序如代码所示:
Map configOptions; char[] configText; //此变量必须定义为volatile volatile boolean initialized=false; //假设以下代码在线程A中执行 //模拟读取配置信息,当读取完成后将initialized设置为true以通知其他线程配置可用 configOptions = new HashMap(); configText = readConfigFile(fileName); processConfigOptions(configText, configOptions); initialized = true; //假设以下代码在线程B中执行 //等待initialized为true,代表线程A已经把配置信息初始化完成 while(!initialized){ sleep(); } //使用线程A中初始化好的配置信息 doSomethingWithConfig();
上面的程序是一段伪代码,其中描述的场景十分常见,只是在处理配置文件时一般不会出现并发而已。如果定义 initialized 变量时没有使用volatile修饰,就可能会由于 指令重排序的优化 ,导致 位于线程A中最后一句的代码 initialized=true 被提前执行 ,这样在线程B中使用配置信息的代码就可能出现错误,而volatile关键字则可以避免此类情况的发生
这里虽然使用Java作为伪代码,但所指的重排序优化是机器级的优化操作,提前执行是指这句话对应的汇编代码被提前执行
指令重排序是并发编程中最容易让开发人员产生疑惑的地方,除了上面伪代码的例子之外,再举一个可以实际操作运行的例子来分析volatile关键字是如何禁止指令重排序优化的。下面代码是一段标准的DCL单例代码,可以观察加入 volatile 和 未加入volatile关键字时所生成汇编代码的差别:
public class Singleton { private volatile static Singleton instance; public static Singleton getInstance() { if (instance == null) { synchronized (Singleton.class) { if (instance == null) { instance = new Singleton(); } } } return instance; } public static void main(String[] args) { Singleton.getInstance(); } }
编译后,这段代码对instance变量赋值部分如下所示:
0x01a3de0f:mov$0x3375cdb0,%esi ;……beb0cd75 33 ;{oop('Singleton')} 0x01a3de14:mov%eax,0x150(%esi) ;……89865001 0000 0x01a3de1a:shr$0x9,%esi ;……c1ee09 0x01a3de1d:movb$0x0,0x1104800(%esi) ;……c6860048 100100 0x01a3de24:lock addl$0x0,(%esp) ;……f0830424 00 ;*putstatic instance ;- Singleton:getInstance@24
通过对比就会发现,关键变化在于有volatile修饰的变量,赋值后(前面 mov%eax,0x150(%esi) 这句便是赋值操作)多执行了一个 lock addl $0x0,(%esp) 操作,这个操作相当于一个 内存屏障 (指重排序时不能把后面的指令重排序到内存屏障之前的位置),只有一个CPU访问内存时,并不需要内存屏障;但如果有两个或更多CPU访问同一块内存,且其中有一个在观测另一个,就需要内存屏障来保证一致性了。关键在于lock前缀,它的作用是使得 本CPU的Cache写入了内存 ,该写入动作也会 引起别的CPU或者别的内核无效化其Cache ,这种操作相当于对Cache中的变量做了一次前面介绍Java内存模式中所说的 store和write 操作。所以通过这样一个空操作,可让前面volatile变量的 修改对其他CPU立即可见
lock 指令中的 addl $0x0,(%esp) (把ESP寄存器的值加0)显然是一个 空操作 采用这个空操作而不是空操作指令nop是因为IA32手册规定 lock前缀不允许配合nop指令使用
从硬件架构上讲,指令重排序是指 CPU采用了允许将 多条指令不按程序规定的顺序分开发送给各相应电路单元处理 。但并不是说指令任意重排,CPU需要能 正确处理指令依赖情况以保障程序能得出正确的执行结果
譬如 指令1 把地址 A 中的值加10,指令2把地址 A 中的值乘以2,指令3把地址 B 中的值减去3 这时指令1和指令2是有依赖的,它们之间的顺序不能重排,因为 (A+10) * 2 与 A * 2 +10 显然不相等 但指令3可以重排到指令1、2之前或者中间,只要保证CPU执行后面依赖到A、B值的操作时能获取到正确的A和B值即可 所以在本内CPU中,重排序看起来依然是有序的
实际上, lock addl$0x0, (%esp) 指令把 修改同步到内存 时,意味着 所有之前的操作都已经执行完成 ,这样便形成了 指令重排序无法越过内存屏障 的效果
总结
volatile 能让代码比使用其他的同步工具更快吗?在某些情况下,volatile的同步机制的性能确实要优于锁,但是由于虚拟机对锁实行的许多消除和优化,使得很难量化地认为volatile就会比synchronized快多少。如果让volatile自己与自己比较,那可以确定一个原则: volatile变量 读操作的性能消耗与普通变量几乎没有什么差别 ,但是 写操作则可能会慢一些 ,因为它需要在本地代码中插入许多内存屏障指令来保证处理器不发生乱序执行。不过即便如此,大多数场景下volatile的总开销仍然要比锁低,在volatile与锁之中选择的唯一依据仅仅是 volatile的语义能否满足使用场景的需求
最后,回头看一下Java内存模型中对volatile变量定义的特殊规则。假定 T 表示一个 线程 , V 和 W 分别表示两个 volatile型变量 ,那么在进行read、load、use、assign、store和write操作时需要满足如下规则:
- 只有当线程 T 对变量 V 执行的前一个动作是 load 的时候,线程 T 才能对变量 V 执行 use 动作;并且,只有当线程 T 对变量 V 执行的后一个动作是 use 的时候,线程 T 才能对变量 V 执行 load 动作。线程T对变量V的use动作可以认为是和 线程 T 对变量 V 的 load、read动作相关联,必须连续一起出现。这条规则要求在 工作内存 中, 每次使用 V 前都必须先从主内存刷新最新的值 ,用于保证能看见其他线程对变量 V 所做的修改后的值
- 只有当线程 T 对变量 V 执行的前一个动作是 assign 的时候,线程 T 才能对变量 V 执行 store 动作;并且,只有当线程 T 对变量 V 执行的后一个动作是 store 的时候,线程 T 才能对变量 V 执行 assign 动作。线程 T 对变量 V 的 assign动作可以认为是和线程T对变量V的 store、write 动作相关联,必须连续一起出现。这条规则要求在工作内存中, 每次修改 V 后都必须立刻同步回主内存中 ,用于保证其他线程可以看到自己对变量V所做的修改
volatile屏蔽指令重排序的语义在JDK 1.5中才被完全修复 此前的JDK中即使将变量声明为volatile也仍然不能完全避免重排序所导致的问题(主要是volatile变量前后的代码仍然存在重排序问题) 这点也是在JDK 1.5之前的Java中无法安全地使用DCL(双锁检测)来实现单例模式的原因
对于long和double型变量的特殊规则
Java内存模型要求lock、unlock、read、load、assign、use、store、write这8个操作都具有原子性,但是对于64位的数据类型 ( long 和 double ),在模型中特别定义了一条相对宽松的规定: 允许虚拟机将没有被 volatile 修饰的64位数据的读写操作划分为 两次32位的操作 来进行 ,即允许虚拟机实现选择可以不保证64位数据类型的 load 、_store_ 、 read 和 write 这4个操作的原子性,这点就是所谓的 long和double的非原子性协定
如果有多个线程共享一个并未声明为volatile的long或double类型的变量,并且同时对它们进行读取和修改操作,那么某些线程可能会读取到一个既非原值,也不是其他线程修改值的代表了 半个变量 的数值
不过这种读取到“半个变量”的情况非常罕见,在目前商用Java虚拟机中不会出现 因为Java内存模型虽然允许虚拟机不把long和double变量的读写实现成原子操作 但允许虚拟机选择把这些操作实现为具有原子性的操作,而且还“强烈建议”虚拟机这样实现
在实际开发中,目前各种平台下的商用虚拟机几乎都选择把64位数据的读写操作作为原子操作来对待,因此在编写代码时 一般不需要把用到的long和double变量专门声明为volatile
原子性、可见性与有序性
介绍完Java内存模型的相关操作和规则,再整体回顾一下这个模型的特征。Java内存模型是围绕着在并发过程中如何处理 原子性 、 可见性 和 有序性 这3个特征来建立的,逐个来看一下哪些操作实现了这3个特性
原子性
由Java内存模型来直接保证的 原子性 变量操作包括 read 、 load 、 assign 、 use 、 store 和 write
大致可以认为基本数据类型的访问读写是具备原子性的,例外就是long和double的非原子性协定 只要知道这件事情就可以了,无须太过在意这些几乎不会发生的例外情况
如果应用场景需要一个更大范围的原子性保证(经常会遇到),Java内存模型还提供了 lock 和 unlock 操作来满足这种需求,尽管虚拟机未把 lock 和 unlock 操作直接开放给用户使用,但是却提供了更高层次的字节码指令 monitorenter 和 monitorexit 来 隐式 地使用这两个操作,这两个字节码指令反映到Java代码中就是 同步块 synchronized 关键字,因此在 synchronized 块之间的操作也具备 原子性
可见性
可见性是指 当一个线程修改了共享变量的值,其他线程能够立即得知这个修改 。在讲解 volatile 变量的时候已详细讨论过这一点。Java内存模型是通过 在变量修改后将新值同步回主内存,在变量读取前从主内存刷新变量值 这种 依赖主内存作为传递媒介 的方式来实现可见性的,无论是普通变量还是volatile变量都是如此。普通变量与 volatile 变量的区别是,volatile的 特殊规则保证了新值能立即同步到主内存,以及每次使用前立即从主内存刷新 。因此,可以说 volatile 保证了多线程操作时 变量的可见性 ,而普通变量则不能保证这一点
除了 volatile 之外,Java还有两个关键字能实现可见性,即 synchronized 和 final :
- synchronized:可见性是由 对一个变量执行 unlock 操作之前,必须先把此变量同步回主内存中(执行 store 、 write 操作) 这条规则获得的
- final: 可见性是由 被final修饰的字段在构造器中一旦初始化完成,并且构造器没有把 this 的引用传递 出去 ,那在其他线程中就能看见final字段的值。如下面代码所示,变量i与j都具备可见性,它们无须同步就能被其他线程正确访问:
public static final int i; public final int j; static{ i=0; //do something } { //也可以选择在构造函数中初始化 j=0; //do something }
this引用逃逸是一件很危险的事情,其他线程有可能通过这个引用访问到“初始化了一半”的对象
有序性
Java内存模型的 有序性 在讲解volatile时也详细地讨论过了,Java程序中天然的有序性可以总结为:
- 如果在 本线程 内观察,所有的操作都是 有序的 :线程内表现为 串行 的语义
- 如果在 一个线程中观察另一个线程 ,所有的操作都是 无序的 :
- 指令重排序 现象
- 工作内存与主内存同步延迟 现象
Java语言提供了 volatile 和 synchronized 两个关键字来保证线程之间操作的 有序性 :
- volatile关键字本身就包含了 禁止指令重排序 的语义
- synchronized则是由 一个变量在同一个时刻只允许一条线程对其进行lock操作 这条规则获得的,这条规则决定了 持有同一个锁的两个同步块只能 串行地 进入
介绍完并发中3种重要的特性后,synchronized 关键字在需要这3种特性的时候都可以作为其中一种的解决方案 因此大部分的并发控制操作都能使用 synchronized 来完成 synchronized的“万能”也间接造就了它被程序员滥用的局面,越“万能”的并发控制,通常会伴随着越大的性能影响
先行发生原则
如果Java内存模型中所有的有序性都仅仅靠 volatile 和 synchronized 来完成,那么有一些操作将会变得很烦琐,但是在编写Java并发代码的时候并没有感觉到这一点,这是因为Java语言中有一个 先行发生 ( happens-before )的原则。这个原则非常重要,它是 判断数据是否存在竞争、线程是否安全 的主要依据,依靠这个原则,可以通过几条规则一揽子地解决并发环境下两个操作之间是否可能存在冲突的所有问题
先行发生是Java内存模型中定义的 两项操作之间的偏序关系 ,如果说操作 A 先行发生于操作 B,其实就是说在发生操作 B 之前, 操作 A 产生的影响能被操作 B 观察到 , 影响 包括 修改了内存中共享变量的值 、 发送了消息 、 调用了方法 等。可以举个例子来说明一下,如下面代码所示的这3句伪代码:
//以下操作在线程A中执行 i=1; //以下操作在线程B中执行 j=i; //以下操作在线程C中执行 i=2;
假设线程 A 中的操作 i=1 先行发生于线程 B 的操作 j=i ,那么可以确定在线程 B 的操作执行后,变量 j 的值一定等于 1 ,得出这个结论的依据有两个: 1. 根据先行发生原则, i=1 的结果可以被观察到 2. 线程 C 还没登场,线程 A 操作结束之后 没有其他线程会修改变量 i 的值 现在再来考虑线程 C,依然保持线程 A 和线程 B 之间的先行发生关系,而线程 C 出现在线程 A 和线程 B 的操作之间,但是 线程 C 与 线程 B 没有先行发生关系 ,那 j 的值会是多少呢? 答案是 不确定! ,1 和 2 都有可能 因为线程 C 对变量 i 的影响可能会被线程B观察到,也可能不会,这时候线程 B 就存在 读取到过期数据的风险,不具备多线程安全性
下面是Java内存模型下一些“天然的”先行发生关系,这些先行发生关系 无须任何同步器协助 就已经存在,可以在编码中直接使用。如果两个操作之间的关系不在此列,并且无法从下列规则推导出来的话,它们就没有顺序性保障,虚拟机可以对它们 随意地进行重排序 :
- 程序次序规则:在一个线程内,按照 程序代码顺序 ,书写在前面的操作先行发生于书写在后面的操作。准确地说,应该是 控制流顺序 而不是程序代码顺序,因为要考虑分支、循环等结构
- 管程锁定规则:一个 unlock 操作 先行发生 于后面对 同一个锁的lock 操作。这里必须强调的是 同一个锁 ,而 后面 是指 时间上的先后顺序
- volatile变量规则:对一个 volatile变量的写操作 先行发生于后面 对这个变量的读操作 ,这里的 后面 同样是指 时间上的先后顺序
- 线程启动规则: Thread对象的start() 方法先行发生于 此线程的每一个动作
- 线程终止规则:线程中的 所有操作 都先行发生于对此线程的 终止检测
- 通过 Thread.join() 方法 结束线程
- Thread.isAlive() 的返回值等手段 检测到线程已经终止执行
- 线程中断规则:对线程 interrupt()方法的调用 先行发生于被 中断线程的代码检测到中断事件的发生
- 通过 Thread.interrupted() 方法 检测到是否有中断发生
- 对象终结规则:一个 对象的初始化完成 (构造函数执行结束)先行发生于它的 finalize() 方法的开始
- 传递性:如果操作 A 先行发生于操作 B,操作 B 先行发生于操作 C,那就可以得出操作 A 先行发生于操作 C 的结论
Java语言无须任何同步手段保障就能成立的先行发生规则就只有上面这些了, 使用这些规则去判定操作间是否具备顺序性 ,对于 读写共享变量 的操作来说,就是 线程是否安全 ,可以从下面这个例子中感受一下 时间上的先后顺序 与 先行发生 之间有什么不同。演示例子如下面所示:
private int value=0; pubilc void setValue(int value){ this.value=value; } public int getValue(){ return value; }
这是是一组再普通不过的 getter/setter 方法,假设存在线程 A 和 B,线程A先(时间上的先后)调用了 setValue(1) ,然后线程B调用了同一个对象的 getValue() ,那么线程B 收到的返回值是什么?
依次分析一下先行发生原则中的各项规则:
- 由于两个方法分别由线程 A 和 线程 B 调用,不在一个线程中,所以 程序次序 规则在这里不适用
- 由于没有同步块,自然就不会发生lock和unlock操作,所以 管程锁定 规则不适用
- 由于value变量没有被volatile关键字修饰,所以 volatile变量规则 不适用
- 后面的 线程启动 、 终止 、 中断 规则和 对象终结 规则也和这里完全没有关系
- 因为没有一个适用的先行发生规则,所以最后一条 传递性 也无从谈起
因此可以判定 尽管线程 A 在操作时间上先于线程 B ,但是 无法确定线程B中 getValue() 方法的返回结果 ,换句话说,这里面的操作不是 线程安全 的
至少有两种比较简单的方案可以选择来修复这个问题: 1. 把getter/setter方法都定义为 synchronized 方法,这样就可以套用管程锁定规则 2. 把value定义为 volatile 变量,由于 setter 方法对 value 的修改不依赖 value 的原值,满足 volatile 关键字使用场景,这样就可以套用 volatile 变量规则来实现先行发生关系
通过上面的例子,可以得出结论: 一个操作 时间上 的先发生不代表这个操作会是 先行 发生 ,那如果一个操作 先行发生 是否就能推导出这个操作必定是 时间上的先发生 呢?很遗憾,这个推论也是不成立的,一个典型的例子就是多次提到的 指令重排序 ,演示例子如下面所示:
//以下操作在同一个线程中执行 int i = 1; int j = 2;
这两条赋值语句在同一个线程之中,根据程序次序规则,_int i=1_ 的操作先行发生于 int j=2 ,但是 int j=2 的代码完全可能先被处理器执行,这并不影响先行发生原则的正确性,因为 在这条线程之中没有办法感知到这点
结论是: 时间先后顺序 与 先行发生原则 之间基本没有太大的关系 ,所以衡量并发安全问题的时候不要受到时间顺序的干扰,一切必须以 先行发生原则为准
JVM线程实现
并发不一定要依赖多线程 (如很常见的多进程并发),但是在Java里面谈论并发,大多数都与线程脱不开关系。讲到Java线程,就从Java线程在虚拟机中的实现开始讲起
线程的实现
线程 是 比进程更轻量级的调度执行单位 ,线程的引入,可以把一个进程的 资源分配 和 执行调度 分开:
- 各个线程既可以 共享进程资源 ( 内存地址 、 文件I/O 等)
- 又可以 独立调度 (线程是CPU调度的基本单位)
主流的 操作系统 都提供了 线程实现 ,Java语言则提供了在 不同 硬件 和 操作系统 平台下对线程操作的统一处理 ,每个已经执行 start() 且还未结束的 java.lang.Thread 类的 实例 就代表了一个 线程
注意:Thread类与大部分的 Java API有显著的差别,它的所有关键方法都是声明为 native 的 在Java API中,一个 native 方法往往意味着这个方法没有使用或无法使用平台无关的手段来实现(当然也可能是为了执行效率而使用Native方法,不过,通常最高效率的手段也就是平台相关的手段) 所以这里先谈的是“线程的实现”而不是“ Java 线程的实现”
实现线程主要有3种方式:
- 使用 内核 线程实现
- 使用 用户 线程实现
- 使用用户线程加轻量级进程 混合 实现
使用内核线程实现
内核线程 ( KLT )就是直接由 操作系统内核 支持的线程,这种线程由内核来完成线程切换,内核通过操纵 调度器 对线程进行 调度 ,并负责 将线程的任务 映射 到各个 处理器 上。每个内核线程可以视为内核的一个分身,这样操作系统就有能力同时处理多件事情,支持多线程的内核就叫做 多线程内核
程序一般不会直接去使用内核线程,而是去使用内核线程的一种 高级接口 : 轻量级进程 ( LWP ),轻量级进程就是通常意义上所讲的线程,由于每个轻量级进程都由一个内核线程支持,因此只有先支持内核线程,才能有轻量级进程。这种 轻量级进程 与 内核线程 之间 1:1 的关系称为一对一的线程模型,如图所示:
- 优点:内核线程保证了每个轻量级进程都成为一个 独立的调度单元 ,即使有一个 轻量级进程在系统调用中阻塞了,也不会影响整个进程的继续工作
- 缺点:
- 基于内核线程实现,因此各线程操作等 需要系统调用 , 系统调用代价高 ,需要在用户态和内核态来回切换
- 每个轻量级进程都需要一个内核线程的支持,因此 轻量级进程要消耗一定的内核资源 ,如内核线程的栈空间,因此一个系统支持 轻量级进程的数量是有限的
使用用户线程实现
从广义上来讲,一个线程只要不是内核线程,就可以认为是 用户线程 ( UT ),因此,从这个定义上来讲,轻量级进程也属于用户线程,但轻量级进程的实现始终是建立在内核之上的,许多操作都要进行系统调用,效率会受到限制
而狭义上的用户线程指的是 完全建立在用户空间的线程库 上,系统 内核不能感知线程存在 的实现。用户线程的 建立 、 同步 、 销毁 和 调度 完全在用户态中完成,不需要内核的帮助。如果程序实现得当,这种线程不需要切换到内核态,因此操作可以是非常快速且低消耗的,也可以支持规模更大的线程数量,部分高性能数据库中的多线程就是由用户线程实现的。这种 进程 与 用户线程 之间 1:N 的关系称为一对多的线程模型,如图所示:
- 优点:这种线程 不需要切换内核态 , 效率非常高 且低消耗,也可以支持 规模更大 的线程数量
- 缺点:由于 没有系统内核的支援 ,所有的线程操作都需要用户程序自己处理。 阻塞处理 等问题的解决十分困难 ,甚至不可能完成。所以使用用户线程会 非常复杂
使用用户线程加轻量级进程混合实现
还有一种将 内核线程 与 用户线程 一起使用 的实现方式。在这种混合实现下,既存在用户线程,也存在轻量级进程:
- 用户线程 还是 完全建立在用户空间 中,因此用户线程的 创建 、 切换 、 析构 等操作依然廉价,并且可以 支持大规模 的用户线程并发
- 操作系统提供支持的 轻量级进程 则作为 用户线程 和 内核线程 之间的 桥梁 ,这样可以使用内核提供的 线程调度 功能及 处理器映射 ,并且 用户线程的系统调用要通过轻量级线程 来完成,大大降低了整个进程被完全阻塞的风险
在这种混合模式中, 用户线程 与 轻量级进程 的 数量比是不定的 ,即为 N:M 的关系,如图所示:这种就是多对多的线程模型
许多UNIX系列的操作系统,如Solaris、HP-UX等都提供了N:M的线程模型实现
JDK线程的实现
Java线程在 JDK 1.2 之前,是基于称为 绿色线程 的 用户线程 实现的 而在JDK 1.2中,线程模型替换为基于 操作系统原生线程 模型来实现 因此,在目前的JDK版本中,操作系统支持怎样的线程模型,在很大程度上决定了Java虚拟机的线程是怎样映射的,这点在不同的平台上没有办法达成一致 虚拟机规范中也并未限定Java线程需要使用哪种线程模型来实现 线程模型只对线程的并发规模和操作成本产生影响,对Java程序的编码和运行过程来说,这些差异都是透明的
对于Sun JDK来说:
- 它的 Windows 版与 Linux 版都是使用 一对一 的线程模型实现的,一条 Java线程 就映射到一条 轻量级进程 之中,因为Windows和Linux系统提供的线程模型就是一对一的
- Solaris平台中,由于操作系统的线程特性可以同时支持 一对一 及 多对多 的线程模型,因此在Solaris版的JDK中也对应提供了两个平台专有的虚拟机参数来明确指定虚拟机使用哪种线程模型:
- -XX:+UseLWPSynchronization :默认使用多对多模型
- -XX:+UseBoundThreads :使用一对一模型
Windows下有 Fiber Package,Linux下也有 NGPT 来实现N:M模型,但是它们都没有成为主流
线程调度
线程调度 是指 系统为线程分配处理器使用权的过程 ,主要调度方式有两种:
- 协同式 线程调度
- 抢占式 线程调度
协同式
如果使用 协同式 调度的多线程系统, 线程的执行时间由 线程本身 来控制 ,线程把自己的工作执行完了之后,要主动通知系统切换到另外一个线程上:
- 好处:
- 实现简单
- 由于线程要把自己的事情干完后才会进行线程切换,切换操作对线程自己是可知的,所以 没有什么线程同步 的问题
- Lua语言中的 协同例程 就是这类实现
- 坏处:线程 执行时间不可控制 ,甚至如果一个线程编写有问题,一直不告知系统进行线程切换,那么程序就会一直阻塞在那里
很久以前的Windows 3.x系统就是使用协同式来实现多进程多任务的,相当不稳定,一个进程坚持不让出CPU执行时间就可能会导致整个系统崩溃
抢占式
如果使用 抢占式 调度的多线程系统,那么每个线程将由 系统来分配执行时间 ,线程的切换不由线程本身来决定
在Java中,Thread.yield() 可以让出执行时间,但是要获取执行时间的话,线程本身是没有什么办法的
最大的优点:线程的执行时间是系统可控的,也不会有一个线程导致整个进程阻塞的问题
与前面所说的Windows 3.x的例子相对,在Windows 9x/NT内核中就是使用抢占式来实现多进程的 当一个进程出了问题,还可以使用任务管理器把这个进程“杀掉”,而不至于导致系统崩溃
Java线程调度
Java的线程调度使用的是 抢占式调度 。虽然Java线程调度是系统自动完成的,但是还是可以“建议”系统给某些线程多分配一点执行时间,另外的一些线程则可以少分配一点。这项操作可以通过 设置线程优先级 来完成。Java语言一共设置了10个级别的线程优先级( Thread.MIN_PRIORITY 至 Thread.MAX_PRIORITY ),在两个线程同时处于Ready状态时,优先级越高的线程越容易被系统选择执行
不过,线程优先级并不是 太靠谱 ,原因是 Java的线程 是通过 映射 到 系统的原生线程 上来实现的,所以线程调度最终还是取决于操作系统,虽然现在很多操作系统都提供线程优先级的概念,但是并不见得能与Java线程的优先级一一对应,如Solaris中有232种优先级,但Windows中就只有7种,比Java线程优先级多的系统还好说,中间留下一点空位就可以了,但比Java线程优先级少的系统,就不得不出现几个优先级相同的情况了,下表显示了 Java线程优先级 与 Windows线程优先级 之间的对应关系,Windows平台的JDK中使用了除 THREAD_PRIORITY_IDLE 之外的其余6种线程优先级:
Java线程优先级 | Windows线程优先级 |
1(Thread.MIN_PRIORITY) | THREAD_PERIORITY_LOWEST |
2 | THREAD_PERIORITY_LOWEST |
3 | THREAD_PERIORITY_BELOW_NORMAL |
4 | THREAD_PERIORITY_BELOW_NORMAL |
5(Thread.NORMAL_PRIORITY) | THREAD_PERIORITY_NORMAL |
6 | THREAD_PERIORITY_ABOVE_NORMAL |
7 | THREAD_PERIORITY_ABOVE_NORMAL |
8 | THREAD_PERIORITY_HIGHEST |
9 | THREAD_PERIORITY_HIGHEST |
10(Thread.MAX_PRIORITY) | THREAD_PERIORITY_CRITICAL |
线程优先级并不是太靠谱,不仅仅是说在一些平台上不同的优先级实际会变得相同这一点,还有其他情况让我们不能太依赖优先级:优先级可能会被系统自行改变 例如,在Windows系统中存在一个称为“优先级推进器”(当然它可以被关闭掉)的功能 它的大致作用就是当系统发现一个线程执行得特别“勤奋努力”的话,可能会越过线程优先级去为它分配执行时间 因此,不能在程序中通过优先级来完全准确地判断一组状态都为Ready的线程将会先执行哪一个
状态切换
Java语言定义了5种线程状态,在任意一个时间点,一个线程只能有且只有其中的一种状态,这5种状态分别如下:
- 新建 ( New ): 创建后尚未启动 的线程处于这种状态
- 运行 ( Runable ):包括了操作系统线程状态中的 Running 和 Ready ,也就是处于此状态的线程 有可能正在执行 ,也有 可能正在等待着CPU为它分配执行时间
- 无限期等待 ( Waiting ):处于这种状态的线程 不会被分配 CPU 执行时间 ,它们要等待 被其他线程 显式 地唤醒 。以下方法会让线程陷入无限期的等待状态:
- 没有 设置 Timeout 参数的 Object.wait() 方法
- 没有 设置 Timeout 参数的 Thread.join() 方法
- LockSupport.park() 方法
- 限期等待 ( Timed Waiting ):处于这种状态的线程也 不会被分配CPU执行时间 ,不过无须等待被其他线程显式地唤醒,在 一定时间之后它们会由 系统自动 唤醒 。以下方法会让线程进入限期等待状态:
- Thread.sleep() 方法
- 设置了 Timeout 参数的 Object.wait() 方法
- 设置了 Timeout 参数的 Thread.join() 方法
- LockSupport.parkNanos() 方法
- LockSupport.parkUntil() 方法
- 阻塞 ( Blocked ):线程被阻塞了, 阻塞状态 与 等待状态 的区别是:
- 阻塞状态 在 等待着获取到一个排他锁 ,这个事件将在 另外一个线程放弃这个锁 的时候发生。在程序 等待进入同步区域 的时候,线程将进入这种状态
- 等待状态 则是在 等待一段时间 ,或者 唤醒动作 的发生。
- 结束 ( Terminated ):已终止线程的线程状态,线程已经 结束执行
上述5种状态在遇到特定事件发生的时候将会互相转换,它们的转换关系如图所示: