三、虚拟机执行子系统
类文件结构
Java虚拟机的语言无关性:
Class类文件结构
Class文件是一组以8个字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在文件之中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。当遇到需要占用8个字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8个字节进行存储
根据《Java虚拟机规范》的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:“无符号数”和“表”
- 无符号数是基本数据类型。可表示数字,索引引用,数量值或按UTF-8编码构成的字符串值。u1,u2,u4,u8分别代表1、2、4、8字节
- 表是由多个无符号数或其他表构成的符合数据类型,常以
_info
结尾。可表示有层次关系的数据
Class文件格式:
魔数与Class文件版本
Class文件头四个字节称为魔数
,作用是判断该Class文件能否被Java虚拟机接收。接着的第5和第6个字节是次版本号(MinorVersion),第7和第8个字节是主版本号(Major Version),高版本JDK向下兼容Class文件,但不能运行更高版本的Class文件
package org.example;
public class Hello {
private int m;
public int inc() {
return m + 1;
}
}
- 以JDK1.8做演示。去到文件目录下打开命令行,使用命令
javac Hello.java
,编译生成Hello.class
文件,使用VsCode(装上Hex Editor
插件即可查看编辑16进制文件)打开。可看到魔数是0xCAFEBABE
,主版本号是0x0034
即十进制的52
常量池
接着版本号之后的就是常量池,是占用Class文件空间最大的数据项目之一,也是第一个出现的表类型数据项目,常量池中的每一项常量都是一个表。由于常量池中常量的数量并不固定,因此在入口放置了一个u2类型的数据,代表常量池容量计数值(从1开始计数)。
常量池主要存放两大类常量:
- 字面量
- 文本字符串、被声明为final的常量值
- 符号引用
- 被模块导出或者开放的包(Package)
- 类和接口的全限定名(Fully Qualified Name)
- 字段的名称和描述符(Descriptor)
- 方法的名称和描述符
- 方法句柄和方法类型(Method Handle、Method Type、Invoke Dynamic)
- 动态调用点和动态常量(Dynamically-Computed Call Site、Dynamically-Computed Constant)
利用javap
命令分析Class文件字节码:
执行命令
javap -verpose Hello.class
,可以看到常量池中18个常量已经罗列出来
访问标志
常量池结束之后的两个字节代表访问标志,用于识别一些类或接口层次的访问信息。
在上述代码中,Hello只是一个用public修饰的普通Java类,因此访问标志只有ACC_PUBLIC
和ACC_SUPER
为true,即0x0001 | 0x0020 = 0x0021,符合下图:
类索引、父类索引与接口索引集合
类索引(this_class)和父类索引(super_class)都是一个u2类型的数据,而接口索引集合(interfaces)是一组u2类型的数据的集合,Class文件中由这三项数据来确定该类型的继承关系。类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名,接口索引集合用于描述该类实现了哪些接口。
由图中可以看到类索引是3,父类索引是4,接口索引集合大小是0:
字段表集合
字段表(field_info)用于描述接口或者类中声明的变量。
字段访问标志:
结合16进制编码查看,fields_count
是容量计数器,0x0001表示只有一个字段表数据;access_flags
是访问标志,值是0x0002,结合上图可以知道表示的是private修饰符;name_index
索引是0x0005,结合常量池图看可以知道是代表字段值名称m;descriptor_index
索引是0x0006,同理可知道其值是I(代表的是基本数据类型int)
方法表集合
方法表集合与字段表集合类似,methods_count
代表的是方法容量计数器,0x0002表示有两个方法(默认的构造器init和自定义的inc);access_flags=0x0001
表示的是public修饰符;name_index
索引值是0x0007,结合常量池图发现代表的正是init方法;descriptor_index
的索引值是0x0008,对应常量”()V”;attributes_count
表示属性表中有一项属性;attribute_name_index
索引值是0x0009,对应常量”Code”(虚拟机规范中预定义的属性),表示的是此属性是方法的字节码描述
属性表集合
- max_stack:操作数栈深度最大值
- max_locals:局部变量表所需存储空间
- code_length:代表字节码长度
- code:存储字节码指令的系列字节流
下图中,操作数栈的最大深度和本地变量表的容量都为0x0001,字节码区域所占空间的长度为0x0005。虚拟机读取到字节码区域的长度后,按照顺序依次读入紧随的5个字节,并根据虚拟机字节码指令表翻译出所对应的字节码指令。
接着查看常量表部分后的内容,结合代码发现,无论是init还是inc方法都并没有传入任何参数,但args_size=1,这是因为在任何实例方法里面,都可以通过“this”关键字访问到此方法所属的对象,而且只对实例方法有效,因此都会默认传入this;当把inc方法使用static修饰时(此时方法属于类),args_size=0
字节码指令
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需的参数(称为操作数,Operand)构成。Java虚拟机解释器的基本操作模式如下:
do {
自动计算PC寄存器的值加1;
根据PC寄存器指示的位置,从字节码流中取出操作码;
if (字节码存在操作数) 从字节码流中取出操作数;
执行操作码所定义的操作;
} while (字节码流长度 > 0);
字节码和数据类型
在Java虚拟机的指令集中,大多数指令都包含其操作所对应的数据类型信息
对于大部分与数据类型相关的字节码指令,它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务:i代表对int类型的数据操作,l代表long,s代表short,b代表byte,c代表char,f代表float,d代表double,a代表reference
加载和存储指令
用于将数据在栈帧中的局部变量表和操作数栈之间来回传输
PS:
表示的是一组指令,如iload_ ,其代表了iload_0、iload_1、iload_2和iload_3
将一个局部变量加载到操作栈:
iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
将一个数值从操作数栈存储到局部变量表:
istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
将一个常量加载到操作数栈:
bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
扩充局部变量表的访问索引的指令:
wide
运算指令
用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶
- 加法指令:
iadd、ladd、fadd、dadd
- 减法指令:
isub、lsub、fsub、dsub
- 乘法指令:
imul、lmul、fmul、dmul
- 除法指令:
idiv、ldiv、fdiv、ddiv
- 求余指令:
irem、lrem、frem、drem
- 取反指令:
ineg、lneg、fneg、dneg
- 位移指令:
ishl、ishr、iushr、lshl、lshr、lushr
- 按位或指令:
ior、lor
- 按位与指令:
iand、land
- 按位异或指令:
ixor、lxor
- 局部变量自增指令:
iinc
- 比较指令:
dcmpg、dcmpl、fcmpg、fcmpl、lcmp
类型转换指令
用于将两种不同的数值类型相互转换
- Java虚拟机直接支持小范围向大范围的安全转换
- int类型到long、float或者double类型
- long类型到float、double类型
- float类型到double类型
- 反之必须使用转换指令:
i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l和d2f
,其中可能会出现精度丢失问题
对象创建与访问指令
Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令,对象创建后,就可以通过对象访问指令获取对象实例或者数组实例中的字段或者数组元素
- 创建类实例的指令:
new
- 创建数组的指令:
newarray、anewarray、multianewarray
- 访问类字段(static字段,或者称为类变量)和实例字段(非static字段,或者称为实例变量)的指令:
getfield、putfield、getstatic、putstatic
- 把一个数组元素加载到操作数栈的指令:
baload、caload、saload、iaload、laload、faload、daload、aaload
- 将一个操作数栈的值储存到数组元素中的指令:
bastore、castore、sastore、iastore、fastore、dastore、aastore
- 取数组长度的指令:
arraylength
- 检查类实例类型的指令:
instanceof、checkcast
操作数栈管理指令
- 将操作数栈的栈顶一个或两个元素出栈:
pop、pop2
- 复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:
dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2
- 将栈最顶端的两个数值互换:
swap
控制转移指令
简单理解,控制指令就是在有条件或无条件地修改PC寄存器的值
- 条件分支:
ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmpeq和if_acmpne
- 复合条件分支:
tableswitch、lookupswitch
- 无条件分支:
goto、goto_w、jsr、jsr_w、ret
方法调用和返回指令
方法调用指令:
invokevirtual指令
:用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),这也是Java语言中最常见的方法分派方式。invokeinterface指令
:用于调用接口方法,它会在运行时搜索一个实现了这个接口方法的对象,找出适合的方法进行调用。invokespecial指令
:用于调用一些需要特殊处理的实例方法,包括实例初始化方法、私有方法和父类方法。invokestatic指令
:用于调用类静态方法(static方法)。invokedynamic指令
:用于在运行时动态解析出调用点限定符所引用的方法。并执行该方法
返回指令:
ireturn(当返回值是boolean、byte、char、short和int类型时使用)、lreturn、freturn、dreturn和areturn、return
同步指令
Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构都是使用管程(Monitor,更常见的是直接将它称为“锁”)来实现的。
- 方法级的同步是隐式的,无需通过字节码的方式控制,它实现在方法的调用和返回操作中
- 同步一段指令通常是由Java语言中的
synchronized
关键字来表示,而对应的字节码是monitorenter、monitorexit