深入理解Java虚拟机系列

发布日期: 2023-06-01

文章字数: 2.9k

阅读时长: 10 分

阅读次数:

三、虚拟机执行子系统

类文件结构

Java虚拟机的语言无关性：

Class类文件结构

Class文件是一组以8个字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑地排列在文件之中，中间没有添加任何分隔符，这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据，没有空隙存在。当遇到需要占用8个字节以上空间的数据项时，则会按照高位在前的方式分割成若干个8个字节进行存储

根据《Java虚拟机规范》的规定，Class文件格式采用一种类似于C语言结构体的伪结构来存储数据，这种伪结构中只有两种数据类型：“无符号数”和“表”

无符号数是基本数据类型。可表示数字，索引引用，数量值或按UTF-8编码构成的字符串值。u1,u2,u4,u8分别代表1、2、4、8字节
表是由多个无符号数或其他表构成的符合数据类型，常以_info结尾。可表示有层次关系的数据

Class文件格式：

魔数与Class文件版本

Class文件头四个字节称为魔数，作用是判断该Class文件能否被Java虚拟机接收。接着的第5和第6个字节是次版本号（MinorVersion），第7和第8个字节是主版本号（Major Version），高版本JDK向下兼容Class文件，但不能运行更高版本的Class文件

package org.example;

public class Hello {
    private int m;
    public int inc() {
        return m + 1;
    }

}

以JDK1.8做演示。去到文件目录下打开命令行，使用命令javac Hello.java，编译生成Hello.class文件，使用VsCode（装上Hex Editor插件即可查看编辑16进制文件）打开。可看到魔数是0xCAFEBABE，主版本号是0x0034即十进制的52

常量池

接着版本号之后的就是常量池，是占用Class文件空间最大的数据项目之一，也是第一个出现的表类型数据项目，常量池中的每一项常量都是一个表。由于常量池中常量的数量并不固定，因此在入口放置了一个u2类型的数据，代表常量池容量计数值（从1开始计数）。

图中代表常量池中有1个常量池容量计数值和18个常量

常量池主要存放两大类常量：

字面量
- 文本字符串、被声明为final的常量值
符号引用
- 被模块导出或者开放的包（Package）
- 类和接口的全限定名（Fully Qualified Name）
- 字段的名称和描述符（Descriptor）
- 方法的名称和描述符
- 方法句柄和方法类型（Method Handle、Method Type、Invoke Dynamic）
- 动态调用点和动态常量（Dynamically-Computed Call Site、Dynamically-Computed Constant）

利用javap命令分析Class文件字节码：

执行命令javap -verpose Hello.class，可以看到常量池中18个常量已经罗列出来

访问标志

常量池结束之后的两个字节代表访问标志，用于识别一些类或接口层次的访问信息。

访问标志

在上述代码中，Hello只是一个用public修饰的普通Java类，因此访问标志只有ACC_PUBLIC和ACC_SUPER为true，即0x0001 | 0x0020 = 0x0021，符合下图：

类索引、父类索引与接口索引集合

类索引（this_class）和父类索引（super_class）都是一个u2类型的数据，而接口索引集合（interfaces）是一组u2类型的数据的集合，Class文件中由这三项数据来确定该类型的继承关系。类索引用于确定这个类的全限定名，父类索引用于确定这个类的父类的全限定名，接口索引集合用于描述该类实现了哪些接口。

由图中可以看到类索引是3，父类索引是4，接口索引集合大小是0：

字段表集合

字段表（field_info）用于描述接口或者类中声明的变量。

字段访问标志：

结合16进制编码查看，fields_count是容量计数器，0x0001表示只有一个字段表数据；access_flags是访问标志，值是0x0002，结合上图可以知道表示的是private修饰符；name_index索引是0x0005，结合常量池图看可以知道是代表字段值名称m；descriptor_index索引是0x0006，同理可知道其值是I(代表的是基本数据类型int)

方法表集合

方法表集合与字段表集合类似，methods_count代表的是方法容量计数器，0x0002表示有两个方法（默认的构造器init和自定义的inc）；access_flags=0x0001表示的是public修饰符；name_index索引值是0x0007，结合常量池图发现代表的正是init方法；descriptor_index的索引值是0x0008，对应常量”()V”；attributes_count表示属性表中有一项属性；attribute_name_index索引值是0x0009，对应常量”Code”（虚拟机规范中预定义的属性），表示的是此属性是方法的字节码描述

属性表集合

max_stack：操作数栈深度最大值
max_locals：局部变量表所需存储空间
code_length：代表字节码长度
code：存储字节码指令的系列字节流

下图中，操作数栈的最大深度和本地变量表的容量都为0x0001，字节码区域所占空间的长度为0x0005。虚拟机读取到字节码区域的长度后，按照顺序依次读入紧随的5个字节，并根据虚拟机字节码指令表翻译出所对应的字节码指令。

接着查看常量表部分后的内容，结合代码发现，无论是init还是inc方法都并没有传入任何参数，但args_size=1，这是因为在任何实例方法里面，都可以通过“this”关键字访问到此方法所属的对象，而且只对实例方法有效，因此都会默认传入this；当把inc方法使用static修饰时（此时方法属于类），args_size=0

字节码指令

Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字（称为操作码，Opcode）以及跟随其后的零至多个代表此操作所需的参数（称为操作数，Operand）构成。Java虚拟机解释器的基本操作模式如下：

do {
    自动计算PC寄存器的值加1;
    根据PC寄存器指示的位置，从字节码流中取出操作码;
if (字节码存在操作数) 从字节码流中取出操作数;
	执行操作码所定义的操作;
} while (字节码流长度 > 0);

字节码和数据类型

在Java虚拟机的指令集中，大多数指令都包含其操作所对应的数据类型信息

对于大部分与数据类型相关的字节码指令，它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务：i代表对int类型的数据操作，l代表long，s代表short，b代表byte，c代表char，f代表float，d代表double，a代表reference

加载和存储指令

用于将数据在栈帧中的局部变量表和操作数栈之间来回传输

PS：表示的是一组指令，如iload_，其代表了iload_0、iload_1、iload_2和iload_3

将一个局部变量加载到操作栈：iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
将一个数值从操作数栈存储到局部变量表：istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
将一个常量加载到操作数栈：bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
扩充局部变量表的访问索引的指令：wide

运算指令

用于对两个操作数栈上的值进行某种特定运算，并把结果重新存入到操作栈顶

加法指令：iadd、ladd、fadd、dadd
减法指令：isub、lsub、fsub、dsub
乘法指令：imul、lmul、fmul、dmul
除法指令：idiv、ldiv、fdiv、ddiv
求余指令：irem、lrem、frem、drem
取反指令：ineg、lneg、fneg、dneg
位移指令：ishl、ishr、iushr、lshl、lshr、lushr
按位或指令：ior、lor
按位与指令：iand、land
按位异或指令：ixor、lxor
局部变量自增指令：iinc
比较指令：dcmpg、dcmpl、fcmpg、fcmpl、lcmp

类型转换指令

用于将两种不同的数值类型相互转换

Java虚拟机直接支持小范围向大范围的安全转换
- int类型到long、float或者double类型
- long类型到float、double类型
- float类型到double类型
反之必须使用转换指令：i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l和d2f，其中可能会出现精度丢失问题

对象创建与访问指令

Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令，对象创建后，就可以通过对象访问指令获取对象实例或者数组实例中的字段或者数组元素

创建类实例的指令：new
创建数组的指令：newarray、anewarray、multianewarray
访问类字段（static字段，或者称为类变量）和实例字段（非static字段，或者称为实例变量）的指令：getfield、putfield、getstatic、putstatic
把一个数组元素加载到操作数栈的指令：baload、caload、saload、iaload、laload、faload、daload、aaload
将一个操作数栈的值储存到数组元素中的指令：bastore、castore、sastore、iastore、fastore、dastore、aastore
取数组长度的指令：arraylength
检查类实例类型的指令：instanceof、checkcast

操作数栈管理指令

将操作数栈的栈顶一个或两个元素出栈：pop、pop2
复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶：dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2
将栈最顶端的两个数值互换：swap

控制转移指令

简单理解，控制指令就是在有条件或无条件地修改PC寄存器的值

条件分支：ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmpeq和if_acmpne
复合条件分支：tableswitch、lookupswitch
无条件分支：goto、goto_w、jsr、jsr_w、ret

方法调用和返回指令

方法调用指令：

invokevirtual指令：用于调用对象的实例方法，根据对象的实际类型进行分派（虚方法分派），这也是Java语言中最常见的方法分派方式。
invokeinterface指令：用于调用接口方法，它会在运行时搜索一个实现了这个接口方法的对象，找出适合的方法进行调用。
invokespecial指令：用于调用一些需要特殊处理的实例方法，包括实例初始化方法、私有方法和父类方法。
invokestatic指令：用于调用类静态方法（static方法）。
invokedynamic指令：用于在运行时动态解析出调用点限定符所引用的方法。并执行该方法

返回指令：

ireturn（当返回值是boolean、byte、char、short和int类型时使用）、lreturn、freturn、dreturn和areturn、return

同步指令

Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步，这两种同步结构都是使用管程（Monitor，更常见的是直接将它称为“锁”）来实现的。

方法级的同步是隐式的，无需通过字节码的方式控制，它实现在方法的调用和返回操作中
同步一段指令通常是由Java语言中的synchronized关键字来表示，而对应的字节码是monitorenter、monitorexit

Java 深入理解Java虚拟机

深入理解Java虚拟机之类加载

2023-06-01 深入理解Java虚拟机系列

Java 深入理解Java虚拟机

深入理解Java虚拟机之工具篇

2023-06-01 深入理解Java虚拟机系列

Java 深入理解Java虚拟机

深入理解Java虚拟机之虚拟机执行子系统

三、虚拟机执行子系统

类文件结构

Class类文件结构

魔数与Class文件版本

常量池

访问标志

类索引、父类索引与接口索引集合

字段表集合

方法表集合

属性表集合

字节码指令

字节码和数据类型

加载和存储指令

运算指令

类型转换指令

对象创建与访问指令

操作数栈管理指令

控制转移指令

方法调用和返回指令

同步指令

你的赏识是我前进的动力