垃圾回收器 G1 详解

云烟 • 1小时前 • 编程

欢迎大家来到IT世界,在知识的湖畔探索吧!

为什么要学G1

G1（Garbadge First Collector）作为一款JVM最新的垃圾收集器，可以解决CMS中Concurrent Mode Failed问题，尽量缩短处理超大堆的停顿，在G1进行垃圾回收的时候完成内存压缩，降低内存碎片的生成。G1在堆内存比较大的时候表现出比较高吞吐量和短暂的停顿时间，而且已成为Java 9的默认收集器。未来替代CMS只是时间的问题。

G1的GC原理

Region

欢迎大家来到IT世界,在知识的湖畔探索吧!

H表示Humongous。从字面上就可以理解表示大的对象（下面简称H对象）。当分配的对象大于等于Region大小的一半的时候就会被认为是巨型对象。H对象默认分配在老年代，可以防止GC的时候大对象的内存拷贝。通过如果发现堆内存容不下H对象的时候，会触发一次GC操作。

跨代引用

在进行Young GC的时候，Young区的对象可能还存在Old区的引用，这就是跨代引用的问题。为了解决Young GC的时候，扫描整个老年代，G1引入了Card Table 和Remember Set的概念，基本思想就是用空间换时间。这两个数据结构是专门用来处理Old区到Young区的引用。Young区到Old区的引用则不需要单独处理，因为Young区中的对象本身变化比较大，没必要浪费空间去记录下来。

RSet：全称Remembered Sets, 用来记录外部指向本Region的所有引用，每个Region维护一个RSet。
Card: JVM将内存划分成了固定大小的Card。这里可以类比物理内存上page的概念。

下图展示的是RSet与Card的关系。每个Region被分成了多个Card，其中绿色部分的Card表示该Card中有对象引用了其他Card中的对象，这种引用关系用蓝色实线表示。RSet其实是一个HashTable，Key是Region的起始地址，Value是Card Table （字节数组）,字节数组下标表示Card的空间地址，当该地址空间被引用的时候会被标记为dirty_card。

SATB

黑色:根对象，或者该对象与它的子对象都被扫描
灰色:对象本身被扫描,但还没扫描完该对象中的子对象
白色:未被扫描对象，扫描完成所有对象之后，最终为白色的为不可达对象，即垃圾对象。

在GC扫描C之前的颜色如下：

在并发标记阶段，应用线程改变了这种引用关系：

A.c=C B.c=null

欢迎大家来到IT世界,在知识的湖畔探索吧!

得到如下结果。

在重新标记阶段扫描结果如下：

每个region记录着两个top-at-mark-start（TAMS）指针，分别为prevTAMS和nextTAMS。在TAMS以上的对象就是新分配的，因而被视为隐式marked。这里引用R大的解释。

G1的GC模式

Young GC

Young GC 回收的是所有年轻代的Region。当E区不能再分配新的对象时就会触发。E区的对象会移动到S区，当S区空间不够的时候，E区的对象会直接晋升到O区，同时S区的数据移动到新的S区，如果S区的部分对象到达一定年龄，会晋升到O区。
Yung GC过程示意图如下：

Mixed GC

初始标记（initial mark，STW）。它标记了从GC Root开始直接可达的对象。初始标记阶段借用young GC的暂停，因而没有额外的、单独的暂停阶段。
并发标记（Concurrent Marking）。这个阶段从GC Root开始对heap中的对象标记，标记线程与应用程序线程并行执行，并且收集各个Region的存活对象信息。过程中还会扫描上文中提到的SATB write barrier所记录下的引用。
最终标记（Remark，STW）。标记那些在并发标记阶段发生变化的对象，将被回收。
清除垃圾（Cleanup，部分STW）。这个阶段如果发现完全没有活对象的region就会将其整体回收到可分配region列表中。清除空Region。

Mixed GC的清理过程示意图如下：

Full GC

Evacuation的时候没有足够的to-space来存放晋升的对象；
并发处理过程完成之前空间耗尽

Young GC日志

通过使用-XX:+PrintGCDetails参数查看的Young GC日志如下：

① 四个关键信息

2016-12-12T10:40:18.811-0500：GC发生的时间（通过设置-XX:+PrintGCDateStamps打印）
29.959：相对JVM启动的时间
G1 Evacuation Pause (young)：GC类型，表示这是evacuation停顿，并且是Young GC。
0.0 sec：本次GC耗时。

② 所有并行任务

Parallel Time：26.6 。并行任务花费的STW的时间，从收集开始到最后一个GC线程结束。
GC Workers：4 。并行收集的线程数量。通过 -XX:ParallelGCThreads。当CPU数量小于8时，该值为CPU个数，最大设置成8，对于多于8个的CPU，将默认取CPU个数的5/8。
GC Worker start：最小|最大时间戳表示第一个线程和最后一个线程的启动时间。理想情况下希望同时启动。
Ext Root Scanning ：扫描外部根节点的时间。外部节点包括JNI、全局变量、线程栈等。
Update RS (Remembered Set or RSet) ：每个线程更新RSet的时间。
Scan RS : 扫描每个CSet中Region的RSet，避免了扫描整个老年代。
Code Root Scanning：扫描code root耗时。Code Root是JIT编译后的代码里引用了heap中的对象。
Object Copy：拷贝存活对象到新的Region.
Termination: 当GC线程完成任务之后尝试结束到真正结束耗时。因为在结束前他会检查其他线程是否有未完成的任务，帮助完成之后再结束。
GC Worker Other：线程花费在其他工作上的时间
GC Worker Total：每个线程花费的时间总和。
GC Worker End：每个线程的结束时间。最小|最大时间戳表示第一个线程和最后一个线程的结束时间。理想情况下希望同时结束。

③ 串行任务

Code Root Fixup：修复GC期间code root指针改变的耗时
Code Root Purge：清除code root耗时
Clear CT：清除card tables 中的dirty card的耗时

⑤各代变化

Eden: 1097.0M(1097.0M)->0.0B(967.0M)：表明了Young GC被触发，因为Eden区已经满了（分配了1097M 已经使用了1097.0M），并且Eden区都被清空了（0B），下次垃圾回收Eden区大小降到967M。
Survivors: 13.0M->139.0M：Young GC之后，Survivor从13M增加到了139M
Heap: 1694.4M(2048.0M)->736.3M(2048.0M):开始前整个堆占用了1694.4M，最大可分配2048M，在收集之后，整个堆占用736M，最大可分配没有变还是2048M。

⑥ 这次回收耗时

user=0.08：在垃圾回收时，花费在用户代码上的CPU时间。这个时间包含了所有线程运行的CPU时间，所以比real-time大很多
sys=0.00: 花费在系统内核上的时间。
real=0.03: 垃圾回收的实际时间。这里包括了其他进程的时间和等待时间。

①标明标记阶段开始

GC pause (G1 Evacuation Pause) (young) (initial-mark)：利用STW停顿期间，跟踪所有可达对象，该阶段和Young GC一起执行。同时该阶段也设置两个指针TAMS来标识已经存在的对象以及在并发标记阶段新生成的对象。
② 第一个并发事件
GC concurrent-root-region-scan-start: 扫描初始化标记阶段Survivor区的root Region并标记出来。

③并发标记

GC concurrent-mark-start：该阶段和应用线程一起执行，并发线程数默认是并行线程数的四分之一。可以通过-XX:ConcGCThreads显示指定。

④ STW阶段

GC remark / Finalize Marking / GC ref-proc / Unloading: 这个阶段

GC concurrent-cleanup-start：处理第5阶段所有空的Region。每个Region中的RSet被清空，当所有的Region都被清理完成，他们会被加入到一个临时表中，最终会被合并到master free list。

Mixed GC

Full GC

Full GC的日志结果如下。

需要注意的是如果是几天一次Full GC，则是正常现象，但是每小时频繁GC就需要调优了。

其他

建议大家开启-XX:+PrintAdaptiveSizePolicy和-XX:+PrintTenuringDistribution两个标签，可以帮助大家更好的分析日志。

-XX:+PrintAdaptiveSizePolicy: 显示收集器工效（Collector ergonomics）
-XX:+PrintTenuringDistribution: Survivor区的使用和分布

Young GC开启-XX:+PrintAdaptiveSizePolicy之后的日志如下：

Young GC后面是并发回收日志。

Young GC日志中还可能存在关于Mixed GC的日志：

①告诉我们Mixed GC开始，原因是可回收垃圾百分比（22.62%）大于了我们的阈值（5%）。

下面是Mixed GC开启-XX:+PrintAdaptiveSizePolicy之后执行日志

下面是Full GC开启-XX:+PrintAdaptiveSizePolicy之后执行日志

-XX:+PrintTenuringDistribution: 可以查看每次回收期间，Survivor区的分布信息。可以帮助我们查看对象年龄的变化。

target threshold：目标阈值。表示一个对象的年龄，这个值可以通过每个年龄的所有对象大小相加直到大于desired survivor size计算出来。
age distribution: 年龄分布。包括了每个年龄所有对象的大小以及增量Survivor区大小

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/95794.html

云烟 2023年 4月 25日

你这文采，堪称现代李白

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主有大厦之将倾而面不改色，狂澜于既倒而稳如泰山只能。

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主好文采

评论于古天乐拍戏误伤眼球缝八针！而他第一时间却只想给粉丝道歉[通俗易懂]
样 2023年 4月 25日

干货干货

评论于 UG编程，钻孔攻丝，铣螺纹，干货知识[亲测有效]
云烟 2023年 4月 25日

人家是chatGPT 不是GBT

评论于程序开发中MySql、SQLServer、SQLite数据库的使用场景及性能评测

垃圾回收器 G1 详解

为什么要学G1