32位浮点数

32位浮点数在AI中常提32位浮点数、16位浮点数,混合精度。1*2,也就是2 * 2^,大约是1. * 10 ^ 。

欢迎大家来到IT世界,在知识的湖畔探索吧!

在AI中常提32位浮点数、16位浮点数,混合精度。。这里重点说一下32位浮点数的表示
先来一张图

32位浮点数

浮点数的计算方式

32位浮点数

其中s是符号位,e是指数位,m是有效数位组成的数。
m的计算方式是

32位浮点数

所以上图表示的数字就是

32位浮点数

采用这种表示方式的结果是,两个浮点数之间的“间隔”是均匀的。什么意思?

比如说,我想表示浮点数1的话,那么我的二进制位就是:

0 0 00000000000000000000000

我想表示2的话,二进制位就是

0 0000000000000000000000

1和2之间,我能表示的数是有限的,比1大的浮点数,最小的值我只能取到

0 0 00000000000000000000001

也就是上述的m是2的-23次方,这就是浮点数的“精度”,于是,你可以看到c++标准库中有一个这个函数:

std::numeric_limits<float>::epsilon()

这个值就是2的-23次方!

还有一点,很明显,用上面的式子,我们没法把值精确地表示0,这显然是无法接受的。于是浮点标准就对e=0的情况做了额外的规定,也就是说当e等于0的时候浮点值就不是乘以1.m,而是乘以0.m。也就是说,如果有效值m是0的话,那么浮点值表示的数字就是0,没有歧义!

接着,如果1.m的1没有的话,我们能表示的最小的值就是0.000…1(2进制)*2(-126),也就是2(-126) * 2^(-23),大约是1. * 10 ^ (-45)。

我用下面的代码尝试做了输出:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 

欢迎大家来到IT世界,在知识的湖畔探索吧!

欢迎大家来到IT世界,在知识的湖畔探索吧!std::cout.precision(15); uint8_t array[4] = {0}; array[3] = 0x3F; array[2] = 0x80; float* f = reinterpret_cast<float*>(array); std::cout << "f = " << *f <<std::endl; uint8_t array1[4] = {0}; array1[3] = 0x3F; array1[2] = 0x80; array1[0] = 0x1; float* f1 = reinterpret_cast<float*>(array1); std::cout << "f1 = " << *f1 << std::endl; uint8_t array2[4] = {0}; array2[2] = 0x7F; array2[1] = 0xFF; array2[0] = 0xFF; float* f2 = reinterpret_cast<float*>(array2); std::cout << "f2 = " << *f2 << std::endl; uint8_t array3[4] = {0}; array3[0] = 0x1; float* f3 = reinterpret_cast<float*>(array3); std::cout << "f3 = " << *f3 << std::endl; 

结果是:

32位浮点数

与预想的一致。

最后,IEEE 754标准保证-0.0严格等于0.0!

如果e等于255,这种情况同样会被特殊处理。e=255,m=0的话,这就表示无限大,用cout输出就是inf。但如果e=255,m!=0的话,那么这就是一个无效值,输出的结果是nan,尝试代码和结果如下:

1 2 3 4 5 6 7 8 9 
欢迎大家来到IT世界,在知识的湖畔探索吧!uint8_t array4[4] = {0}; array4[3] = 0x7F; array4[2] = 0x80; float* f4 = reinterpret_cast<float*>(array4); std::cout << "f4 = " << *f4 << std::endl; uint8_t array5[4] = {0}; array5[3] = 0x7F; array5[2] = 0x80; array5[0] = 0x3F; float* f5 = reinterpret_cast<float*>(array5); std::cout << "f5 = " << *f5 << std::endl; 
32位浮点数

于是,我们能表示的最大有效值是1.(二进制)* 2 ^ 127,也就是3.… * 10^38。测试代码和结果如下:

uint8_t array6[4] = {0}; array6[3] = 0x7F; array6[2] = 0x7F; array6[1] = 0xFF; array6[0] = 0xFF; float* f6 = reinterpret_cast<float*>(array6); std::cout << "f6 = " << *f6 << std::endl;
32位浮点数

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL

AI算力加速之道

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/75445.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信