C++浮点数类型详情

目录
  • 1、浮点数
  • 2、关于m
  • 3、关于e
  • 4、浮点数的使用
  • 5、浮点数类型
  • 6、注意事项

1、浮点数

浮点数是C++的第二组基本类型,它能够表示带小数部分的数字。不仅如此,浮点数的范围也比int更大,可以表示更大范围的数字。

我们都知道在计算机当中,所有数据本质上都是转化成二进制存储的。整数很简单,存储的就是转化成二进制之后的01串,那么浮点数又是如何存储的呢?

很容易猜到的是浮点数存储的结果也是二进制,但相比于整型直接转化成二进制要复杂一些。

它需要先表示成下面这行式子:

这里的n即我们要存储的浮点数,s表示符号位,m是尾数,而e则是阶数。

符号位很好理解,它和整型当中的符号位一样,0表示正数,1表示负数。m表示尾数,。我们这么看很抽象,来看一个例子,比如3.0,转化成二进制是,相当于。那么,。

我们了解了浮点数的表示方式,那么它又是如何存储在计算机当中的呢?这需要我们进一步地剖析其中的细节。

2、关于m

首先是mm被定义成一个大于等于1,小于2的小数。我们可以简单写成1.xx,其中xx表示的就是小数的部分。

既然它总是大于等于1,小于2的,那么它的个位一定是1,我们就可以将它省略,仅仅看之后小数的部分。小数的部分,我们同样使用二进制来逼近。比如0.625,可以表示成0.5 + 0.125,即,表示成二进制就是,只不过这里它的最高位是从-1开始的。

以32位的浮点数为例,除去1位表示符号,8位表示阶数之后,还有23位留给m。由于我们舍掉了小数点之前的1,所以我们的阶数是从-1开始的,理论上等价于24个二进制位。

3、关于e

在浮点数存储当中,e是一个无符号整数。以32位浮点数为例,e一共有8位,可以表示0-255。

但e是可以为负数的,根据IEEE 754的规定,e的真实值必须再减去一个中间数。对于8位的e,它的中间数是127。比如e的实际值是10,但是存储的时候需要存储成127+10=137

除此之外,e还有另外三种情况:

  • e不全为0,或全为1时,采用上述的规则表示
  • e全为0时,e等于1-127,有效数字m不再默认加上1,这样是为了还原0.xxx的小数,以及接近于0的数
  • e全为1时,如果有效数字m全为0,表示无穷大,如果m不全为0,表示nan(not a number)

关于e的规则看起来有些复杂,初看觉得有些难以理解,为什么要用减去中间值的设计,而不用符号位?后来仔细思考了一下才发现,如果引入符号位很难区分0.xxx以及e就是等于0的情况,虽然也可以特判处理,但就没有现在这样优雅了。

觉得上文看不懂的小伙伴可以直接略过这段,毕竟这个是浮点数的实现原理,算是很底层的内容了,C++ primer上对于这部分也没有过多阐述。

4、浮点数的使用

C++当中有两种浮点数的书写方式,第一种是使用常规的小数点表示法:

double a = 1.23;
float b = 3.43;

另外一种写法是科学记数法,写成:

double a = 2.45e8;
double b = 1e-7;

2.45e8表示,e之后可以跟正数也可以跟负数,但数字当中不能有空格。

5、浮点数类型

和C语言一样,C++也有三种浮点数类型:float,doublelong double。和整型一样,这三种类型都是浮点数,只不过表示的范围不同。

浮点数的范围有两个部分综合决定,一个部分是有效数字。比如14179是5位有效数字,而14000只有两位,因为后面三个0都是填充位,有效数字的位数不依赖小数点的位置。C++当中要求,float通常表示7位有效数字,double通常16位位,而long double至少和double一样。

另外,它们能够表达的指数范围至少是-37到37。一般来说,float一共是4个字节32位,而double是8个字节64位,当然这也取决于具体的运行环境。

6、注意事项

关于浮点数的使用有几点注意事项,千万要注意。

  • cout输出浮点数会删除结尾的0
  • 书写浮点数常量时默认为double类型,如果需要强制表示为float类型,请在结尾加上后缀f或者F,如:2.34f
  • 由于浮点数有精度,不能直接判断两个浮点数是否相等,很有可能得不到预期结果,正确的做法是判断精度范围,

如:

double epsilon = 1e-8;
// 判断a是否和b相等
if (abs(a - b) < epsilon) {
    // todo
}

判断两个浮点数a和b是否相等,等价于两者的差的绝对值小于某一个精度。

范围问题,如运行下列代码将得到错误的结果:

float a = 2.3e22f;
float b = a + 1.0f;

cout << b - a << endl;

输出的结果将是0,因为2.3e22是一个小数点左边有23位的数字,加上1之后,就是在第23位加上1。但是float类型只能表示数字中的前6位或者前7位,表示不了这么高的精度,因此这个+1的操作完全没有生效。

这个问题是一个大坑,一不小心就会中招,千万要小心。

到此这篇关于C++浮点数类型详情的文章就介绍到这了,更多相关C++浮点数类型内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

注:文章转自微信公众号:Coder梁(ID:Coder_LT)

(0)

相关推荐

  • 解析C++ 浮点数的格式化显示

    代码如下所示: 复制代码 代码如下: #include <stdlib.h>      #include <string>      #include <windows.h>      #include <stdio.h>      #include <iostream>      #include <limits>      #include <sstream>      using namespace std; str

  • 深入C/C++浮点数在内存中的存储方式详解

    任何数据在内存中都是以二进制的形式存储的,例如一个short型数据1156,其二进制表示形式为00000100 10000100.则在Intel CPU架构的系统中,存放方式为  10000100(低地址单元) 00000100(高地址单元),因为Intel CPU的架构是小端模式.但是对于浮点数在内存是如何存储的?目前所有的C/C++编译器都是采用IEEE所制定的标准浮点格式,即二进制科学表示法.在二进制科学表示法中,S=M*2^N 主要由三部分构成:符号位+阶码(N)+尾数(M).对于flo

  • 基于C++浮点数(float、double)类型数据比较与转换的详解

    浮点数在内存中的存储机制和整型数不同,其有舍入误差,在计算机中用近似表示任意某个实数.具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法.所以浮点数在运算过程中通常伴随着因为无法精确表示而进行的近似或舍入.但是这种设计的好处是可以在固定的长度上存储更大范围的数.1.将字符串转换为float.double过程存在精度损失,只是float.double各自损失的精度不相同而已std::string str="8.2&

  • C++中double浮点数精度丢失的深入分析

    看了一篇关于C/C++浮点数的博文,在Win32下,把int, 指针地址,long等4字节整数赋给一个double后,再用该double数赋给原始类型的数,得到的结果于最初的数值一致,即不存在任何精度丢失.例如下面的结果将总是true: long a=123456; //assign any long number here double db=a; long b=db; printf("%s\n",a==b?"true":"false"); 但

  • C++数据精度问题(对浮点数保存指定位小数)

    1.背景 对浮点数保存指定位小数.比如, 1.123456. 要保存1位小数,,调用方法后, 保存的结果为: 1.1. 再比如,1.98765, 保存2位小数的结果为: 2.00. 2. 解决方案 A.添加头文件 #include <sstream> #include <iomanip> B.添加命名空间 using namespace std; C.添加函数 /* 函数名:round /* 函数功能:数据精度计算函数 /* 函数参数:float src:待求精度数 int bit

  • C++实现浮点数精确加法

    本文实例为大家分享了C++实现浮点数精确加法的具体代码,供大家参考,具体内容如下 实现两个正浮点数的精确加法 参与运算的浮点数及计算结果所需存储空间都不会超过main函数中的定义 main函数框架要求如下: int main(){ char num1[128],num2[128],res[128]; cout<<"Enter the first number:"; cin>>num1; cout<<"Enter the second num

  • C/C++的浮点数在内存中的存储方式分析及实例

    C/C++的浮点数在内存中的存储方式分析 任何数据在内存中都是以二进制的形式存储的,例如一个short型数据1156,其二进制表示形式为00000100 10000100.则在Intel CPU架构的系统中,存放方式为  10000100(低地址单元) 00000100(高地址单元),因为Intel CPU的架构是小端模式.但是对于浮点数在内存是如何存储的?目前所有的C/C++编译器都是采用IEEE所制定的标准浮点格式,即二进制科学表示法. 在二进制科学表示法中,S=M*2^N 主要由三部分构成

  • 解析C++ 浮点数的格式化输出

    C++格式化输出浮点数 复制代码 代码如下: #include <iostream>using std::cout;using std::endl;using std::fixed;using std::scientific;int main(){   double x = 0.001234567;   double y = 1.946e9;   cout << "Displayed in default format:" << endl <&

  • C++数据精度问题的解决方案(对浮点数保存指定位小数)

     1.背景 对浮点数保存指定位小数.比如,  1.123456.   要保存1位小数,,调用方法后, 保存的结果为: 1.1. 再比如,1.98765,  保存2位小数的结果为: 2.00. 2. 解决方案 A.添加头文件 #include <sstream> #include <iomanip> B.添加命名空间 using namespace std; C.添加函数 /*******************************************************

  • C++浮点数类型详情

    目录 1.浮点数 2.关于m 3.关于e 4.浮点数的使用 5.浮点数类型 6.注意事项 1.浮点数 浮点数是C++的第二组基本类型,它能够表示带小数部分的数字.不仅如此,浮点数的范围也比int更大,可以表示更大范围的数字. 我们都知道在计算机当中,所有数据本质上都是转化成二进制存储的.整数很简单,存储的就是转化成二进制之后的01串,那么浮点数又是如何存储的呢? 很容易猜到的是浮点数存储的结果也是二进制,但相比于整型直接转化成二进制要复杂一些. 它需要先表示成下面这行式子: 这里的n即我们要存储

  • python_tkinter事件类型详情

    目录 1.事件绑定函数 2.事件类型 3.事件对象 1.事件绑定函数 事件绑定函数有三个如下:        组件.bind('事件类型',事件函数) 为一个组件绑定一个操作 组件.bind_class('组件类型','事件类型',事件函数) 为一个类组件绑定一个操作 组件.bind_all('事件类型',事件函数) 为所有组件绑定一个操作(所有操作都会当作对主界面的操作) 2.事件类型 3.事件对象 事件绑定的案例1: 鼠标进入组件变红,离开组件变白: # 单行文本输入框 entry = tk

  • 使用typescript推导已有变量的盲盒类型详情

    目录 迁移盲盒 类型推导 基础类型的推导 对象的推导 数组的推导 函数的推导 完善推导 测试 迁移盲盒 当我们从JavaScript一键转换Typescript的时候,any便是最省事的做法,对于维护并不友好(虽然能跑就行),同时每个变量对于我们来说都是盲盒,它到底是什么类型? 类型推导 基础类型的推导 基础数据类型的类型推导还是挺简单的 let a = 1; type A = typeof a; // number; let b = '2' type B = typeof b; // stri

  • C++编译期循环获取变量类型详情

    目录 一.问题 二.解决方案 1.定义类型 2.定义属性集 3. 获取类型索引 4. 编译期循环 总结 一.问题 假设现在有一些属性以及这些属性对应的数值类型,比如: "gender" --> char "age" --> int "height" --> float "IQ" ---> int "name" --> std::string "weight"

  • TypeScript 映射类型详情

    目录 1.映射类型(Mapped Types) 2.映射修饰符(Mapping Modifiers) 3.通过 as 实现键名重新映射(Key Remapping via as) 4.深入探索(Further Exploration) 前言: TypeScript 的官方文档早已更新,但我能找到的中文文档都还停留在比较老的版本.所以对其中新增以及修订较多的一些章节进行了翻译整理. 本篇翻译整理自 TypeScript Handbook 中 「Mapped Types」 章节. 本文并不严格按照原

  • JAVA浮点数计算精度损失底层原理与解决方案

    问题: 对两个double类型的值进行运算,有时会出现结果值异常的问题.比如: System.out.println(19.99+20); System.out.println(1.0-0.66); System.out.println(0.033*100); System.out.println(12.3/100); 输出: 39.989999999999995 0.33999999999999997 3.3000000000000003 0.12300000000000001 Java中的简

  • Python浮点数取整、格式化和NaN处理的操作方法

    目录 1. 取整的三种方法 1.1 强转int类型 1.2 采用math.ceil和math.floor 1.3 采用round 2. 格式化浮点数输出 3. 执行精确的小数计算 4. 无穷大.负无穷大和NaN的判断测试 参考 强转int类型会直接对浮点数的小数部分进行截断(无论是正还是负).还有一种方法是math.ceil和math.floor.无论是正数还是负数,都遵循:ceil往数轴正方向取整,floor往数轴负方向取整.round原型为round(value, ndigits),可以将一

  • Swift教程之枚举类型详解

    枚举定义了一个常用的具有相关性的一组数据,并在你的代码中以一个安全的方式使用它们. 如果你熟悉C语言,你就会知道,C语言中的枚举指定相关名称为一组整数值.在Swift中枚举更为灵活,不必为枚举的每个成员提供一个值.如果一个值(被称为"原始"的值)被提供给每个枚举成员,则该值可以是一个字符串,一个字符,或者任何整数或浮点类型的值. 另外,枚举成员可以指定任何类型,每个成员都可以存储的不同的相关值,就像其他语言中使用集合或变体.你还可以定义一组通用的相关成员为一个枚举,每一种都有不同的一组

  • 深入解析Swift编程中枚举类型的相关使用

    枚举是由用户定义的数据类型的一组相关值.关键字 enum 用来定义枚举数据类型. 枚举功能 枚举在 swift 也类似于 C 和 Objective C 中结构类型 它是在一个类中声明,其值是通过该类的实例来访问 初始成员值是用枚举初始化定义的 其功能也扩展确保标准的协议功能 语法 枚举引入 enum 关键字和一对大括号内将它们定义: 复制代码 代码如下: enum enumname {    // enumeration values are described here } 例如,可以为星期

  • java中double类型运算结果异常的解决方法

    问题: 对两个double类型的值进行运算,有时会出现结果值异常的问题.比如: System.out.println(19.99+20); System.out.println(1.0-0.66); System.out.println(0.033*100); System.out.println(12.3/100); 输出: 39.989999999999995 0.33999999999999997 3.3000000000000003 0.12300000000000001 解决方法: J

随机推荐