如何修改numpy array的数据类型

目录
  • 修改numpy array数据类型
    • 1、numpy数据类型
    • 2、改变numpy array数据类型
  • numpy数据类型说明及自动转换陷阱
    • 1、数据类型的表示
    • 2、构造ndarray时的dtype
    • 3、不同数据类型之间的转换兼容性
    • 4、numpy对python对象数据类型'O'的处理

修改numpy array数据类型

1、numpy数据类型

数据名称 说明
bool 布尔类型,true,false
int_ 默认的整数类型(类似于 C 语言中的 long,int32 或 int64)
intc 与 C 的 int 类型一样,一般是 int32 或 int 64
intp 用于索引的整数类型(类似于 C 的 ssize_t,一般情况下仍然是 int32 或 int64)
int8 字节(-128 to 127)
int16 整数(-32768 to 32767)
int32 整数(-2147483648 to 2147483647)
int64 整数(-9223372036854775808 to 9223372036854775807)
uint8 无符号整数(0 to 255)
uint16 无符号整数(0 to 65535)
uint32 无符号整数(0 to 4294967295)
uint64 无符号整数(0 to 18446744073709551615)
float_ float64 类型的简写
float16 半精度浮点数,包括:1 个符号位,5 个指数位,10 个尾数位
float32 单精度浮点数,包括:1 个符号位,8 个指数位,23 个尾数位
float64 双精度浮点数,包括:1 个符号位,11 个指数位,52 个尾数位
complex_ complex128 类型的简写,即 128 位复数
complex64 复数,表示双 32 位浮点数(实数部分和虚数部分)
complex128 复数,表示双 64 位浮点数(实数部分和虚数部分)

2、改变numpy array数据类型

用astype()方法改变数据类型,如下几种方式所示(这种方法不会改变原数组的数据类型):

array_name.astype(int)  
array_name.astype(np.int16)
array_name.astype('float64')

如果要改变原数组的数据类型,用以下方法:

array_name.dtype = np.uint8

numpy数据类型说明及自动转换陷阱

numpy的dtype是一个很重要的概念,因为numpy为了性能,优化了内存管理,ndarray的值在内存中几乎是连续的,同时其每个元素的内存大小也被设计成是一样的,因此,当生成ndarray时,每个元素的数据类型都会被转为相同的类型,这时如果原生的数据类型是不一样的,那么就涉及到一个数据类型转换的问题,即data type casting。

明白numpy中的数据类型转换可以有效的避免和理解很多的行为,因为numpy中很多的error往往都是有数据类型转换引起的,所以理解numpy的数据类型转换可以预防和排查很多的问题。首先,在numpy中有很多的数据类型,多于python内置数据类型,具体有哪些类型,可以参看下图,下图的columns和index是数据类型在numpy中的符号,具体的释义可以查看这里。下面,我们重点讲一下numpy中关于数据类型以及转换中容易碰到的陷进或者需要注意的点。

1、数据类型的表示

在numpy中,一个数据类型实际上是一个dtype对象,其有一些重要的属性,比如字节顺序、数据类型、字节数大小等,一般的,numpy中的数据类型会表示成类似'<i4'这样,这个表示法中,<表示字节顺序,i表示数据类型,这里表示整数,4表示一个元素占据的字节数,这里4字节,表示32位整数。

2、构造ndarray时的dtype

在构造ndarray时,可以指定dtype参数来设置ndarray里面元素的数据类型,这个dtype可以用'i4'这样的表示方式,也可以用int表示,但是后者没法指定字节数。要注意的是,指定dtype时,一定要确认这个dtype可以兼容所有元素,防止溢出或者不兼容,对此我们可以通过result_type(*array_like)来判断我们应该设定的dtype,这个函数返回的dtype是可以兼容所有元素的最小size的数据类型;或者我们无需设定,其会自动进行数据类型的转换,我们也可以通过ndarray.dtype属性查看数据类型。Anyway,我们要有这种数据类型转换的意识,因为这会影响后续对ndarray的操作。

3、不同数据类型之间的转换兼容性

numpy的数据类型之间能够实现转换,可以通过np.can_cast(fromtype,totype)这个函数来判断,更详细的可以查看下图。

4、numpy对python对象数据类型'O'的处理

当numpy中有python独有的原生数据类型,比如Decimal,那么ndarray会被转为object数据类型,表示python对象数据类型,当然这里也可以转为字符串,但是字符串对于np.nan往往会占据更大的itemsize。

当numpy函数对dtype位object的ndarray处理时,会先把里面的元素再进一步转为其他numpy的数据类型,这样才可以操作,所以这里如果函数没法或没有指定类型参数,那么会默认以第一个inner loop到的数据类型作为所有元素的类型,并以此类型进行后续转换,这时,对于object类型的ndarray来说,往往容易出现数据无法转换成功的异常。所以要注意处理时第一个inner loop遇到的元素的类型是否可以兼容后面要处理的所有元素,不然会抛出异常。看下面的例子说明。

import numpy as np
from decimal import Decimal

arr=np.array([[1,2.0,3],['a',3,np.nan],[2,np.nan,Decimal('5')]])
arr1=np.apply_along_axis(lambda x:x[0],arr=arr,axis=1)
arr1
# output:
# ValueError: invalid literal for int() with base 10: 'a'

arr2=np.apply_along_axis(lambda x:x[1],arr=arr,axis=1)
arr2
# output:
# array([ 2.,  3., nan])

arr2=np.apply_along_axis(lambda x:x[2],arr=arr,axis=1)
arr2
# output:
# array([          3, -2147483648,           5])

从上面的例子中可以看到,arr1中,由于第一个inner loop遇到的元素是整数1,所以便会以整数类型对后续的元素进行转换,但是后面的一个元素是字符'a',无法将其转为int,因此就会报上述error;arr2中,第一个遇到的元素是2.0,为float,所以后面的元素都会被转为float,因此输出为array([ 2.,  3., nan]),其中都变成了float,要注意的是,由于np.nan本身就是一个浮点数,因此这里可以正确的转换,转换之后还是np.nan;但是看arr2,由于第一个遇到的元素类型为int32,后面的np.nan为float64,会造成溢出,这样便无法正确的转换,从而会用int32最接近np.nan的值去替换,所以就是-2**31==-2147483648,这里之所以是2**31,而不是2**32-1,是因为这里的int是signed int,即有正负号的int,所以其范围是-2**31~2**31-1;而Decimal('5')被转为了int 5,所以就出现了上述的结果。

所以,当要被转成ndarray的原始数据中有np.nan时,要特别注意这一点,最好是指定float类型,注意其他数据的兼容;而如果同时又是obejct数据类型时,那么同时也要注意第一个inner loop遇到的元素的数据类型,注意和后面的数据类型保持兼容。

小结:numpy的dtype有诸多陷进,需要小心对待,谨慎核查,然后灵活运用。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • numpy数据类型dtype转换实现

    这篇文章我们玩玩numpy的数值数据类型转换 导入numpy >>> import numpy as np 一.随便玩玩 生成一个浮点数组 >>> a = np.random.random(4) 看看信息 >>> a array([ 0.0945377 , 0.52199916, 0.62490646, 0.21260126]) >>> a.dtype dtype('float64') >>> a.shape (4,

  • NumPy-ndarray 的数据类型用法说明

    ndarray 的数据类型 数据类型,即 dtype ,也是一个特殊的对象, 它包含了ndarray需要为某一种类型数据所申明的内存块信息(也成为了元数据,即表示数据的数据) dtype是NumPy能够与琪他系统数据灵活交互的原因.通常,其他系统提供一个硬盘或内存与数据的对应关系,使得利用C或Fortran等底层语言读写数据变得十分方便. 名称 描述 bool_ 布尔型数据类型(True 或者 False) int_ 默认的整数类型(类似于 C 语言中的 long,int32 或 int64)

  • 详解将Pandas中的DataFrame类型转换成Numpy中array类型的三种方法

    在用pandas包和numpy包对数据进行分析和计算时,经常用到DataFrame和array类型的数据.在对DataFrame类型的数据进行处理时,需要将其转换成array类型,是以下列出了三种转换方法. 首先导入numpy模块.pandas模块.创建一个DataFrame类型数据df import numpy as np import pandas as pd df=pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]}) 1.使用DataFra

  • 如何修改numpy array的数据类型

    目录 修改numpy array数据类型 1.numpy数据类型 2.改变numpy array数据类型 numpy数据类型说明及自动转换陷阱 1.数据类型的表示 2.构造ndarray时的dtype 3.不同数据类型之间的转换兼容性 4.numpy对python对象数据类型'O'的处理 修改numpy array数据类型 1.numpy数据类型 数据名称 说明 bool 布尔类型,true,false int_ 默认的整数类型(类似于 C 语言中的 long,int32 或 int64) in

  • pandas读取CSV文件时查看修改各列的数据类型格式

    下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和Pandas的查看方式略有不同,一个是dtype,一个是dtypes print(Array.dtype) #输出int64 print(df.dtypes) #输出Df下所有列的数据格式 a:int64,b:int64 2.修改 import pandas as pd import numpy a

  • numpy.array 操作使用简单总结

    import numpy as np numpy.array 常用变量及参数 dtype变量,用来存放数据类型, 创建数组时可以同时指定. shape变量, 存放数组的大小, 这人值是可变的, 只要确保无素个数不变的情况下可以任意修改.(-1为自动适配, 保证个数不变) reshape方法,创建一个改变了形状的数组,与原数组是内存共享的,即都指向同一块内存. 创建数组的方法 np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]], dtype=np

  • 聊聊Numpy.array中[:]和[::]的区别在哪

    [:]和[::]的区别蛮大的,用的好可以节省时间,下面以实例进行分析 array([:]) >>> import numpy as np >>> >>> x=np.array([1,2,3,4,5,6,7,8,9,10,11,12]) >>> print(x[1:5])#打印index为1~5的数组,范围是左闭右开 [2 3 4 5] >>> print(x[3:])#打印index=3之后的数组,包含index=3

  • Numpy array数据的增、删、改、查实例

    准备工作: 增.删.改.查的方法有很多很多种,这里只展示出常用的几种. >>> import numpy as np >>> a = np.array([[1,2],[3,4],[5,6]])#创建3行2列二维数组. >>> a array([[1, 2], [3, 4], [5, 6]]) >>> a = np.zeros(6)#创建长度为6的,元素都是0一维数组 >>> a = np.zeros((2,3))#创

  • Python list与NumPy array 区分详解

    1. 数据类型 type() #!/usr/bin/env python # -*- coding: utf-8 -*- # Yongqiang Cheng from __future__ import absolute_import from __future__ import print_function from __future__ import division import os import sys sys.path.append(os.path.dirname(os.path.a

  • Python过滤掉numpy.array中非nan数据实例

    代码 需要先导入pandas arr的数据类型为一维的np.array import pandas as pd arr[~pd.isnull(arr)] 补充知识:python numpy.mean() axis参数使用方法[sum(axis=*)是求和,mean(axis=*)是求平均值] 如下所示: import numpy as np X = np.array([[1, 2], [4, 5], [7, 8]]) print(np.mean(X, axis=0, keepdims=True)

  • Python大数据用Numpy Array的原因解读

    目录 1.内存占用更小 2.速度更快.内置计算方法 Numpy 是Python科学计算的一个核心模块.它提供了非常高效的数组对象,以及用于处理这些数组对象的工具.一个Numpy数组由许多值组成,所有值的类型是相同的. Python的核心库提供了 List 列表.列表是最常见的Python数据类型之一,它可以调整大小并且包含不同类型的元素,非常方便. 那么List和Numpy Array到底有什么区别?为什么我们需要在大数据处理的时候使用Numpy Array?答案是性能. Numpy数据结构在以

  • Python NumPy教程之数据类型对象详解

    每个 ndarray 都有一个关联的数据类型 (dtype) 对象.这个数据类型对象(dtype)告诉我们数组的布局.这意味着它为我们提供了以下信息: 数据类型(整数.浮点数.Python 对象等) 数据大小(字节数) 数据的字节顺序(小端或大端) 如果数据类型是子数组,它的形状和数据类型是什么. ndarray 的值存储在缓冲区中,可以将其视为连续的内存字节块.所以这些字节将如何被解释由dtype对象给出. 构造数据类型(dtype)对象 数据类型对象是 numpy.dtype 类的一个实例,

  • python实现list由于numpy array的转换

    实例如下所示: u = array([[1,2],[3,4]]) m = u.tolist() #转换为list m.remove(m[0]) #移除m[0] m = np.array(m) #转换为arra 以上这篇python实现list由于numpy array的转换就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们. 您可能感兴趣的文章: Python中列表list以及list与数组array的相互转换实现方法 python 中的list和array的不同之处及

随机推荐