Python常用数据分析模块原理解析

2026-04-22 21:15:12

前言

python是一门优秀的编程语言，而是python成为数据分析软件的是因为python强大的扩展模块。也就是这些python的扩展包让python可以做数据分析，主要包括numpy，scipy，pandas，matplotlib，scikit-learn等等诸多强大的模块，在结合上ipython交互工具，以及python强大的爬虫数据获取能力，字符串处理能力，让python成为完整的数据分析工具。

numpy

官网：https://www.scipy.org/

NumPy（Numerical Python的简称）是高性能科学计算和数据分析的基础包。NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。可以利用这种数组对整块数据执行一些数学运算，比python自带的数组以及元组效率更高，其语法跟变量元素之间的运算一样，无需进行循环操作。

在使用python进行数据分析的过程中，我们大部分时候是不会直接使用numpy包，而是其他包要用到numpy。可以说numpy是整个python数据分析工作的基石。

举个简单的案例，我们要计算100000个随机数的值，如果传统编程需要写循环，用了2.2s，而使用numpy数据结构，则可以进行向量化操作，无需循环，只需要28.2ms节约大量时间。

In [1]: import numpy
In [2]: my_arr = np.arange(1000000)
In [3]: my_list = list(range(1000000))
In [4]: %time for _ in range(10): my_arr2 = my_arr * 2
Wall time: 28.2 ms
In [5]: %time for _ in range(10): my_list2 = [x * 2 for x in my_list]
Wall time: 2.2 s

pandas

官网：https://pandas.pydata.org/

Python Data Analysis Library，可根据需要帮助组织各种参数的数据。pandas基于numpy底层数据结构。让python成为类似Excel，R等统计学软件，主要就是pandas的功劳。pandas在python中实现了各种数据的计算，分组计算，添加删除，排序，筛选，抽样等都能工作。使Pandas成为数据科学家中最受欢迎的库。

pandas主要包含两种数据结构：Series与DataFrame。Series是一种类似于以为数组的对象，它由一组数据以及与之相关的数据标签组成，仅有一组数据即可产生最简单的Series。Series类似于R中的向量，属于以为数据。Series可以构成二维的DataFrame。行为记录值，列为观测值。如果熟悉R中的数据框DataFrame，在使用pandas则会轻松上手，因为作者自己说pandas的DataFrame就是模仿R的数据框。

scipy

官网：https://www.scipy.org/

scipy是一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。它用于有效计算Numpy矩阵，使Numpy和Scipy协同工作，高效解决问题。
Scipy是由针对特定任务的子模块组成：

matplotlib

官网：https://matplotlib.org/

matplotlib是python中优秀的数据可视化的包，根据命名就可以看到，它其实是一个matlib的plot库，也就是利用python将matlib的绘图功能实现了一遍。如果你熟悉matlib绘图，那么将直接上手。matplotlib是Python编程语言及其数值数学扩展包 NumPy的可视化操作界面。它为利用通用的图形用户界面工具包，如Tkinter, wxPython, Qt或GTK+向应用程序嵌入式绘图提供了应用程序接口（API）。

plotnine

官网：https://plotnine.readthedocs.io/en/stable/

如果你不熟悉matlib，而是从R转到python，可能不太喜欢matplotlib的绘图模式和风格，觉得不如R绘图方便。而且R还有ggplot2包。那么plotnine则是将ggplot2移植到python上，在python上完全重现ggplot2的功能。如果你熟悉ggplot2的语法，直接上手。不过，我倒是觉得这个工作意义不大，这属于重新发明轮子，后面如果ggplot2在更新了，二者之间还是会有一些差别，用户会有些困扰。当然，这样的问题仁者见仁，愚者见愚。聊胜于无，如果想在 python环境中完成全部工作，有了这个包还是非常不错的。

scikit-learn

官网：https://scikit-learn.org/stable/

有很多人不是天天喜欢三句话不离大数据，机器学习，人工智能吗。那么scikit-learn则是完成python大数据机器学习的包。scikit-Learn是python数据分析中非常重要的一个模块，它是一个基于NumPy和SciPy构建的开源机器学习工具包。它具有常用的ML算法，可用于预处理，分类，回归以及聚类。算法包括[支持向量机]( support vector machines，ridge回归，网格搜索算法(Grid Search algorithm) ，k均值聚类等等。另外还有样本数据集。API易学易用。在几乎所有平台上的良好性能，它在学术和商业用途中都很受欢迎。

其他：

除了以上包之外，python还有很多很多其他有关数据分析的包，不胜枚举，比如图片识别的opencv，google机器学习开源库tensorflow，PyTorch等等，一个崭新的世界等待你去发现。但是前提是前面基础这些包熟悉了，以及有最核心的计算机以及统计学基础，否则就是无水之源，无木之本，你所谓的人工智能，只能是人工智障。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Python数据分析matplotlib设置多个子图的间距方法

注意,要看懂这里,必须具备简单的Python数据分析知识,必须知道matplotlib的简单使用! 例1: plt.subplot(221) # 第一行的左图 plt.subplot(222) # 第一行的右图 plt.subplot(212) # 第二整行 plt.title('xxx') plt.tight_layout() #设置默认的间距例2: for i in range(25): plt.subplot(5,5,i+1) plt.tight_layout() 例3: # 设定画图板
Python数据分析:手把手教你用Pandas生成可视化图表的教程

大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事.但自从Python进入3.0时代以后,pandas的使用变得更加普及,它的身影经常见于市场分析.爬虫.金融分析以及科学计算中. 作为数据分析工具的集大成者,pandas作者曾说,pandas中的可视化功能比plt更加简便和功能强大.实际上,如果是对图表细节有极高要求,那么建议大家使用matplotlib通过底层图表模块进行编码.当然,我
基于python实现微信好友数据分析（简单）

一.功能介绍本文主要介绍利用网页端微信获取数据,实现个人微信好友数据的获取,并进行一些简单的数据分析,功能包括: 1.爬取好友列表,显示好友昵称.性别和地域和签名, 文件保存为 xlsx 格式 2.统计好友的地域分布,并且做成词云和可视化展示在地图上二.依赖库 1.Pyecharts:一个用于生成echarts图表的类库,echarts是百度开源的一个数据可视化库,用echarts生成的图可视化效果非常棒,使用pyechart库可以在python中生成echarts数据图. 2.Itchat
Python爬取新型冠状病毒“谣言”新闻进行数据分析

一.爬取数据话不多说了,直接上代码( copy即可用 ) import requests import pandas as pd class SpiderRumor(object): def __init__(self): self.url = "https://vp.fact.qq.com/loadmore?artnum=0&page=%s" self.header = { "User-Agent": "Mozilla/5.0 (iPhone;
分享一下Python数据分析常用的8款工具

Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还是具有一定的局限性的,需要安装第三方扩展库来增强分析和挖掘能力. Python数据分析需要安装的第三方扩展库有:Numpy.Pandas.SciPy.Matplotlib.Scikit-Learn.Keras.Gensim.Scrapy等,以下是千锋武汉Python培训老师对该第三方扩展库的
python 发送json数据操作实例分析

本文实例讲述了python 发送json数据操作.分享给大家供大家参考,具体如下: # !/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 import urllib import cookielib import json import httplib import re import requests from lxml import etree import StringIO import time s = request
PowerBI和Python关于数据分析的对比

前言如果你对数据分析有一定的了解,那你一定听说过一些亲民好用的数据分析的工具,如Excel.Tableau.PowerBI等等等等,它们都是数据分析的得力助手.像经常使用这些根据的伙伴肯定也有苦恼的时候,不足之处也是显而易见:操作繁琐,复用性差,功能相对局限单一. 很多经常会用到数据分析的伙伴会问有没有一款便捷好用的工具!肯定有啊,Python的出现和普及,很容易就能改变这些窘境! 怎么解决呢?--Python Python有很多优点,如果你能很好的运用到工作中,会发现工作效率大大提升,涨薪也
python flask框架实现传数据到js的方法分析

本文实例讲述了python flask框架实现传数据到js的方法.分享给大家供大家参考,具体如下: 首先要清楚后台和前端交互所采用的数据格式. 一般选JSON,因为和js完美贴合. 后台返回的数据进行序列化在/homepageRecommend 路由的 view方法中返回序列化数据 dict = {"a":1, "b":2}<br data-filtered="filtered"> import json json.dumps(di
Python常用数据分析模块原理解析

前言 python是一门优秀的编程语言,而是python成为数据分析软件的是因为python强大的扩展模块.也就是这些python的扩展包让python可以做数据分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等诸多强大的模块,在结合上ipython交互工具 ,以及python强大的爬虫数据获取能力,字符串处理能力,让python成为完整的数据分析工具. numpy 官网:https://www.scipy.org/ NumPy(Numeric
Python进程Multiprocessing模块原理解析

先看看下面的几个方法: star() 方法启动进程, join() 方法实现进程间的同步,等待所有进程退出. close() 用来阻止多余的进程涌入进程池 Pool 造成进程阻塞. 参数: target 是函数名字,需要调用的函数 args 函数需要的参数,以 tuple 的形式传入用法: multiprocessing.Process(group=None, target=None, name=None, args=(), kwargs={}, *, daemon=None) 写一个的例子:
python标识符命名规范原理解析

这篇文章主要介绍了python标识符命名规范原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下简单地理解,标识符就是一个名字,就好像我们每个人都有属于自己的名字,它的主要作用就是作为变量.函数.类.模块以及其他对象的名称. Python 中标识符的命名不是随意的,而是要遵守一定的命令规则,比如说: 1.标识符是由字符(A~Z 和 a~z).下划线和数字组成,但第一个字符不能是数字. 2.标识符不能和 Python 中的保留字相同.有关保留
python如何重载模块实例解析

本文首先介绍了Python中的模块的概念,谈到了一个模块往往由多个模块组成,然后通过具体实例,分析了模块重载的相关内容,具体介绍如下. 模块是Python程序架构的一个核心概念,较大的程序往往以多个模块文件的形式呈现,一个模块被设计成主文件或顶层文件,用来启动整个Python程序.每个以.py为后缀的Python源代码文件都是一个模块,其他文件可通过"导入"读取这个模块的内容.从一般意义上讲,模块就是变量名的封装.如写一个模块test.py,包含一个两个变量名name.age. nam
基于python调用psutil模块过程解析

这篇文章主要介绍了基于python调用psutils模块过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下用Python来编写脚本简化日常的运维工作是Python的一个重要用途.在Linux下,有许多系统命令可以让我们时刻监控系统运行的状态,如ps,top,free等等.要获取这些系统信息,Python可以通过subprocess模块调用并获取结果.但这样做显得很麻烦,尤其是要写很多解析代码. 在Python中获取系统信息的另一个好办法是
Python @property装饰器原理解析

这篇文章主要介绍了Python @property装饰器原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.通过@property装饰器,可以直接通过方法名来访问方法,不需要在方法名后添加一对"()"小括号. class Person: def __init__(self, name): self.__name = name @property def say(self): return self.__name xioabai
python线程join方法原理解析

这篇文章主要介绍了python线程join方法原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下几个事实 1 python 默认参数创建线程后,不管主线程是否执行完毕,都会等待子线程执行完毕才一起退出,有无join结果一样 2 如果创建线程,并且设置了daemon为true,即thread.setDaemon(True), 则主线程执行完毕后自动退出,不会等待子线程的执行结果.而且随着主线程退出,子线程也消亡. 3 join方法的作用是阻
python 日志 logging模块详细解析

Python 中的 logging 模块可以让你跟踪代码运行时的事件,当程序崩溃时可以查看日志并且发现是什么引发了错误.Log 信息有内置的层级--调试(debugging).信息(informational).警告(warnings).错误(error)和严重错误(critical).你也可以在 logging 中包含 traceback 信息.不管是小项目还是大项目,都推荐在 Python 程序中使用 logging.本文给大家介绍python 日志 logging模块介绍. 1 基本使用
Python机器学习多层感知机原理解析

目录隐藏层从线性到非线性激活函数 ReLU函数 sigmoid函数 tanh函数隐藏层我们在前面描述了仿射变换,它是一个带有偏置项的线性变换.首先,回想下之前下图中所示的softmax回归的模型结构.该模型通过单个仿射变换将我们的输入直接映射到输出,然后进行softmax操作.如果我们的标签通过仿射变换后确实与我们的输入数据相关,那么这种方法就足够了.但是,仿射变换中的线性是一个很强的假设. 我们的数据可能会有一种表示,这种表示会考虑到我们的特征之间的相关交互作用.在此表示的基础上建立
Java常用集合与原理解析

目录迭代器集合框架中的接口具体集合散列码树集队列优先队列映射基本映射映射视图弱散列映射链接散列集合映射枚举集与映射标识散列映射 Java 最初版本只为常用的数据结构提供了很少的一组类:Vector.Stack.Hashtable.BitSet 与 Enumeration 接口迭代器 public interface Collection<E> { boolean add(E element); Iterator<E> iterator(); ... }

Python常用数据分析模块原理解析

相关推荐

随机推荐