手把手教你实现Python连接数据库并快速取数的工具

目录
  • 前言
  • 一、数据库连接类
  • 二、数据提取主函数模块

在数据生产应用部门,取数分析是一个很常见的需求,实际上业务人员需求时刻变化,最高效的方式是让业务部门自己来取,减少不必要的重复劳动,一般情况下,业务部门数据库表结构一般是固定的,根据实际业务将取数需求做成sql 脚本,快速完成数据获取---授人以渔的方式,提供平台或工具

那如何实现一个自助取数查询工具?

基于底层数据来开发不难,无非是将用户输入变量作为筛选条件,将参数映射到 sql 语句,并生成一个 sql 语句然后再去数据库执行

前言

最后再利用 QT 开发一个 GUI 界面,用户界面的点击和筛选条件,信号触发对应按钮与绑定的传参槽函数执行

具体思路:

1.数据库连接类

此处利用 pandas 读写操作 oracle 数据库

2.主函数模块

1)输入参数模块,外部输入条件参数,建立数据库关键字段映射

--注:读取外部 txt 文件,将筛选字段可能需要进行键值对转换

2)sql 语句集合模块,将待执行的业务 sql 语句统一存放到这里

3)数据处理函数工厂

4)使用多线程提取数据

一、数据库连接类

cx_Oracle 是一个 Python 扩展模块,相当于 python 的 Oracle 数据库的驱动,通过使用所有数据库访问模块通用的数据库 API 来实现 Oracle 数据库的查询和更新

Pandas 是基于 NumPy 开发,为了解决数据分析任务的模块,Pandas 引入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的方法类和函数

pandas 调用数据库主要有 read_sql_table,read_sql_query,read_sql 三种方式

本文主要介绍一下 Pandas 中 read_sql_query 方法的使用

1:pd.read_sql_query()

读取自定义数据,返还DataFrame格式,通过SQL查询脚本包括增删改查。

pd.read_sql_query(sql, con, index_col=None,coerce_float=True, params=None, parse_dates=None,chunksize=None)

sql:要执行的sql脚本,文本类型

con:数据库连接

index_col:选择返回结果集索引的列,文本/文本列表

coerce_float:非常有用,将数字形式的字符串直接以float型读入

parse_dates:将某一列日期型字符串转换为datetime型数据,与pd.to_datetime函数功能类似。

params:向sql脚本中传入的参数,官方类型有列表,元组和字典。用于传递参数的语法是数据库驱动程序相关的。

chunksize:如果提供了一个整数值,那么就会返回一个generator,每次输出的行数就是提供的值的大小

read_sql_query()中可以接受SQL语句,DELETE,INSERT INTO、UPDATE操作没有返回值(但是会在数据库中执行),程序会抛出SourceCodeCloseError,并终止程序。SELECT会返回结果。如果想继续运行,可以try捕捉此异常。

2:pd.read_sql_table()

读取数据库中的表,返还DataFrame格式(通过表名)

import pandas as pd
​​​​​​​pd.read_sql_table(table_name, con, schema=None,index_col=None, coerce_float=True, parse_dates=None, columns=None,chunksize=None)

3:pd.read_sql()

读数据库通过SQL脚本或者表名

import pandas as pd
pd.read_sql(sql, con, index_col=None,coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)

以下创建连接 oracel 数据库的连接类 Oracle_DB

主要提供 2 种操作数据的函数方法。

import cx_Oracle
# Pandas读写操作Oracle数据库
import pandas as pd

# 避免编码问题带来的乱码
import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

class Oracle_DB(object):
    def __init__(self):
        try:
            # 连接oracle
            # 方法1:sqlalchemy 提供的create_engine()
            # from sqlalchemy import create_engine
            # engine = create_engine('oracle+cx_oracle://username:password@ip:1521/ORCL')
            # #方法2:cx_Oracle.connect()
            self.engine = cx_Oracle.connect('username', 'password', 'ip:1521/database')

        except cx_Oracle.Error as e:
            print("Error %d:%s" % (e.args[0], e.args[1]))
            exit()

    # 查询部分信息
    def search_one(self, sql,sparm):
        try:
            # #查询获取数据用sql语句
            # 代传参数:sparm--查询指定字段参数
            df = pd.read_sql_query(sql, self.engine,params=sparm)

            self.engine.close()

        except Exception as e:
            return "Error " + e.args[0]

        return df

    # 查询全部信息
    def search_all(self, sql):
        try:

            # #查询获取数据用sql语句

            df = pd.read_sql_query(sql, self.engine)

            self.engine.close()

        except Exception as e:
            return "Error " + e.args[0]

        return df

二、数据提取主函数模块

cx_Oracle 是一个 Python 扩展模块,相当于 python 的 Oracle 数据库的驱动,通过使用所有数据库访问模块通用的数据库 API 来实现 Oracle 数据库的查询和更新。

1)外部输入参数模块

txt 文本中,就包含一列数据,第一行列名,读取的时候忽略第一行

#建立ID——编号字典
def buildid():
    sqlid = """select * from b_build_info"""
    db = Oracle_DB()  # 实例化一个对象
    b_build_info = db.search_all(sqlid)
    ID_bUILDCODE = b_build_info.set_index("BUILDCODE")["ID"].to_dict()
    return ID_bUILDCODE

#通过文本传入待导出数据清单
def read_task_list():
    build_code=buildid()
    tasklist=[]
    is_first_line=True
    with open("./b_lst.txt") as lst:
        for line in lst:
            if is_first_line:
                is_first_line=False
                continue
            tasklist.append(build_code.get(line.strip('\n')))  #键值对转换
    return tasklist

2)业务 sql 语句集合

注意in后面{0}不要加引号,这里传入为元组,params 参数传入sparm

= {'Start_time':'2021-04-01','End_time':'2021-05-01'},此处参数可根据需要改变

def sql_d(lst):
    # 逐月数据
    sql_d_energy_item_month = """select * from d_energy_item_month
           where recorddate >= to_date(:Start_time, 'yyyy-MM-dd')
           and recorddate < to_date(:End_time, 'yyyy-MM-dd')
           and  buildid  in {0}
           order by recorddate asc""".format(lst)

    # 逐月数据
    sql_d_energy_month = """select d.*,t.name from d_energy_month d join t_device_info t on d.branchid = t.id
           where d.recorddate >= to_date(:Start_time, 'yyyy-MM-dd')
           and d.recorddate < to_date(:End_time, 'yyyy-MM-dd')
           and d.buildid = '{0}'
           order by d.recorddate asc""".format(lst)

    # 查询当日数据
    sql_energy_item_hour_cheak = """select * from d_energy_item_hour
            where trunc(sysdate)=trunc(recorddate)
            order by recorddate asc""".format(lst)

    sql_collection = [sql_d_energy_item_month, sql_d_energy_item_day, sql_d_energy_item_hour, sql_d_energy_month,
                      sql_d_energy_day, sql_d_energy_hour, sql_energy_hour_cheak]
                      #此处省略部分sql语句
    return sql_collection

3)业务数据处理

业务数据处理流程,原始数据后处理,这里不作介绍:

def db_extranction(lst,sparm,sql_type):
    """sql_type--输入需要操作的sql业务序号"""
    sql_=sql_d(lst)[sql_type]  #输出sql语句
    db = Oracle_DB()  # 实例化一个对象
    res=db.search_one(sql_,sparm)
    # 数据处理加工
    RES=Data_item_factory(res)  #此处省略
    # res = db.search_all(sql_d_energy_item_month)
    print(RES)
    return RES

多线程提取数据部分,这里 tasklist 列表多线程提取数据

import threading
# Pandas读写操作Oracle数据库
from tools.Data_Update_oracle import Oracle_DB
import pandas as pd
from concurrent import futures  

if __name__ == '__main__':
    #外部传入
    tasklist= read_task_list()
    print(tasklist)
    # 输入时间查找范围参数,可手动修改
    sparm = {'Start_time':'2021-04-01','End_time':'2021-05-01'}
    lst = tuple(list(tasklist))

    #业务类型序号,可手动修改
    sql_type=0

    #全部提取
    db_extranction(lst,sparm,sql_type)  

    #多线程按字段分批提取
    方法一:使用threading模块的Thread类的构造器创建线程
    #threads=[threading.Thread(target=db_extranction,args=(lst,sparm,sql_type)) for lst in tasklist]
    # [threads[i].start() for i in range(len(threads))]

    方法二:使用python的concurrent库,这是官方基于 threading 封装,先安装该库
    # with futures.ThreadPoolExecutor(len(tasklist)) as executor:
    #     executor.map([db_extranction(lst,sparm,sql_type) for lst in tasklist],tasklist)

到此整个数据库取数工具开发流程介绍完毕,就差最后一步分享给小伙伴使用了,做成 GUI 应用此处不做详细介绍,构建独立的 python 环境,快速发布你的应用

到此这篇关于手把手教你实现Python连接数据库并快速取数的工具的文章就介绍到这了,更多相关Python数据库快速取数内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python连接mysql数据库并读取数据的实现

    1.安装pymysql包 pip install pymysql 注: MySQLdb只支持python2,pymysql支持python3 2.连接数据 import pymysql import pandas as pd from pandas import DataFrame as df conn = pymysql.Connect( host = 'IP地址', port = 端口号, user = '用户名', passwd = '用户密码', db = '数据库名称', charse

  • Python写的一个定时重跑获取数据库数据

    做大数据的童鞋经常会写定时任务跑数据,由于任务之间的依赖(一般都是下游依赖上游的数据产出),所以经常会导致数据获取失败,因为很多人发现数据失败后 都会去查看日志,然后手动去执行自己的任务.下面我实现了一个自动重复执行去数据库取数,如果失败后自动重新去获取,直到把数据获取到. 建数据表: CREATE TABLE `testtable` ( 2 `id` int(11) unsigned NOT NULL AUTO_INCREMENT, 3 `name` varchar(20) NOT NULL,

  • Python爬取数据并写入MySQL数据库的实例

    首先我们来爬取 http://html-color-codes.info/color-names/ 的一些数据. 按 F12 或 ctrl+u 审查元素,结果如下: 结构很清晰简单,我们就是要爬 tr 标签里面的 style 和 tr 下几个并列的 td 标签,下面是爬取的代码: #!/usr/bin/env python # coding=utf-8 import requests from bs4 import BeautifulSoup import MySQLdb print('连接到m

  • Python获取数据库数据并保存在excel表格中的方法

    将数据库中的数据保存在excel文件中有很多种方法,这里主要介绍pyExcelerator的使用. 一.前期准备(不详细介绍MySQL) python包pyExcelerator和MySQLdb 导入方法:(以Pycharm为例) 在File->Settings中点击右上角绿色图标"+", 输入pyExcelerator,点击install package,导入成功之后点击OK,就完成了pyExcelerator的导入. 2.使用pyExcelerator对excel进行操作 #

  • python爬虫构建代理ip池抓取数据库的示例代码

    爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检测是否可用,可用保存,通过函数get_proxies可以获得ip,如:{'HTTPS': '106.12.7.54:8118'} 下面放上源代码,并详细注释: import requests from lxml import etree from requests.packages import u

  • 手把手教你实现Python连接数据库并快速取数的工具

    目录 前言 一.数据库连接类 二.数据提取主函数模块 在数据生产应用部门,取数分析是一个很常见的需求,实际上业务人员需求时刻变化,最高效的方式是让业务部门自己来取,减少不必要的重复劳动,一般情况下,业务部门数据库表结构一般是固定的,根据实际业务将取数需求做成sql 脚本,快速完成数据获取---授人以渔的方式,提供平台或工具 那如何实现一个自助取数查询工具? 基于底层数据来开发不难,无非是将用户输入变量作为筛选条件,将参数映射到 sql 语句,并生成一个 sql 语句然后再去数据库执行 前言 最后

  • Python实现一个自助取数查询工具

    基于底层数据来开发不难,无非是将用户输入变量作为筛选条件,将参数映射到 sql 语句,并生成一个 sql 语句然后再去数据库执行 最后再利用 QT 开发一个 GUI 界面,用户界面的点击和筛选条件,信号触发对应按钮与绑定的传参槽函数执行 具体思路: 一.数据库连接类 此处利用 pandas 读写操作 oracle 数据库 二.主函数模块 1)输入参数模块,外部输入条件参数,建立数据库关键字段映射 --注:读取外部 txt 文件,将筛选字段可能需要进行键值对转换 2)sql 语句集合模块,将待执行

  • 手把手教你用python抢票回家过年(代码简单)

    首先看看如何快速查看剩余火车票? 当你想查询一下火车票信息的时候,你还在上12306官网吗?或是打开你手机里的APP?下面让我们来用Python写一个命令行版的火车票查看器, 只要在命令行敲一行命令就能获得你想要的火车票信息!如果你刚掌握了Python基础,这将是个不错的小练习. 接口设计 一个应用写出来最终是要给人使用的,哪怕只是给你自己使用.所以,首先应该想想你希望怎么使用它?让我们先给这个小应用起个名字吧,既然及查询票务信息,那就叫它tickets好了.我们希望用户只要输入出发站,到达站以

  • 手把手教你使用Django + Vue.js 快速构建项目

    目录 1. 前言 2. 环境准备 3. 创建 Django 项目 4. 创建 Vue.js 前端项目 5. 解决跨域问题 6. 整合 Django 和 Vue.js 前端 1. 前言 本篇将基于Django + Vue.js,手把手教大家快速的实现一个前后端分离的Web项目. 2. 环境准备 Python 3.6.1 Mysql 5.7.23 Pycharm (专业版) Node 3. 创建 Django 项目 创建完成后,目录结构如下所示 使用 Navicat 工具创建数据库 DjangoVu

  • 手把手教你搭建python+selenium自动化环境(图文)

    目录 第一步:安装python解释器 第二步:安装pycharm编译器. 第三步:安装selenium库 第四步:下载浏览器的驱动 第五步:打开pycharm写第一个自动化demo验证环境是否有问题 快速+简单搭建环境.如果有问题,欢迎进群讨论留言. 第一步:安装python解释器 官网地址:https://www.python.org/ 自动化测试最好下载3.7的. 下载完成后打开这个文件,然后傻瓜式安装. 安装好后,win+r打开命令行窗口,输入python.如果显示下图,就说明安装成功.

  • 手把手教你进行Python虚拟环境配置教程

    /1 前言/ 咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下. /2 虚拟环境的作用/ 咱们今天就来说一下Python的虚拟环境,可能有的小伙伴会疑惑,Python的虚拟环境有什么用呢?接下来我们一起来探讨一下. 我们先来举个例子,来说明为什么需要虚拟环境.我们在学习Python的时候,可能会学到越来越多的第三方库,比如爬虫,我们需要安装requests,可能学着学着,我们还需要安装bs4,或者又学着学着,我们还需要安装

  • 手把手教你用python发送短消息(基于阿里云平台)

    本次是纯发送演示,一步步讲解如何让发送成功,后继会介绍与网站注册功能的结合运用,敬请关注"有只狗狗叫多多" 一.首先,注册阿里云账号一个,完成实名认证,然后在产品中找到短信服务,选择免费开通 这里还是要推荐下小编的Python学习群:483546416,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2017最新的Python资料和0基础入门教程,欢迎初学和进阶中的小伙伴.在不忙的时间我会给大家解惑. 二.控制台生成后,进入短信控制台,获取你的AK,保留备用,

  • 手把手教你使用Python解决简单的zip文件解压密码

    目录 简介 文件创建 纯数字密码 字母数字混合密码 补充说明 简介 使用的核心模块是python标准库中的zipfile模块.这个模块可以实现zip文件的各种功能,具体可以查看官方参考文档.这里的暴力破解的意思是对密码可能序列中的值一个一个进行密码尝试,这对人来说是很难的,可是对计算机而言并不难.有时候我们下载的zip文件需要密码解压而我们不知道,需要付费才知道.所以这里主要介绍两种暴力破解的密码:纯数字密码和英文数字组合密码. 文件创建 首先测试文件为test.txt(仅包含单行文本),压缩后

  • 手把手教你使用Python绘制时间序列图

    目录 01从Quandl检索数据集 02绘制收盘价与成交量的关系图 03绘制烛台图 导读:分析时间序列数据的一种简单而有效的方法就是将时间序列数据可视化在一个图表上,这样我们就可以从中推断出某些假设.本文将以股价数据集为例,指导你从Quandl下载股价数据集,并将这些数据绘制在价格和成交量图表上.还将教大家绘制烛台图,比起直线图表,这将给我们更多的信息. 01从Quandl检索数据集 Quandl简介 Quandl是一个为金融.经济和另类数据服务的平台,这些数据由各种数据发布商提供,包括联合国.

  • 手把手教你用python绘制热度图(heatmap)

    目录 1.简单的代码 2.添加X轴和Y轴标签和标题: 3.对右侧的色条(colorbar)进行调整: 4.修改色条的刻度值和标签的字体大小.颜色: 5.对热度图显示数值和添加网格线: 6. 定义热度图的配色板 总结 1.简单的代码 from matplotlib import pyplot as plt import seaborn as sns import numpy as np import pandas as pd #练习的数据: data=np.arange(25).reshape(5

随机推荐