python导出hive数据表的schema实例代码

本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下。

为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用HUE这个开源工具进行查询。想必他们对表结构不甚了解,还需要为之提供一个表结构说明,于是编写了一个脚本,从hive数据库中将每张表的字段即类型查询出来,代码如下:

#coding=utf-8
import pyhs2
from xlwt import * 

hiveconn = pyhs2.connect(host='10.46.77.120',
         port=10000,
         authMechanism='PLAIN',
         user='hadoop',
         database='hibiscus_data',
         ) 

def create_excel():
  sql = 'show tables'
  tables = []
  with hiveconn.cursor() as cursor:
    cursor.execute(sql)
    res = cursor.fetch()
    for table in res:
      tables.append(table[0]) 

  tableinfo = []
  for table in tables:
    tableinfo.append(get_column_info(table)) 

  create_excel_ex(tableinfo) 

def create_excel_ex(tableinfo):
  w = Workbook()
  sheet = w.add_sheet(u'表结构')
  row = 0
  for info in tableinfo:
    row = write_tale_info(info,sheet,row)
  w.save('hive_schema.xls') 

def write_tale_info(tableinfo,sheet,row):
  print row
  sheet.write_merge(row,row,0,2,tableinfo['table']) 

  row += 1
  sheet.write(row,0,u'名称')
  sheet.write(row,1,u'类型')
  sheet.write(row,2,u'解释')
  row += 1 

  fields = tableinfo['fields']
  for field in fields:
    sheet.write(row,0,field['name'])
    sheet.write(row,1,field['type'])
    row += 1 

  return row + 1  

def get_column_info(table):
  sql = 'desc {table}'.format(table=table)
  info = {'table':table,'fields':[]}
  with hiveconn.cursor() as cursor:
    cursor.execute(sql)
    res = cursor.fetch()
    for item in res:
      if item[0] == '':
        break
      info['fields'].append({'name':item[0],'type':item[1]}) 

  return info 

if __name__ == '__main__':
  create_excel() 

其实,我们的hive数据库将所有的元数据存储在了mysql当中,分析这些元数据也可以获得表结构信息。

总结

以上就是本文关于python导出hive数据表的schema实例代码的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

您可能感兴趣的文章:

  • python查询sqlite数据表的方法
(0)

相关推荐

  • python查询sqlite数据表的方法

    本文实例讲述了python查询sqlite数据表的方法.分享给大家供大家参考.具体实现方法如下: import sqlite3 as db conn = db.connect('mytest.db') conn.row_factory = db.Row cursor = conn.cursor() cursor.execute("select * from person") rows = cursor.fetchall() for row in rows: print("%s

  • python导出hive数据表的schema实例代码

    本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下. 为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用HUE这个开源工具进行查询.想必他们对表结构不甚了解,还需要为之提供一个表结构说明,于是编写了一个脚本,从hive数据库中将每张表的字段即类型查询出来,代码如下: #coding=utf-8 import pyhs2 from xlwt import * hiveconn = pyhs2.connec

  • Python解析JSON数据的基本方法实例代码

    目录 一.JSON数据格式介绍 二.Python处理JSON数据 json.dumps json.loads 语法 总结 一.JSON数据格式介绍 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. JSON建构于两种结构:json是Javascript中的对象和数组中的对象,本质上来讲就是有特定结构的字符串,所以可以通过这两种结构可以表示各种复杂的结构: 1 对象: 对象在js中表示为”{}”括起来的内容,数据结构为{key:value, key:v

  • Python 自动化表单提交实例代码

    今天以一个表单的自动提交,来进一步学习selenium的用法 练习目标 0)运用selenium启动firefox并载入指定页面(这部分可查看本人文章 http://www.cnblogs.com/liu2008hz/p/6958126.html) 1)页面元素查找(多种查找方式:find_element_*) 2)内容填充(send_keys) 3)iframe与父页面切换(switch_to_frame是切换到iframe,switch_to_default_content是切换到主页面)

  • Bootbox将后台JSON数据填充Form表单的实例代码

    序言: 刚结束公司的三个月试用期,意味着我即将正式步入社会成为广大从事IT行业的一员.作为一个编程小白,无论从技术层面还是知识层面都是比较薄弱的,想要成为一个优秀的程序员不断的学习与探索是不可避免的.我相信一切的付出与收获是成正比的!Fighting! 这几天在做公司的实际项目的时候,需要实现选中Bootstrap table中的任意一行数据点击编辑按钮弹出一个模态框以表单的形式对该行数据进行编辑.获取表格行的数据是比较方便的,具体可以查找Bootstrap table参考文档,具体地址可以直接

  • python 读取摄像头数据并保存的实例

    如下所示: import cv2 cap = cv2.VideoCapture(0) k = 0 while k != 27: # esc ret, img = cap.read(0) cv2.imshow('233', img) k = cv2.waitKey(20) & 0xff print( 'begin to record images-' ) for ii in range(1000): ret, img = cap.read(0) cv2.imshow('233', img) cv2

  • python批量导入数据进Elasticsearch的实例

    ES在之前的博客已有介绍,提供很多接口,本文介绍如何使用python批量导入.ES官网上有较多说明文档,仔细研究并结合搜索引擎应该不难使用. 先给代码 #coding=utf-8 from datetime import datetime from elasticsearch import Elasticsearch from elasticsearch import helpers es = Elasticsearch() actions = [] f=open('index.txt') i=

  • Python 读取xml数据,cv2裁剪图片实例

    下载的数据是pascal voc2012的数据,已经有annotation了,不过是xml格式的,训练的模型是在Google模型的基础上加了两层网络,因此要在原始图像中裁剪出用于训练的部分图像. 另外,在原来给的标注框的基础上,做了点框的移动.最后同类目标存储在同一文件夹中. from __future__ import division import os from PIL import Image import xml.dom.minidom import numpy as np ImgPa

  • python FastApi实现数据表迁移流程详解

    目录 啥是数据迁移 1.需要新的数据表 2.需要对现有表结构进行调整 回到ORM 迁移手段 安装alembic 初始化项目 修改alembic.ini 修改alembic/env.py 开始生成迁移工作 变更数据库 FAQ 啥是数据迁移 在我们平时的开发过程中,经常需要对一些数据进行调整.一般会有以下几种场景: 1.需要新的数据表 我们的接口自动化平台虽然已经较为完善了,但难免会继续迭代一些新的功能,假设我们需要做一个订阅用例的功能. 大体想一下就可以知道,订阅用例以后这个数据得持久化(即入库)

  • python通过elixir包操作mysql数据库实例代码

    本文研究的主要是python通过elixir包操作mysql数据库的相关实例,具体如下. python操作数据库有很多方法,下面介绍elixir来操作数据库.elixir是对sqlalchemy lib的一个封装,classes和tables是一一对应的,能够一步定义classes,tables和mappers,支持定义多个primary key. 定义model.py from elixir import sqlalchemy from elixir import * engine =sqla

随机推荐