解决hive中导入text文件遇到的坑

2025-02-23 18:00:38

今天帮一同学导入一个excel数据，我把excel保存为txt格式，然后建表导入，失败！分隔符格式不匹配，无法导入！！！！怎么看两边都是\t，怎么不匹配呢？

做为程序员，最不怕的就是失败，因为我们有一颗勇敢的心！再来！又特么失败。。。

想了好久，看看了看我的表格式，我犯了一个好低级的错误：

hive表的存储格式设置为了orcfile!!!

众所周知：orcfile为压缩格式，可以节约大量存储空间，但orc还有个特点就是不能直接load数据！要想load数据，我们要建一个存储格式为textfile的中间表，然后再把数据抽取过去。因为这个错误太简单，网上有相关科普，因此很少有把它当错误写出来。遇到问题的朋友们可能要走些弯路，我来补个漏~~~~~~

举个栗子：

1.首先，导出excel表格为txt格式，（这个过程不再赘述，网上教程一大把）。

123,小明,666,1990-09-23 12:00:18
256,小伙,555,1989-10-06 03:57:32
142,小兰,444,1992-07-04 05:05:45

2.在hive中创建表模型：

CREATE TABLE IF NOT EXISTS STUDENTS
(
ID INT COMMENT'学生',
SNAME STRING COMMENT '姓名',
SCORE INT COMMENT '得分',
STIME STRING COMMENT '考试时间'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS ORCFILE;

3.创建临时表（中间表）：

CREATE TABLE IF NOT EXISTS STUDENTS_TMP
(
ID INT COMMENT'学生',
SNAME STRING COMMENT '姓名',
SCORE INT COMMENT '得分',
STIME STRING COMMENT '考试时间'
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

与目标表只有名称和存储格式不同，其他都相同。

4.load 数据到临时表：

load data local inpath '/export/data/1.txt' into table students_tmp;

5.将数据导入目标表：

insert overwrite table students select * from students_tmp;

6.然后查看表数据，大功造成：

hive > select * from students;
OK
123 小明 666 1990-09-23 12:00:18
256 小伙 555 1989-10-06 03:57:32
142 小兰 444 1992-07-04 05:05:45
Time taken: 0.26 seconds, Fetched: 3 row(s)

其他存储格式如 SEQUENCEFILE、PARQUET 等，也要选存储为textfile格式，然后抽入目标表。

一定要按照导出格式的分隔符建表，不然load数据必然出错或全是null;

excel导出格式：

格式 分隔符 中文名称
text \t  制表符
csv , 逗号

7.还要注意一点是我们从excel导出的文件格式是gb2312 （无论是txt还是csv都是这个格式，都需要转码），我们需要把它转成utf-8才能Load。

所以在load之前，我们一般会采取两种办法：

1. 在文本编辑器中进行转码，带不带bom关系不大，然后上传;

2.在文件所在本地目录下执行以下命令转码：

piconv -f gb2312 -t UTF-8 1.txt > 2.txt

注意，在本地目录下命令转码会改变文件名，因为此命令会把所文件写入到另一个文件，并清空原文件内容，如果我们不改名，文件内容会完全丢失。所以，我们Load的时候一定要选择修改后的文件名哦。

示例：

转码前数据：

hive> select * from students;
OK
112	С��	35	2017/8/19 15:30
113	����	45
114	³��	55	2017/8/21 15:30
115	����	NULL
116	������	75	2017/8/23 15:30
117	������	85	2017/8/24 15:30
118	�˽�	NULL	2017/8/25 15:30
119	������	90
120	СѾ	NULL	2017/8/27 15:30
121	����	80	2017/8/28 15:30
122	��߸	75
123	��«��	70	2017/8/30 15:30
124	����	NULL	2017/8/31 15:30
125	�繤	NULL
126	�峤	NULL	2017/9/2 15:30
127	˾��	50	2017/9/3 15:30
128	������	58	2017/9/4 15:30
129	����	66	2017/9/5 15:30
Time taken: 0.134 seconds, Fetched: 18 row(s)

去所在目录下转码，再Load

piconv -f gb2312 -t UTF-8 2.csv > 3.csv
# 在hive中选择正确的文件Load:
hive> load data local inpath '/export/data/3.csv' into table students;

结果：

hive> select * from students;
OK
112	小宝	35	2017/8/19 15:30
113	王明	45
114	鲁班	55	2017/8/21 15:30
115	苗苗	NULL
116	少林寺	75	2017/8/23 15:30
117	体育界	85	2017/8/24 15:30
118	八戒	NULL	2017/8/25 15:30
119	周芷若	90
120	小丫	NULL	2017/8/27 15:30
121	海宝	80	2017/8/28 15:30
122	哪吒	75
123	葫芦娃	70	2017/8/30 15:30
124	丹枫	NULL	2017/8/31 15:30
125	电工	NULL
126	村长	NULL	2017/9/2 15:30
127	司机	50	2017/9/3 15:30
128	王世间	58	2017/9/4 15:30
129	松鼠	66	2017/9/5 15:30
Time taken: 0.106 seconds, Fetched: 18 row(s)

补充：hive导入数据出现NULL

在把hdfs上数据迁移到hive中的表时，若出现数据位NULL，是因为没有指定列分隔符。

由于hive默认的分隔符是/u0001（Ctrl+A）,为了平滑迁移，需要在创建表格时指定数据的分割符号，语法如下：

hive (default)> create external table et (time BIGINT, userid string, content string, urlrank int, urlnum int, url string)
  > partitioned by (filenum int)
  > row format delimited fields terminated by '\t';

上面创建的是外部表，“导入”数据时可以用load，但若不想进行移动数据，就用命令alter来进行指向：

alter table et add partition (filenum=1) location '/input/SogouQueryLog/file1';

注意location后面跟的地址必须是个目录，若不是，可以用hdfs fs -mv src dest 进行移动数据：

hadoop fs -mv /input/SogouQueryLog/querylog_1 /input/SogouQueryLog/file1

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。如有错误或未考虑完全的地方，望不吝赐教。

python3.6.5基于kerberos认证的hive和hdfs连接调用方式

1. Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证.具体请查阅官网 2. 需要安装的包(基于centos) yum install libsasl2-dev yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64 yum install python-devel yum install krb5-devel yum install python-krbV pip insta
python 实现 hive中类似 lateral view explode的功能示例

背景:加入现在有这样的数据,可能一条ocr代表两个label,并且label通过","分隔.我们想把数据转换成下面的. 原始数据: label ocr 日常行车服务,汽车资讯去加油站,加完油后直接离开?最开心的可能是加油站的工作人员社会民生已致2死20伤 !景区突遭尘卷风袭击,孩子被卷上天!现场画面曝光目标数据: label ocr 日常行车服务去加油站,加完油后直接离开?最开心的可能是加油站的工作人员汽车资讯去加油站,加完油后直接离开?最开心的可能是加油站的工作人员社
在python中使用pyspark读写Hive数据操作

1.读Hive表数据 pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语句从hive里面查询需要的数据,代码如下: from pyspark.sql import HiveContext,SparkSession _SPARK_HOST = "spark://spark-master:7077" _APP_NAME = "test" spa
使用Python构造hive insert语句说明

mysql可以使用nevicat导出insert语句用于数据构造,但是hive无法直接导出insert语句.我们可以先打印在hive命令行,然后使用脚本拼装成insert语句,进行数据构造. 手动copy到python脚本进行sql语句构造: def transformString(s): list_s = s.split('\t') print(len(list_s)) s_new = '' for item in list_s: s_new += '\"' + item.strip(' ')
Python pandas 列转行操作详解(类似hive中explode方法)

最近在工作上用到Python的pandas库来处理excel文件,遇到列转行的问题.找了一番资料后成功了,记录一下. 1. 如果需要爆炸的只有一列: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[1]: A B 0 1 [1, 2] 1 2 [1, 2] 如果要爆炸B这一列,可以直接用explode方法(前提是你的pandas的版本要高于或等于0.25) df.explode('B') A B 0 1 1 1 1 2 2 2 1 3
解决hive中导入text文件遇到的坑

今天帮一同学导入一个excel数据,我把excel保存为txt格式,然后建表导入,失败!分隔符格式不匹配,无法导入!!!!怎么看两边都是\t,怎么不匹配呢? 做为程序员,最不怕的就是失败,因为我们有一颗勇敢的心!再来!又特么失败... 想了好久,看看了看我的表格式,我犯了一个好低级的错误: hive表的存储格式设置为了orcfile!!! 众所周知:orcfile为压缩格式,可以节约大量存储空间,但orc还有个特点就是不能直接load数据!要想load数据,我们要建一个存储格式为textfile
解决pycharm中导入自己写的.py函数出错问题

如图,今天跑代码的事后遇到的问题,pycharm导入我自己写的各种函数.py文件时有红色标注,显示"no moudle balabala-" 可以看到,右侧自己写的函数是存在的. 解决办法方便起见,直接在文件所在的目录(如上目录为 jihe )上进行操作! 如图,右键点击根目录-->Mark Directory as-->Sources Root.就大功告成了. 这样报错就解除了. 除非你导入函数时将函数名写错了(以前的坑).... 以上这篇解决pycharm中导入自己写
解决Python中导入自己写的类,被划红线,但不影响执行的问题

1. 错误描述之前在学习Python的过程中,导入自己写的包文件时,与之相关的方法等都会被划红线,但并不影响代码执行,如图: 看着红线确实有点强迫症,并且在这个过程当时,当使用该文件里的方法时不会自动提示方法名,只能靠手全部输入,这种容易造成手误,对于小白特别容易降低编写效率 2. 原因分析 pycharm中,source root概念非常重要,当你在代码中写相对路径的时候,就是以source root为起点进行查询. 而pycharm中,当前的项目文件夹是默认的source root,当你
解决python中导入win32com.client出错的问题

准备写一个操作Excel脚本却在导入包的时候出现了一个小问题导入包 from Tkinter import Tk from time import sleep, ctime from tkMessageBox import showwarning from urllib import urlopen import win32com.client as win32 报错提示 Traceback (most recent call last): File "estock.pyw", li
解决Mybatis中mapper.xml文件update,delete及insert返回值问题

最近写了几个非常简单的接口(CRUD),在单元测试的时候却出了问题,报错如下: Caused by: org.springframework.beans.factory.UnsatisfiedDependencyException: Error creating bean with name 'messageListener': Unsatisfied dependency expressed through field 'reviewCheckInfoService'; nested exce
详解如何实现在Vue中导入Excel文件

目录一.安装依赖二.template中三.script中js代码以将此Excel导出为json数据为例一.安装依赖 npm install file-saver --save npm install xlsx --save npm install script-loader --save-dev 二.template中 <span>导入表格</span> <input id="upload" type="file" @chan
解决PhpMyAdmin中导入2M以上大文件限制的方法分享

要处理这个问题,经过一番研究发现,有2种方法: 方法一: 找到php.ini搜索这3个地方 upload_max_filesize , memory_limit 和 post_max_size将他们后面的值修改成大于你需要导入的数据库大小就好了.然后重启的PHP环境. 方法二:以phpMyAdmin-3.1.0-all-languages为例,我的安装目录E:\wwwroot\phpMyAdmin\ 1.在 phpmyadmin目录里新建一个目录 upload. 2.打开phpmyadmin,找
在linux中导入sql文件的方法分享(使用命令行转移mysql数据库)

因导出sql文件在你原来的网站服务商处利用phpmyadmin导出数据库为sql文件,这个步骤大家都会,不赘述. 上传sql文件前面说过了,我们没有在云主机上安装ftp,怎么上传呢? 打开ftp客户端软件,例如filezilla,使用服务器IP和root及密码,连接时一定要使用SFTP方式连接,这样才能连接到linux.注意,这种方法是不安全的,但我们这里没有ftp,如果要上传本地文件到服务器,没有更好更快的方法. 我们把database.sql上传到/tmp目录. 连接到linux,登录m
解决goland中编辑tpl文件不高亮没智能补全的问题

如下所示: 补充:goland(intellij)中语法高亮tmpl文件我们知道golang中模板文件一般是以tmpl为后缀的,其实是html文件插入一些go变量,本质还是html文件.但是默认这些文件被识别为普通文本文件,如下: 我们希望tmpl文件被识别为html文件,这样可以高亮,方便我们阅读. 有两种方法. 第一种方法:在对应文件上右键,选择菜单"Associate with File Type" 选择HTMl类型,然后确认: 第二种方法:直接在首选项中以上为个人经验,希望
在Oracle中导入dmp文件的方法

项目开始拿到了dmp文件,数据库用的是10g的,但是尽然没导成功,后来想可能导出的时候用11导出的,决定试一下. 正好自己的机器是11的客户端,结果不识别imp命令,到安装目录下的bin文件夹下看尽然没有imp执行文件.可能装客户端的时候没选管理者装. 怎么办呢,从别的11的bin目录下的imp文件拷贝了一个放到了自己的bin下.执行还是出错,No message file for product = RDBMS,-- 类似这样的message,网上查了一下说拷一个[RDBMS\mesg]的内容

解决hive中导入text文件遇到的坑

举个栗子：

所以在load之前，我们一般会采取两种办法：

相关推荐

随机推荐