Python 等分切分数据及规则命名的实例代码

2025-03-31 11:23:45

将一份一亿多条数据的csv文件等分为10份，代码如下所示：

import pandas as pd
data = pd.read_csv('C:\\Users\\PycharmProjects\\SplitData\\data\\UserBehavior.csv') # 路径则根据个人存放项目文件的习惯
num = 0
for i in range(1, 11):
start = num
num = num + int(data.shape[0] / 10)
file = data.iloc[start:num,]
file.to_csv("C:\\Users\\PycharmProjects\\SplitData\\newData\\" + str(i) + "_data.csv", index=False) # index=False是不想切分后的文件出现序号

注意：如果此时文件的路径包含有中文，则必须改成以下的代码：

import pandas as pd
f = open('C:\\Users\\PycharmProjects\\数据切分\\data\\UserBehavior.csv')
data = pd.read_csv(f)
num = 0
for i in range(1, 11):
start = num
num = num + int(data.shape[0] / 10)
file = data.iloc[start:num,]
file.to_csv("C:\\Users\\PycharmProjects\\SplitData\\newData\\" + str(i) + "_data.csv", index=False)

但是使用这种方法调用文件进内存，加重了内存的负担，两次赋值相当于内存占用乘2，此方法不建议使用，还是将路径改为英文名。

总结

以上所述是小编给大家介绍的Python 等分切分数据及规则命名的实例代码,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

详解python校验SQL脚本命名规则

需求背景检查脚本文件中SQL语句是否按规范编写,规则如下: 创建表时,表名称需以"t_"开头且均为小写增加和创建列时,列名称均为小写字母和_组成创建函数,函数名称需以"f_"开头创建存储过程,存储过程名称需以"p_"开头创建索引,索引名称需以"idx_"开头创建视图,视图名称需以"v_"开头需求分析首先要从脚本文件中提取出来表名称.列名称.函数名称.存储过程名称.索引名称.视图名称这里需要
和孩子一起学习python之变量命名规则

变量命名规则下面是关于变量名(也称为标识符)的一些规则必须以一个字母或一个下划线字符开头.后面可以使用一个字母.数字或下划线字符的序列,长度不限. 字母可以是大写或小写,大小写是不同的.也就是说,Ax不同于aX. 数字可以是从0到9(包括0到9)的任意数字字符. 除了字母.数字和下划线字符,不能使用其他字符.空格.标点符号和其他字符在变量名中都是不允许的. 唯一允许出现的特殊字符是下划线字符.也许你不知道这是什么,下面给出几个例子: First_number=15 Student_name=
Python 变量类型及命名规则介绍

首字母为英文和下划线,其它部分则可以是英文.数字和下划线(即:_),而变量名称是区分大小写,即变量temp与Temp为不同变量.变量的基本用法如下: 复制代码代码如下: # 例:使用变量a = 10b = 20print a + b>>> 30 # 输出a加b的值a = 'hello'b = 'python'print a + ' ' + b>>> hello python # 输出a加b的值上面几个例子是使用变量进行运算,python的变量可以分为数字.字符
深入理解Python中命名空间的查找规则LEGB

名字空间 Python 的名字空间是 Python 一个非常核心的内容. 其他语言中如 C 中,变量名是内存地址的别名,而在 Python 中,名字是一个字符串对象,它与他指向的对象构成一个{name:object}关联. Python 由很多名字空间,而 LEGB 则是名字空间的一种查找规则. 作用域 Python 中name-object的关联存储在不同的作用域中,各个不同的作用域是相互独立的.而我们就在不同的作用域中搜索name-object. 举个栗子,来说明作用域是相互独立的. In
Python 等分切分数据及规则命名的实例代码

将一份一亿多条数据的csv文件等分为10份,代码如下所示: import pandas as pd data = pd.read_csv('C:\\Users\\PycharmProjects\\SplitData\\data\\UserBehavior.csv') # 路径则根据个人存放项目文件的习惯 num = 0 for i in range(1, 11): start = num num = num + int(data.shape[0] / 10) file = data.iloc[s
如何用python合并多个有规则命名的nc文件

现有多个nc文件,命名除了年份不同外,其他皆相同.希望将多个的nc文件合并为一个. 其中,每个nc文件内包含如下内容,包含12个月均数据因此,我们可以知道,合并两个nc文件,time应该=‘24’,合并三个,time=‘36’.以此类推,合并x年,time=x*12. 主要通过xarray实现合并功能,并写出合并后的nc文件: #导入用到的库 import xarray as xr import os #首先,利用一个循环将需要合并的年份挑选出来.我这里选择1982-2012年的数据 file
python 把数据 json格式输出的实例代码

有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u'status': u'CURRENT', u'id': u'v2.3', u'links': [{u'href': u'http://controller:9292/v2/', u'rel': u'self'}]}, {u'status': u'SUPPORTED', u'id': u'v2.2'
python之matplotlib学习绘制动态更新图实例代码

简介通过定时器Timer触发事件,定时更新绘图,可以形成动态更新图片.下面的实例是学习<matplotlib for python developers>一文的笔记. 实现实现代码及简单介绍通过self.user = self.user[1:] + [temp],每次删除列表的第一元素,在其尾部添加新的元素.这样完成user数据的动态更新.其他详细的解释见文中的注释部分. #-*-coding:utf-8-*- import wx from matplotlib.figure impor
Python实现微信消息防撤回功能的实例代码

微信(WeChat)是腾讯公司于2011年1月21日推出的一款社交软件,8年时间微信做到日活10亿,日消息量450亿.在此期间微信也推出了不少的功能如:"摇一摇"."漂流瓶"."朋友圈"."附近的人"."公众平台"."小程序"等等,涵盖了我们生活的方方面面,微信正在慢慢践行着他们的口号:微信,是一个生活方式一.背景介绍产品的更新迭代必然会伴随着功能的推出和下线,今天我们要讲的便是微信
python sklearn库实现简单逻辑回归的实例代码

Sklearn简介 Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression).降维(Dimensionality Reduction).分类(Classfication).聚类(Clustering)等方法.当我们面临机器学习问题时,便可根据下图来选择相应的方法. Sklearn具有以下特点: 简单高效的数据挖掘和数据分析工具让每个人能够在复杂环境中重复使用建立NumPy.Scipy.MatPlotLib之上代
python读写csv文件并增加行列的实例代码

python读写csv文件并增加行列,具体代码如下所示: # -*- coding: utf-8 -*- """ Created on Thu Aug 17 11:28:17 2017 @author: Shawn Yuen """ import csv d = list(range(38685)) with open('./kinetics_test.csv') as f1: f_csv = csv.DictReader(f1) for i,
Python中 CSV格式清洗与转换的实例代码

题目: CSV格式清洗与转换描述附件是一个CSV格式文件,提取数据进行如下格式转换:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬ (1)按行进行倒序排列:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬
python自动分箱,计算woe,iv的实例代码

笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱.近期换用python开发, 也想实现自动分箱功能,找到了一个woe包,地址https://pypi.org/project/woe/,可以直接 pip install woe安装. 由于此woe包官网介绍及给的例子不是很好理解,关于每个函数的使用也没有很详细的说明,经过一番仔细探究后以此文记录一下该woe包的使用及其计算原理. 例子官方给的例子不是很好理解,以下是我写的一个使用示例.以
Python 序列化和反序列化库 MarshMallow 的用法实例代码

序列化(Serialization)与反序列化(Deserialization)是RESTful API 开发中绕不开的一环,开发时,序列化与反序列化的功能实现中通常也会包含数据校验(Validation)相关的业务逻辑. Marshmallow 是一个强大的轮子,很好的实现了 object -> dict , objects -> list, string -> dict和 string -> list. Marshmallow is an ORM/ODM/framework-a

Python 等分切分数据及规则命名的实例代码

相关推荐

随机推荐