python爬虫筛选工作实例讲解

我们在选择一件商品的时候,会先了解一些相关的商品信息,根据自己的需求和情况再进行选择。这种现象也同样适用于找工作,筛选一个岗位的重要环节,就是看自身是否符合工作经验的要求。不过因为信息量比较大,有没有什么方法可以用python爬虫中的知识点帮我们解决一下呢~具体内容往下看:

根据工作经验年限,划分招聘等级

# 校正拉勾网工作年限描述,以 Boss直聘描述为准
def update_lagou_workyear():
  items = db.jobs_lagou_php.find({})
  for item in items:
    if item['workYear'] == '应届毕业生':
      item['workYear'] = '应届生'
    elif item['workYear'] == '1年以下':
      item['workYear'] = '1年以内'
    elif item['workYear'] == '不限':
      item['workYear'] = '经验不限'
    update_lagou(item)
  print('ok')
# 设置招聘的水平,分两次执行
def set_level():
  items = db.jobs_zhipin_php.find({})
  # items = db.jobs_lagou_php.find({})
    if item['workYear'] == '应届生':
      item['level'] = 1
    elif item['workYear'] == '1年以内':
      item['level'] = 2
    elif item['workYear'] == '1-3年':
      item['level'] = 3
    elif item['workYear'] == '3-5年':
      item['level'] = 4
    elif item['workYear'] == '5-10年':
      item['level'] = 5
    elif item['workYear'] == '10年以上':
      item['level'] = 6
    elif item['workYear'] == '经验不限':
      item['level'] = 10
    update(item)
print('ok')

这里有点坑的就是,一般要求经验不限的岗位,需求基本都写在任职要求里了,所以为了统计的准确性,这个等级的数据,后面会被舍弃掉。

从后续的平均数据来看,这里的经验不限,一般要求的是1-3年左右,但是还是建议舍弃掉。

拉勾网的职位描述和 Boss直聘稍有不同,需要先校正,然后再设置等级

实例扩展:

python实现图片筛选程序

#_*_coding:utf-8_*_
'''
Version V17.1.0
Date 2017-10-15
@Author Cheney
'''

# 收集EL 图片集中需要的图片,在elpick目录下进行

from PIL import Image
import csv
import os

# 获取需要图片的文件名
def readImageName():
 # 在elpick目录下读取sn.scv文件,该文件读取出来后元素是list 需要转换为str
 get_csv = csv.reader(open("elpick/sn.csv"))
 origSN = []
 transSN = []
 for sn in get_csv:
  origSN.append(sn)
 tempList = origSN

 # 读取csv文件获时获取到的列表,其元素也是列表,需要将其转换为字符串元素,使用下面for语句实现
 for s in tempList:
  # 去掉列表元素中的[''] 这几个字符
   s = str(s).strip('[\'')
  s = str(s).strip('\']')
 transSN.append(s)
 ImageName = transSN
 return ImageName

pickImageName = readImageName()
# 遍历所有图片集的文件名
for image in os.listdir("elpick/original_el"):
 # 将读取到的文件名进行处理,去扩展名,若是int文件名需要对文件名进行int 处理
 imageName = image.strip(".jpg")

 # 比较判断 若遍历的文件名在需要收集的列表中,读取之后并保存到pick_el文件夹下
 if imageName in pickImageName:
  pickImage = Image.open(('elpick/original_el/%s.jpg') % imageName)
  pickImage.save(("elpick/picked_el/%s.jpg") % imageName)

到此这篇关于python爬虫筛选工作实例讲解的文章就介绍到这了,更多相关python爬虫筛选工作内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • python实现按关键字筛选日志文件

    最近忙成了狗,五六个项目堆在一起,头疼的是测试还失惊无神的给我丢来一个几十甚至上百M的日志文件,动不动就几十上百万行,就算是搜索也看得头昏眼花的,因此自己花了点时间写了一段小脚本去过滤日志,当然这样的东西网上应该大把,但是还是想自己搞下,权当学习! #!/usr/bin/python # -*- encoding: utf-8 -*- # version 1.0 import re import time ''' 用于筛选日志文件,适用于python2.x版本 使用时将日志文件放于search.

  • Python如何筛选序列中的元素的方法实现

    本篇文章给大家带来的内容是关于Python如何筛选序列中的元素 ,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 1.需求 序列中含有一些数据,我们需要提取其中的值或根据某些标准对序列做删减, 2.解决方案 要筛选序列中的数据,通常最简单的方法是使用列表推导式. 例如: myList=[1,4,-5,10,-7,2,3,-1] print([n for n in myList if n>0]) print([n for n in myList if n<0]) 结果: [1,

  • python使用正则筛选信用卡

    本文实例为大家分享了python使用正则筛选信用卡的具体代码,供大家参考,具体内容如下 本文来源于两个简单的题目: 1.判断一对单词是否是" Anagrams " 2.判断信用卡是否合理 判断 Anagramsstrong> anagrams 的百度翻译:由颠倒字母顺序而构成的字(短语) 而题目给出例子: [ DOG , ODG ] [ DOG , DOG ] [ DOG , GOD ] [ DOG , GDO ] 均为 anagrams . 那思路就简单了,直接拆分字母,排序,

  • Python对Excel按列值筛选并拆分表格到多个文件的代码

    场景:集团中心下发本省数据时,并未按地市.业务拆分,现需要按地市.业务拆分并分发到地市. 本文利用Python的pandas包实现了以上场景. 注:本示例代码只实现按单列拆分,如果需要多列筛选拆分,请修改本示例中的filter_column_name与city_name_to_list,并多套一层循环. now, show u the code: # -*- coding: utf-8 -*- """ Created on Fri Nov 1 09:53:30 2019 @a

  • Python如何用filter函数筛选数据

    一.filter函数简介 filter函数主要用来筛选数据,过滤掉不符合条件的元素,并返回一个迭代器对象,如果要转换为列表list或者元祖tuple,可以使用内置函数list() 或者内置函数tuple()来转换: filter函数接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中,就好比是用筛子,筛选指定的元素; 语法: filter(function, iterable) 参数: fu

  • python爬虫筛选工作实例讲解

    我们在选择一件商品的时候,会先了解一些相关的商品信息,根据自己的需求和情况再进行选择.这种现象也同样适用于找工作,筛选一个岗位的重要环节,就是看自身是否符合工作经验的要求.不过因为信息量比较大,有没有什么方法可以用python爬虫中的知识点帮我们解决一下呢~具体内容往下看: 根据工作经验年限,划分招聘等级 # 校正拉勾网工作年限描述,以 Boss直聘描述为准 def update_lagou_workyear(): items = db.jobs_lagou_php.find({}) for i

  • Python网络爬虫与信息提取(实例讲解)

    课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解析HTML页面 4.Re框架:正则框架,提取页面关键信息 5.Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍 理念:The Website is the API ... Python语言常用的IDE工具 文本工具类IDE: IDLE.Notepad++.Sublime Text.Vim & Emacs.Atom.Komodo E

  • Python爬虫框架Scrapy实例代码

    目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间. 一.创建Scrapy项目 scrapy startproject Tencent 命令执行后,会创建一个Tencent文件夹,结构如下 二.编写item文件,根据需要爬取的内容定义爬取字段 # -*- coding: utf-8 -*- import scrapy class TencentItem(scrapy.Item): # 职位名 positionname = scrapy.

  • python用户管理系统的实例讲解

    学Python这么久了,第一次写一个这么多的代码(我承认只有300多行,重复的代码挺多的,我承认我确实垃圾),但是也挺不容易的 自定义函数+装饰器,每一个模块写的一个函数 很多地方能用装饰器(逻辑跟不上,有的地方没用),包括双层装饰器(不会),很多地方需要优化,重复代码太多 我还是把我的流程图拿出来吧,虽然看着比上次的垃圾,但是我也做了一个小时,不容易! 好像是挺丑的(表示不会画,但我下次一定努力) 用户文件: 文件名为:user.txt 1代表管理员用户 2代表普通用户 smelond|adm

  • 在Windows中设置Python环境变量的实例讲解

    在 Windows 设置环境变量 在环境变量中添加Python目录: 在命令提示框中(cmd) : 输入 path=%path%;C:\Python 按下"Enter". 注意: C:\Python 是Python的安装目录. 也可以通过以下方式设置: • 右键点击"计算机",然后点击"属性" • 然后点击"高级系统设置" • 选择"系统变量"窗口下面的"Path",双击即可! • 然后

  • Python中选择结构实例讲解

    1.选择结构通过判断条件是否成立来决定分支的执行. 2.选择结构形式:单分支.双分支.多分支. 3.多分支结构,几个分支之间有逻辑关系,不能随意颠倒顺序. 实例 ''' 单分支选择结构 if 条件表达式: 语句/语句块 ''' if 3+2==5: print("单分支选择结构") #true ''' 双分支选择结构 if 条件表达式: 语句/语句块 else 语句/语句块 ''' a = 3 if a<2: print('t'+str(a)) #true else: print

  • Python 模拟购物车的实例讲解

    1.功能简介 此程序模拟用户登陆商城后购买商品操作.可实现用户登陆.商品购买.历史消费记查询.余额和消费信息更新等功能.首次登陆输入初始账户资金,后续登陆则从文件获取上次消费后的余额,每次购买商品后会扣除相应金额并更新余额信息,退出时也会将余额和消费记录更新到文件以备后续查询. 2.实现方法 架构: 本程序采用python语言编写,将各项任务进行分解并定义对应的函数来处理,从而使程序结构清晰明了.主要编写了六个函数: (1)login(name,password) 用户登陆函数,实现用户名和密码

  • Python文件和流(实例讲解)

    1.文件写入 #打开文件,路径不对会报错 f = open(r"C:\Users\jm\Desktop\pyfile.txt","w") f.write("Hello,world!\n") f.close() 2.文件读取 #读取 f = open(r"C:\Users\jm\Desktop\pyfile.txt","r") print(f.read()) f.close() 输出: Hello,world

  • python之Character string(实例讲解)

    1.python字符串 字符串是 Python 中最常用的数据类型.我们可以使用引号('或")来创建字符串,l Python不支持单字符类型,单字符也在Python也是作为一个字符串使用. >>> var1 = 'hello python' #定义字符串 >>> print(var1[0]) #切片截取,从0开始,不包括截取尾数 h >>> print(var1[0:5]) hello >>> print(var1[-6:]

  • 使用Python读取二进制文件的实例讲解

    目标:目标文件为一个float32型存储的二进制文件,按列优先方式存储.本文使用Python读取该二进制文件并使用matplotlib.pyplot相关工具画出图像 工具:Python3, matplotlib,os,struct,numpy 1. 读取二进制文件 首先使用open函数打开文件,打开模式选择二进制读取"rb". f = open(filename, "rb") 第二步,需要打开按照行列读取文件,由于是纯二进制文件,内部不含邮任何的数据结构信息,因此我

随机推荐