python 实现添加标签&打标签的操作

普通打标签

odue_df=df_train_stmt.loc[(df_train_stmt.AGE3>0)|(df_train_stmt.AGE4>0)|(df_train_stmt.AGE5>0)|(df_train_stmt.AGE6>0),['XACCOUNT']].drop_duplicates()
odue_df['label']=1
cust_df=df_acct[['CUSTR_NBR','XACCOUNT']].drop_duplicates()
#做合并
df_y=pd.merge(cust_df,odue_df,how='left',on='XACCOUNT').groupby('CUSTR_NBR').agg({'label':max}).reset_index().fillna(0)

使用函数来打标签

#标注标签 Label
def label(row):
   if row['Date_received'] == 'null':
       return -1
   if row['Date'] != 'null':
       td = pd.to_datetime(row['Date'], format='%Y%m%d') - pd.to_datetime(row['Date_received'], format='%Y%m%d')
       if td <= pd.Timedelta(15, 'D'):
           return 1
   return 0
dfoff['label'] = dfoff.apply(label, axis=1)
#打标签,判断天数
def get_label(s):
    s = s.split(':')
    if s[0]=='null':
        return 0
    elif (date(int(s[0][0:4]),int(s[0][4:6]),int(s[0][6:8]))-date(int(s[1][0:4]),int(s[1][4:6]),int(s[1][6:8]))).days<=15:
        return 1
    else:
        return -1
dataset2.label = dataset2.label.apply(get_label)

补充:python 根据标签名获取标签内容

看代码吧~


import re
import json
import requests
from bs4 import BeautifulSoup
import lxml.html
from lxml import etree

result = requests.get('http://example.webscraping.com/places/default/view/Algeria-4')
with open('123.html', 'wb') as f:
    f.write(result.content)
# print(parse_regex(result.text))
test_data = """
        <div>
            <ul>
                 <li class="item-0"><a href="link1.html" rel="external nofollow"  rel="external nofollow"  id="places_neighbours__row">9,596,960first item</a></li>
                 <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
                 <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
                 <li class="item-1"><a href="link4.html" rel="external nofollow"  id="places_neighbours__row">fourth item</a></li>
                 <li class="item-0"><a href="link5.html" rel="external nofollow"  rel="external nofollow" >fifth item</a></li>
                 <li class="good-0"><a href="link5.html" rel="external nofollow"  rel="external nofollow" >fifth item</a></li>
             </ul>
             <book>
                    <title lang="aaengbb">Harry Potter</title>
                    <price id="places_neighbours__row">29.99</price>
            </book>
            <book>
                <title lang="zh">Learning XML</title>
                <price>39.95</price>
            </book>
            <book>
                <title>Python</title>
                <price>40</price>
            </book>
         </div>
        """
# //div/ul/li/a[@id]  选取a标签中带有id属性的标签
# //div/ul/li/a 选取所有a标签
# //div/ul/li[2]/a
"""
/ 从根标签开始  必须具有严格的父子关系
// 从当前标签  后续节点含有即可选出
* 通配符 选择所有
//div/book[1]/title  选择div下第一个book标签的title标签
//div/book[1]/tittle[@lang="zh"] 选择div下第一个book标签的title标签并且内容是zh的title标签
//div/book/title //book/title //title 具有相同结果 只不过选取路径不一样
//book/title/@* 将title所有的属性值选出来
//book/title/text() 将title的内容选择出来,使用内置函数
//a[@href="link1.html" rel="external nofollow"  rel="external nofollow"  and @id="places_neighbours_row"]
//div/book/[last()]/title/text() 将最后一个book元素选出
//div/book[price > 39]/title/text() 将book子标签price数值大于39的选择出来
//li[starts-with(@class,'item')] 将class属性前缀是item的选出来
//title[contains(@lang,"eng")]将title属性lang含有eng关键字的标签选出
"""
html = lxml.html.fromstring(test_data)  # 加载任意一个字符串
html_data = html.xpath('//title[contains(@lang,"eng")]')  # xpath 查找路径
# print(dir(html_data[0]))  # 查看html_data有什么功能
print(html_data)
for i in html_data:
    print(i.text)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。

(0)

相关推荐

  • python 如何获取页面所有a标签下href的值

    看代码吧~ # -*- coding:utf-8 -*- #python 2.7 #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 import BeautifulSoup import urllib.request import re #如果是网址,可以用这个办法来读取网页 #html_doc = "http://tieba.baidu.com/p/2460150866" #req = urllib.request.Request

  • python中Tkinter实现分页标签的示例代码

    Tkinter实现UI分页标签显示: Input页,红色部分为当前Frame的位置,下半部分为第一页的子标签:三页标签的显示内容各不相同.实现分页显示的核心组件为Radiobutton,Radiobutton只有一个选项能够生效,使用参数indicatoron=0能够将Radiobutton显示为Button的形状,通过选定的Radiobutton将原有的Frame forget掉,同时,将预定的Frame pack,实现分页的效果.使用时要将更换的组件放入一个Frame中,定义一个函数进行选定

  • Python 生成VOC格式的标签实例

    常用目标检测模型基本都是读取的PASCAL VOC格式的标签,下面代码用于生成VOC格式的代码,根据需要修改即可: from lxml import etree, objectify def gen_txt(filename, h, w, c): E = objectify.ElementMaker(annotate=False) anno_tree = E.annotation( E.folder('VOC_OPEN_IMAGE'), E.filename(filename), E.sourc

  • Python深度学习之图像标签标注软件labelme详解

    前言 labelme是一个非常好用的免费的标注软件,博主看了很多其他的博客,有的直接是翻译稿,有的不全面.对于新手入门还是有点困难.因此,本文的主要是详细介绍labelme该如何使用. 一.labelme是什么? labelme是图形图像注释工具,它是用Python编写的,并将Qt用于其图形界面.说直白点,它是有界面的, 像软件一样,可以交互,但是它又是由命令行启动的,比软件的使用稍微麻烦点.其界面如下图: 它的功能很多,包括: 对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目

  • python爬虫之异常捕获及标签过滤详解

    增加异常捕获,更容易现问题的解决方向 import ssl import urllib.request from bs4 import BeautifulSoup from urllib.error import HTTPError, URLError def get_data(url): headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (

  • Python 实现自动完成A4标签排版打印功能

    老婆大人让俺帮她通过Excel生成百人的准考证,她们学校打算来一次高考模拟.由于高考改革,每个学生的考试科目不一样,需要自动生成一下. 我一个程序员平时很少用到Excel,自己也不打算深入研究这个软件.如何解决她的需求呢?我直接想到了python,无所不能的python肯定可以搞定这个小case. 解决思路 数据处理:这个很简单的 生成可打印的文件 这个有些难度,我首先想到生成word.而且python也有word包来解决,不过后来想了一下,这个方案有问题.word结构不开源,格式和样式处理起来

  • Python气泡提示与标签的实现

    来更新Gui教程了!!! 今天我们讲气泡提示,就是这个样子的. 那个'这是一个气泡提示'就是气泡提示,朋友们肯定有些会'哦,原来就是这个呀.',也有些朋友会说:"这不是电脑自带的吗".这个问题在我刚学编程的时候,也是这样.比如我一开始先是学Scratch,然后目标是编一个植物大战僵尸.当我去编的时候(没学过,因为很简单,一看就懂.),以为太阳从天上掉下来的效果是编的时候不用编,而是以为自带的.结果还要涉及到什么随机数,好了,说远了- 代码上!!! import sys from PyQ

  • 基于python3生成标签云代码解析

    这篇文章主要介绍了基于python3生成标签云代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 标签云是现在大数据里面最喜欢使用的一种展现方式,其中在python3下也能实现标签云的效果,贴图如下: -------------------进入正文--------------------- 首先要安装以下几个库: #!/usr/bin/python3.4 # -*- coding: utf-8 -*- # http://www.lfd.uc

  • python 实现添加标签&打标签的操作

    普通打标签 odue_df=df_train_stmt.loc[(df_train_stmt.AGE3>0)|(df_train_stmt.AGE4>0)|(df_train_stmt.AGE5>0)|(df_train_stmt.AGE6>0),['XACCOUNT']].drop_duplicates() odue_df['label']=1 cust_df=df_acct[['CUSTR_NBR','XACCOUNT']].drop_duplicates() #做合并 df_

  • python 中 lxml 的 etree 标签解析

    一.安装 pip install lxml 二.创建标签 from lxml import etree root = etree.Element('root') 三.添加子节点 from lxml import etree root = etree.Element('root') span = etree.SubElement(root, 'span') 四.删除子节点 from lxml import etree root = etree.Element('root') span = etre

  • Java HtmlParse提取标签中的值操作

    ☆代码示例: 代码块语法遵循标准markdown代码,例如: package cas; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.StringFilter; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tag

  • javascript动态添加删除tabs标签的方法

    本文实例讲述了javascript动态添加删除tabs标签的方法.分享给大家供大家参考.具体实现方法如下: <html> <HEAD> <TITLE>网页对话</TITLE> <LINK href="style.css" type=text/css rel=stylesheet> <script> function $(obj) { var o = typeof(obj)=="object" ?

  • WordPress中给媒体文件添加分类和标签的PHP功能实现

    从WordPress后台媒体库上传的媒体文件,不像文章那样可以给它指定分类和标签,但是很多时候我们又需要这样的功能,如一些下载站.图片站等. 媒体编辑页面的原始状态 很明显,在WordPress后台的媒体编辑页面,默认情况下是没有分类和标签给你选的. 给媒体文件添加分类 在当前主题的functions.php中添加以下php代码: function ludou_add_categories_to_attachments() { register_taxonomy_for_object_type(

  • python的xpath获取div标签内html内容,实现innerhtml功能的方法

    python的xpath没有获取div标签内html内容的功能,也就是获取div或a标签中的innerhtml,写了个小程序实现一下: 源代码 [webadmin@centos7 csdnd4q] #162> vim /mywork/python/csdnd4q/z040.py #去掉最外层标签,保留其内的所有html标记和文本 def getinnerhtml(data): return data[data.find(">")+1:data.rfind("<

  • 详解JavaScript添加给定的标签选项

    先看看效果图: 代码实现: HTML代码: <h3>haveTags</h3> <div id="havetags"></div> <hr /> <h3>addTags</h3> <div id="addtags"></div> <button id="btn">返回的数组</button> css代码: #have

随机推荐