Python操作ES的方式及与Mysql数据同步过程示例

2025-02-21 17:11:20

Python操作Elasticsearch的两种方式

# 官方提供的：Elasticsearch
# pip install elasticsearch
# GUI：pyhon能做图形化界面编程吗？
	-Tkinter
  -pyqt
# 使用（查询是重点）
# pip3 install elasticsearch
https://github.com/elastic/elasticsearch-py
from elasticsearch import Elasticsearch
obj = Elasticsearch(['127.0.0.1:9200','192.168.1.1:9200','192.168.1.2:9200'],)
# 创建索引（Index）
# body:用来干什么？mapping：{},setting:{}
# result = obj.indices.create(index='user',ignore=400)
# print(result)
# 删除索引
# result = obj.indices.delete(index='user', ignore=[400, 404])
# 插入和查询数据（文档的增删查改），是最重要
# 插入数据
# POST news/politics/1
# {'userid': '1', 'username': 'lqz','password':'123'}
# data = {'userid': '1', 'username': 'lqz','password':'123'}
# result = obj.create(index='news', doc_type='politics', id=1, body=data)
# print(result)
# 更新数据
'''
不用doc包裹会报错
ActionRequestValidationException[Validation Failed: 1: script or doc is missing
'''
# data ={'doc':{'userid': '1', 'username': 'lqz','password':'123ee','test':'test'}}
# result = obj.update(index='news', doc_type='politics', body=data, id=1)
# print(result)
# 删除数据
# result = obj.delete(index='news', doc_type='politics', id=1)
# 查询
# 查找所有文档
# query = {'query': {'match_all': {}}}
#  查找名字叫做jack的所有文档
# query = {'query': {'match': {'desc': '娇憨可爱'}}}
# query = {'query': {'term': {'from': 'sheng'}}}
query = {'query': {'term': {'name': '娘子'}}}
# term和match的区别
# term是短语查询，不会对term的东西进行分词
# match 会多match的东西进行分词，再去查询
# 查找年龄大于11的所有文档
# allDoc = obj.search(index='lqz', doc_type='doc', body=query)
allDoc = obj.search(index='lqz', doc_type='doc', body=query)
print(allDoc)
import json
print(json.dumps(allDoc))
# print(allDoc['hits']['hits'][0]['_source'])
# 如何集成到django项目中：创建索引，提前创建好就行了
# 插入数据，查询数据，修改数据
# query = {'query': {'term': {'name': '娘子'}}}
# allDoc = obj.search(index='lqz', doc_type='doc', body=query)
# json格式直接返回
# saas ：软件即服务，不是用人家服务，而是写服务给别人用----》正常的开发
# 舆情监测系统：（爬虫）
# 只监控微博---》宜家：微博，百度贴吧，上市公司
# 公安：负面的，---》追踪到哪个用户发的---》找上门了
# qq群，微信群----》舆情监控（第三方做不了，腾讯出的舆情监控，第三方机构跟腾讯合作，腾讯提供接口，第三方公司做）
# 平台开发出来，别人买服务---》买一年的微博关键字监控

ERP：公司财务，供应链

某个大公司，金蝶，用友，开发了软件----》你们公司自己买服务器---》软件跑在你服务器上
saas模式：公司买服务，10年服务----》账号密码---》登进去就能操作---》出了问题找用友---》服务器在别人那---》政务云，各种云---所有东西上云

---政府花钱买的东西---》用友敢泄露吗？
---未来的云计算---》只能能上网---》计算机运算能力有限---》上云买服务---》计算1+。。。+100 ---》买了计算服务，直接拿到结果

# 第二种使用方式
# https://github.com/elastic/elasticsearch-dsl-py
# pip3 install elasticsearch-dsl
from datetime import datetime
from elasticsearch_dsl import Document, Date, Nested, Boolean,analyzer, InnerDoc, Completion, Keyword, Text,Integer
from elasticsearch_dsl.connections import connections
connections.create_connection(hosts=["localhost"])
class Article(Document):
    title = Text(analyzer='ik_max_word', search_analyzer="ik_max_word", fields={'title': Keyword()})
    author = Text()
    class Index:
        name = 'myindex'  # 索引名
    def save(self, ** kwargs):
        return super(Article, self).save(** kwargs)
if __name__ == '__main__':
    # Article.init()  # 创建映射
    # 保存数据
    # article = Article()
    # article.title = "测试数据"
    # article.author = "egon"
    # article.save()  # 数据就保存了
    #查询数据
    # s=Article.search()
    # s = s.filter('match', title="测试")
    # results = s.execute()
    # # 类比queryset对象，列表中一个个对象
    # # es中叫Response，当成一个列表，列表中放一个个对象
    # print(results)
    #删除数据
    # s = Article.search()
    # s = s.filter('match', title="测试").delete()
    #修改数据
    s = Article().search()
    s = s.filter('match', title="测试")
    results = s.execute()
    print(results[0])
    results[0].title="xxx"
    results[0].save()
    # 其他操作，参见文档

mysql和Elasticsearch同步数据

# 只要article表插入一条数据，就自动同步到es中
# 第一种方案：
	-每当aritcle表插入一条数据（视图类中，Article.objects.create()，update）
  -往es中插入一条
  -缺陷：代码耦合度高，改好多地方
# 第二种方案：
	-重写create方法，重写update方法
  -缺陷：同步操作---》es中插入必须返回结果才能继续往下走
# 第三种方案：
	-用celery，做异步
  -缺陷：引入celery，还得有消息队列。。。
# 第四种方案：（用的最多）
	-重写create方法，重写update方法，用信号存入，异步操作
  -缺陷：有代码侵入
# 第五种方案：（项目不写代码，自动同步），第三方开源的插件
	-https://github.com/siddontang/go-mysql-elasticsearch----go写
  -你可以用python重写一个，放到git上给别人用（读了mysql的日志）
  -跟平台无关，跟语言无关
  -如何使用：
  	-源码下载---》交叉编译---》可执行文件--》运行起来--》配置文件配好，就完事了
    # 配置文件
    [[source]]
    schema = "数据库名"
    tables = ["article"]
    [[rule]]
    schema = "数据库名"
    table = "表明"
    index = "索引名"
    type = "类型名"
  # 缺陷：
  	-es跟mysql同步时，不希望把表所有字段都同步，mysql的多个表对着es的一个类型
  # 话术升级：
  	-一开始同步
    -用了开源插件（读取mysql日志，连接上es，进行同步）
    -用信号自己写的
    -再高端：仿着他的逻辑，用python自己写的，----》（把这个东西开源出来）

haystack的使用

django上的一个第三方模块 ---》你使用过的django第三方模块有哪些？
可以在django上实现全文检索
相当于orm--》对接es，solr，whoosh
https://www.jb51.net/article/218631.htm
不支持es，6以上版本
haystack+Elasticsearch实现全文检索
es的原生操作：ELasticsearch Elasticsearch-dsl

Redis补充

#1  只有5种数据结构：
	-多种数据结构：字符串，hash，列表，集合，有序集合
#2  单线程，速度为什么这么快？
  -本质还是因为是内存数据库
  -epoll模型（io多路复用）
  -单线程，没有线程，进程间的通信
#3 linux上 安装redis#下载
  https://redis.io/download/
  #解压
  tar -xzf redis-5.0.7.tar.gz
  #建立软连接
  ln -s redis-5.0.7 redis
  cd redis
  make&&make install
  # bin路径下几个命令：redis-cli,redis-server,redis-sentinel
  # 在任意位置能够执行redis-server 如何做？配置环境变量
#4  启动redis的三种方式
  	-方式一：(一般不用，没有配置文件)
    	-redis-server
    -方式二：（用的也很少）
    	redis-serve --port 6380
    -方式三：（都用这种，配置文件）
    	daemonize yes #是否以守护进程启动
      pidfile /var/run/redis.pid   #进程号的位置，删除
      port 6379    #端口号
      dir "/opt/soft/redis/data"  #工作目录
      logfile 6379.log #日志位置
      # 启动：redis-server redis.conf1
#5 客户端连接
  redis-cli -h 127.0.0.1 -p 6379
#6 使用场景
  -看md文档

以上就是Python操作ES的方式及Mysql数据同步过程示例详解的详细内容，更多关于Python操作ES方式Mysql数据同步的资料请关注我们其它相关文章！

PostgreSQL 数据同步到ES 搭建操作

安装python 和dev 开发包 [root@rtm2 Packages]# rpm -ivh python-devel-2.7.5-58.el7.x86_64.rpm 准备中... ################################# [100%] 正在升级/安装... 1:python-devel-2.7.5-58.el7 ################################# [100%] [root@rtm2 Packages]# ls 安装 multicor
用python简单实现mysql数据同步到ElasticSearch的教程

之前博客有用logstash-input-jdbc同步mysql数据到ElasticSearch,但是由于同步时间最少是一分钟一次,无法满足线上业务,所以只能自己实现一个,但是时间比较紧,所以简单实现一个思路: 网上有很多思路用什么mysql的binlog功能什么的,但是我对mysql了解实在有限,所以用一个很呆板的办法查询mysql得到数据,再插入es,因为数据量不大,而且10秒间隔同步一次,效率还可以,为了避免服务器之间的时间差和mysql更新和查询产生的时间差,所以在查询更新时间条件时是
Python插入Elasticsearch操作方法解析

这篇文章主要介绍了Python插入Elasticsearch操作方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下在用scrapy做爬虫的时候,需要将数据存入的es中.网上找了两种方法,照葫芦画瓢也能出来,暂记下来: 首先安装了es,版本是5.6.1的较早版本用pip安装与es版本相对的es相关包 pip install elasticsearch-dsl==5.1.0 方法一: 以下是pipelines.py模块的完整代码 # -*-
基于python操作ES实例详解

这篇文章主要介绍了基于python操作ES实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下安装 pip install elasticsearch5 # 安装对应版本的模块创建ES对象 from elasticsearch5 import Elasticsearch # elasticsearch集群服务器的地址 ES = [ '127.0.0.1:9200' ] # 创建elasticsearch客户端 es = Elasticse
使用Python操作Elasticsearch数据索引的教程

Elasticsearch是一个分布式.Restful的搜索及分析服务器,Apache Solr一样,它也是基于Lucence的索引服务器,但我认为Elasticsearch对比Solr的优点在于: 轻量级:安装启动方便,下载文件之后一条命令就可以启动: Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构: 多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置: 分布式:Solr Cloud的配置比较
Python操作ES的方式及与Mysql数据同步过程示例

目录 Python操作Elasticsearch的两种方式 mysql和Elasticsearch同步数据 haystack的使用 Redis补充 Python操作Elasticsearch的两种方式 # 官方提供的:Elasticsearch # pip install elasticsearch # GUI:pyhon能做图形化界面编程吗? -Tkinter -pyqt # 使用(查询是重点) # pip3 install elasticsearch https://github.com/e
python 操作hive pyhs2方式

使用kerberos时 import pyhs2 class HiveClient: # 初始化 def __init__(self, db_host, user, password, database, port=10000, authMechanism="PLAIN", configuration=None): self.conn = pyhs2.connect(host=db_host, port=port, authMechanism=authMechanism, user=u
python操作cfg配置文件方式

*.cfg文件一般是程序运行的配置文件,python为读写常见配置文件提供了一个ConfigParser模块,所以在python中解析配置文件相当简单,下面就举例说明一下具体的操作方法. 写文件代码: # -* - coding: UTF-8 -* - import os import ConfigParser CONFIG_FILE = "Config.cfg" host = "127.0.0.1" port = "5432" name = &
MySQL 数据持久化过程讲解

目录 1. 过程简述 2. 内存中的操作 3. 磁盘的持久化 3.1 事务日志的作用 3.2 表结构的两步存储 1. 过程简述理解MySQL数据的持久化过程,能很好的帮助我们加深对于MySQL底层的理解,在本文,我们以一种通俗的方式梳理一下这个过程,帮助大家建立起初步的认识,如果大家感兴趣,可以去深入学习与研究这个过程. MySQL数据的存储总体上可以分为两部分,内存中的存储过程以及硬盘的持久化存储,这里,就涉及到了内存中buffer poll和redo log以及磁盘上的事务日志和表结构,在
怎么使 Mysql 数据同步

怎么使 Mysql 数据同步先假设有主机 A 和 B ( Linux 系统),主机 A 的 IP 分别是 1.2.3.4 (当然,也可以是动态的),主机 B 的 IP 是 5.6.7.8 .两个主机都装上了 PHP+Mysql ,现在操作的是主机 A 上的资料,如果另外一个主机 B 想跟 A 的资料进行同步,应该怎么做呢? OK,我们现在就动手. 首先,如果要想两个主机间的资料同步,一种方法就是主机 A 往主机 B 送资料,另外一种主法就是主机 B 到主机 A 上拿资料,因为 A 的 IP 是
docker实现MySQL数据同步的方法

大家好,今天分享一下docker的一个实战我们使用docker 实现MySQL 的数据同步搜索mysql 镜像 [root@localhost ~]# docker search mysql NAME DESCRIPTION STARS OFFICIAL AUTOMATED mysql MySQL is a widely used, open-source relation- 12222 [OK] mariadb MariaDB Server is a high performing ope
python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析

一.CrawlSpider类介绍 1.1 引入使用scrapy框架进行全站数据爬取可以基于Spider类,也可以使用接下来用到的CrawlSpider类.基于Spider类的全站数据爬取之前举过栗子,感兴趣的可以康康 scrapy基于CrawlSpider类的全站数据爬取 1.2 介绍和使用 1.2.1 介绍 CrawlSpider是Spider的一个子类,因此CrawlSpider除了继承Spider的特性和功能外,还有自己特有的功能,主要用到的是 LinkExtractor()和rules
python操作数据库之sqlite3打开数据库、删除、修改示例

复制代码代码如下: #coding=utf-8__auther__ = 'xianbao'import sqlite3# 打开数据库def opendata(): conn = sqlite3.connect("mydb.db") cur = conn.execute("""create table if not exists tianjia(id integer primary key autoincrement, user

Python操作ES的方式及与Mysql数据同步过程示例

目录

Python操作Elasticsearch的两种方式

mysql和Elasticsearch同步数据

haystack的使用

Redis补充

相关推荐

随机推荐