django使用haystack调用Elasticsearch实现索引搜索

前言:

在做一个商城项目的时候,需要实现商品搜索功能。

说到搜索,第一时间想到的是数据库的 select * from tb_sku where name like %苹果手机%

或者django的 SKU.objects.filter(name__contains="苹果手机")

但是,假如你的数据库有几千万条数据,name字段没有索引,可能查询需要十几分钟,用户可能会等你?那为什么不给name字段增加索引?商品表不仅仅是用来查询,也会经常修改数据,新增删除数据等。建立索引后,做增删改操作时也会大大占用数据库资源。所以应该怎么解决呢?

Elasticsearch!

一个强大的基于Lucene的全文搜索服务器!维基百科、Stack Overflow、Github都在用。

如果想详细了解其原理的话,可以参考:Elasticsearch 基础介绍及索引原理分析

这里只是简单说一下他的原理。

Elasticsearch原理:

部署好ElasticSearch服务器后,刚开始需要创建索引,ES索引库会对数据库中的数据进行一遍预处理,单独建立起一份索引结构数据。

理解:

假如你的商品表里有这几个字段。id,名字,副标题,价格,商品图片链接地址,评论数,是否上架。

一般用户会根据名字或者副标题来搜索。此时名字、副标题这个字段就需要建立索引(当然,id也要,人家在mysql那里是主键总要给点面子吧)。但是后端返回给前端的数据,不仅仅是需要名字、副标题啊。你还要价格什么的呢!所以我们还要指定需要的字段,不然直接找个名字或者副标题出来有什么用?

所以刚开始创建索引库时,ElasticSearch服务端会根据我们指定要作为索引的字段(名字、副标题、id)、要返回的字段(价格...),同步一份到ES索引库里面。为什么要同步到elasticsearch?因为查找快呀。至于为什么ElasticSearch查找这么快,可以参考一下上面链接的原理。

注意上面的图,ElasticSearch是C/S架构的软件。下面说一下,服务端怎么搭建?

ElasticSearch服务端的搭建:

在搭建前说下,ElasticSearch建立索引时会分词。什么是分词呢?例如“我今天吃了一个汉堡包”。分词后是“我”、“今天”、“吃了”、“一个”、“汉堡包”。你以为ElasticSearch会这么智能?没错,它对英文是这么智能,但是对我们的中文,只会分成“我”、“今”、“天”、“吃”、“了”、“一”、“个”、“汉”、“堡”、“包”。这样用户还怎么搜索啊。。。所以我们需要一个在ElasticSearch服务端集成一个插件,ElasticSearch-ik插件。有了这个插件,真的可以这么智能了。

所以,带有-ik插件的ElasticSearch服务端怎么装呢?

太麻烦了,所以我选择docker(滑稽.jpg)

(1)加载docker镜像

sudo docker load -i elasticsearch-ik-2.4.6_docker.tar

(2)修改配置文件

elasticsearc-2.4.6/config/elasticsearch.yml第54行,更改ip地址为本机ip地址:

network.host: xxx.xxx.xxx.xxx

如果docker不是运行在开发环境的本机,可以设为0.0.0.0。表示允许所有ip访问此服务器。

(3)运行容器

docker run -d -p 9200:9200 --network=host --name=elasticsearch -v /var/elasticsearch-2.4.6/config:/usr/share/elasticsearch/config delron/elasticsearch-ik:2.4.6-1.0

(4)测试ElasticSearch是否安装成功

curl 'http://xxx.xxx.xxx.xxx:9200/' # IP地址是ElasticSearch的IP

如果测试成功,那么ElasticSearch服务器就已经全部搭建完毕啦,而且这个镜像集中了-ik插件,支持中文分词。搭建完服务端后,就要用客户端了。

使用Haystack对接Elasticsearch客户端:

如果直接在Django项目直接编写代码作为ElasticSearch的客户端,比较复杂,所以借助第三方包Haystack来对接ELasticSearch的客户端。而且使用了Haystack后,以后你换其他的全文搜索服务器时(虽然不太可能换),也不用修改Django项目已经写好的代码。

(1)安装Haystack和ElasticSearch客户端。

pip install drf-haystack # 因为该项目是用DRF写的前后端分离,所以安装的是drf-haystack。如果不用DRF的话,安装的是django-haystack
pip install elasticsearch==2.4.1

(2)配置

1.注册应用

  INSTALLED_APPS = [
    ...
    'haystack',
    ...
  ]

2.在项目的配置文件中配置haystack

  # 配置haystack全文检索框架
  HAYSTACK_CONNECTIONS = {
    'default': {
      'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine',
      # 此处为elasticsearch运行的服务器ip地址,端口号默认为9200
      'URL': 'http://xxx.xxx.xxx.xxx:9200/',
      # 指定elasticsearch建立的索引库的名称
      'INDEX_NAME': 'meiduo',
    },
  }
  # 当添加、修改、删除数据时,自动更新索引
  HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

(3)创建索引类

创建索引类的目的是指定要保存的字段,ElasticSearch服务器会把mysql的这些字段的数据进行同步。方便查询出来时进行返回。

# goods(应用名)/search_indexes.py  # search_indexes名字不能改,固定
from haystack import indexes
from .models import SKU

class SKUIndex(indexes.SearchIndex, indexes.Indexable):
  """
  SKU索引类
  """  # text表示被查询的字段,用户搜索的是这些字段的值,具体被索引的字段写在另一个文件里。
  text = indexes.CharField(document=True, use_template=True)

  # 保存在索引库中的字段
  id = indexes.IntegerField(model_attr='id')
  name = indexes.CharField(model_attr='name')
  price = indexes.DecimalField(model_attr='price')
  default_image_url = indexes.CharField(model_attr='default_image_url')
  comments = indexes.IntegerField(model_attr='comments')

  def get_model(self):
    """返回建立索引的模型类"""
    return SKU

  def index_queryset(self, using=None):
    """返回要建立索引的数据查询集"""
    return self.get_model().objects.filter(is_launched=True)

(4)指定被索引的字段

# templates/search/indexes/goods(应用名)/sku_text.txt  # 路径和名字是固定的
{{ object.name }}
{{ object.caption }}
{{ object.id }}

(5)生成索引库

python manage.py rebuild_index

此时,索引库成功生成了。接下来就是后端接受用户存过来的查询参数,并返回相应的字段了。

完善后端:

刚刚写的SKUIndex可以当做是我们平时写DRF时的model类,接下来还要写序列化器,视图,注册路由。

(1)Haystack序列化器类

from drf_haystack.serializers import HaystackSerializer

class SKUIndexSerializer(HaystackSerializer):
  """
  SKU索引结果数据序列化器
  """
  class Meta:
    index_classes = [SKUIndex]
    fields = ('text', 'id', 'name', 'price', 'default_image_url', 'comments')

(2)Haystack视图

from drf_haystack.viewsets import HaystackViewSet

class SKUSearchViewSet(HaystackViewSet):  # HaystackViewSet继承了RetrieveModelMixin, ListModelMixin, ViewSetMixin, HaystackGenericAPIView,所以可以查一条或多条数据
  """
  SKU搜索
  HaystackViewSet: 查一条,查多条
  """
  index_models = [SKU]
  serializer_class = SKUIndexSerializer

(3)注册路由

router = DefaultRouter()
router.register('skus/search', views.SKUSearchViewSet, base_name='skus_search')
...
urlpatterns += router.urls

(4)访问:127.0.0.1:8080/skus/search/?text=Apple

就可以查询出带有Apple的数据了~

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 使用Python操作Elasticsearch数据索引的教程

    Elasticsearch是一个分布式.Restful的搜索及分析服务器,Apache Solr一样,它也是基于Lucence的索引服务器,但我认为Elasticsearch对比Solr的优点在于: 轻量级:安装启动方便,下载文件之后一条命令就可以启动: Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构: 多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置: 分布式:Solr Cloud的配置比较

  • Python中使用haystack实现django全文检索搜索引擎功能

    前言 django是python语言的一个web框架,功能强大.配合一些插件可为web网站很方便地添加搜索功能. 搜索引擎使用whoosh,是一个纯python实现的全文搜索引擎,小巧简单. 中文搜索需要进行中文分词,使用jieba. 直接在django项目中使用whoosh需要关注一些基础细节问题,而通过haystack这一搜索框架,可以方便地在django中直接添加搜索功能,无需关注索引建立.搜索解析等细节问题. haystack支持多种搜索引擎,不仅仅是whoosh,使用solr.elas

  • Elasticsearch 基础介绍及索引原理分析

    前言 最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助. 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步. 介绍 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elastics

  • pycharm+django创建一个搜索网页实例代码

    本文主要研究的是pycharm+django创建一个搜索网页的实例代码,具体步骤和代码示例如下. 创建工程 比如,我创建的工程目录结构如下: 命令行 进入windows命令行,进入根目录: python manage.py startapp django_web 接着你会在pycharm中发现,多了一个django_web文件夹.如下将截图: 创建一个test.html <!DOCTYPE html> <html> <head> <title>开始搜索<

  • python django使用haystack:全文检索的框架(实例讲解)

    haystack:全文检索的框架 whoosh:纯Python编写的全文搜索引擎 jieba:一款免费的中文分词包 首先安装这三个包 pip install django-haystack pip install whoosh pip install jieba 1.修改settings.py文件,安装应用haystack, 2.在settings.py文件中配置搜索引擎 HAYSTACK_CONNECTIONS = { 'default': { # 使用whoosh引擎 'ENGINE': '

  • django使用haystack调用Elasticsearch实现索引搜索

    前言: 在做一个商城项目的时候,需要实现商品搜索功能. 说到搜索,第一时间想到的是数据库的 select * from tb_sku where name like %苹果手机% 或者django的 SKU.objects.filter(name__contains="苹果手机") 但是,假如你的数据库有几千万条数据,name字段没有索引,可能查询需要十几分钟,用户可能会等你?那为什么不给name字段增加索引?商品表不仅仅是用来查询,也会经常修改数据,新增删除数据等.建立索引后,做增删

  • Java调用elasticsearch本地代码的操作方法

    虽然Java虚拟机为开发人员屏蔽了底层的实现细节,使得开发人员不用考虑底层操作系统的差异性.不过在某些应用程序中,还是免不了要直接与底层操作系统上的原生代码进行交互.今天我们就来看一下Java对本地调用提供的支持. 一.为什么要进行本地调用 1.基于性能的考虑 Java语言从其运行速度上来说,在大多数方面是慢于底层操作系统上原生的C和C++等语言的.这主要是由于Java虚拟机这个中间层次的存在.如果完全用Java语言实现的性能无法达到程序的预期要求,可以选择把部分重要且耗时的代码用C或C++来实

  • Django利用elasticsearch(搜索引擎)实现搜索功能

     1.在Django配置搜索结果页的路由映射 """pachong URL Configuration The `urlpatterns` list routes URLs to views. For more information please see: https://docs.djangoproject.com/en/1.10/topics/http/urls/ Examples: Function views 1. Add an import: from my_ap

  • Laravel + Elasticsearch 实现中文搜索的方法

    Elasticsearch Elasticsearch 是一个基于 Apache Lucene(TM) 的开源搜索引擎,无论在开源还是专有领域,Lucene可 以被认为是迄今为止最先进.性能最好的.功能最全的搜索引擎库. 但是,Lucene 只是一个库.想要发挥其强大的作用,你需使用 Java 并要将其集成到你的应用中.Lucene 非常复杂,你需要深入的了解检索相关知识来理解它是如何工作的. Elasticsearch 也是使用 Java 编写并使用 Lucene 来建立索引并实现搜索功能,但

  • Django 博客实现简单的全文搜索的示例代码

    作者:HelloGitHub-追梦人物 文中所涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库 搜索是一个复杂的功能,但对于一些简单的搜索任务,我们可以使用 Django Model 层提供的一些内置方法来完成.现在我们来为我们的博客提供一个简单的搜索功能. 概述 博客文章通常包含标题和正文两个部分.当用户输入某个关键词进行搜索后,我们希望为用户显示标题和正文中含有被搜索关键词的全部文章.整个搜索的过程如下: 用户在搜素框中输入搜索关键词,假设为 "django",

  • Django利用AJAX技术实现博文实时搜索

    学习Python Web和Django开发不能只学习Python.我们有时必需借助其它技术比如AJAX实现我们想要的功能.今天我们就要利用Django 2.0 + AJAX开发一个功能性页面: 我们一边输入关键词,网页一边会给你提示所找到的博文数量. 什么是AJAX技术?它的应用场景有哪些? Ajax 即"Asynchronous Javascript And XML"(异步 JavaScript 和 XML),是指一种创建交互式网页应用的网页开发技术.通过在后台与服务器进行少量数据交

  • SpringBoot整合Elasticsearch实现索引和文档的操作方法

    Elasticsearch 是一个分布式.可扩展.近实时的高性能搜索与数据分析引擎.Elasticsearch 基于 Apache Lucene 构建,采用 Java 编写,并使用 Lucene 构建索引.提供搜索功能.Elasticsearch 的目标是让全文搜索功能的落地变得简单. 本文是SpringBoot整合Elasticsearch与综合实例的第一篇,主要实现SpringBoot整合Elasticsearch实现索引和文档的相关操作. 1.SpringBoot整合Elasticsear

  • Elasticsearch Recovery索引分片分配详解

    目录 基础知识点 减少集群Full Restart造成的数据来回拷贝 减少主副本之间的数据复制 特大热索引为何恢复慢 其他Recovery相关的专家级设置 基础知识点 在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程:一般在快照恢复.索引副本数变更.节点故障.节点重启时发生.由于master保存整个集群的状态信息,因此可以判断出哪些shard需要做再分配,以及分配到哪个结点,例如: 如果某个shard主分片在,副分片所在结点挂了,那么选择另外一个可用

随机推荐