基于java实现DFA算法代码实例

DFA简介

DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。(自己百度吧)

直接代码:

敏感词实体类

package com.nopsmile.dfa;

public class Keywords {
  private String pid;
  private String Content;

  public Keywords() {

  }

  public Keywords(String content) {
    super();
    Content = content;
  }

  public String getContent() {
    return Content;
  }

  public void setContent(String content) {
    Content = content;
  }

  public String getPid() {
    return pid;
  }

  public void setPid(String pid) {
    this.pid = pid;
  }

}

敏感词库初始化

package com.nopsmile.dfa;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

/**
 * 敏感词库初始化
 *
 */
public class SensitiveWordInit{

  /**
   * 敏感词库
   */
  public HashMap sensitiveWordMap;

  /**
   * 初始化敏感词 keywords
   */
  public Map initKeyWord(List<Keywords> sensitiveWords) {
    try {
      // 从敏感词集合对象中取出敏感词并封装到Set集合中
      Set<String> keyWordSet = new HashSet<String>();
      for (Keywords s : sensitiveWords) {
        keyWordSet.add(s.getContent().trim());
      }
      // 将敏感词库加入到HashMap中
      addSensitiveWordToHashMap(keyWordSet);
    } catch (Exception e) {
      e.printStackTrace();
    }
    return sensitiveWordMap;
  }

  /**
   * 封装敏感词库
   */
  private void addSensitiveWordToHashMap(Set<String> keyWordSet) {
    // 初始化HashMap对象并控制容器的大小
    sensitiveWordMap = new HashMap(keyWordSet.size());
    // 敏感词
    String key = null;
    // 用来按照相应的格式保存敏感词库数据
    Map nowMap = null;
    // 用来辅助构建敏感词库
    Map<String, String> newWorMap = null;
    // 使用一个迭代器来循环敏感词集合
    Iterator<String> iterator = keyWordSet.iterator();
    while (iterator.hasNext()) {
      key = iterator.next();
      // 等于敏感词库,HashMap对象在内存中占用的是同一个地址,所以此nowMap对象的变化,sensitiveWordMap对象也会跟着改变
      nowMap = sensitiveWordMap;
      for (int i = 0; i < key.length(); i++) {
        // 截取敏感词当中的字,在敏感词库中字为HashMap对象的Key键值
        char keyChar = key.charAt(i);

        // 判断这个字是否存在于敏感词库中
        Object wordMap = nowMap.get(keyChar);
        if (wordMap != null) {
          nowMap = (Map) wordMap;
        } else {
          newWorMap = new HashMap<String, String>();
          newWorMap.put("isEnd", "0");
          nowMap.put(keyChar, newWorMap);
          nowMap = newWorMap;
        }

        // 如果该字是当前敏感词的最后一个字,则标识为结尾字
        if (i == key.length() - 1) {
          nowMap.put("isEnd", "1");
        }
      }
    }
  }
}

自定义的工具类

package com.nopsmile.dfa;

import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Set;

import com.alibaba.fastjson.JSONArray;

import net.sf.json.JSONObject;

/**
 * 敏感词过滤工具类
 *
 * @author AlanLee
 *
 */
public class SensitivewordUtils {
  /**
   * 敏感词库
   */
  public static Map sensitiveWordMap = null;

  /**
   * 只过滤最小敏感词
   */
  public static int minMatchTYpe = 1;

  /**
   * 过滤所有敏感词
   */
  public static int maxMatchType = 2;

  /**
   * 敏感词库敏感词数量
   *
   * @return
   */
  public static int getWordSize() {
    if (SensitivewordUtils.sensitiveWordMap == null) {
      return 0;
    }
    return SensitivewordUtils.sensitiveWordMap.size();
  }

  /**
   * 是否包含敏感词
   *
   */
  public static boolean isContaintSensitiveWord(String txt, int matchType) {
    boolean flag = false;
    for (int i = 0; i < txt.length(); i++) {
      int matchFlag = checkSensitiveWord(txt, i, matchType);
      if (matchFlag > 0) {
        flag = true;
      }
    }
    return flag;
  }

  /**
   * 获取敏感词内容
   *
   * @param txt
   * @param matchType
   * @return 敏感词内容
   */
  public static Set<String> getSensitiveWord(String txt, int matchType) {
    Set<String> sensitiveWordList = new HashSet<String>();

    for (int i = 0; i < txt.length(); i++) {
      int length = checkSensitiveWord(txt, i, matchType);
      if (length > 0) {
        // 将检测出的敏感词保存到集合中
        sensitiveWordList.add(txt.substring(i, i + length));
        i = i + length - 1;
      }
    }

    return sensitiveWordList;
  }

  /**
   * 替换敏感词
   *
   */
  public static String replaceSensitiveWord(String txt, int matchType, String replaceChar) {
    String resultTxt = txt;
    Set<String> set = getSensitiveWord(txt, matchType);
    Iterator<String> iterator = set.iterator();
    String word = null;
    String replaceString = null;
    while (iterator.hasNext()) {
      word = iterator.next();
      replaceString = getReplaceChars(replaceChar, word.length());
      resultTxt = resultTxt.replaceAll(word, replaceString);
    }

    return resultTxt;
  }

  /**
   * 替换敏感词内容
   *
   */
  private static String getReplaceChars(String replaceChar, int length) {
    String resultReplace = replaceChar;
    for (int i = 1; i < length; i++) {
      resultReplace += replaceChar;
    }

    return resultReplace;
  }

  /**
   * 检查敏感词数量
   *
   */
  public static int checkSensitiveWord(String txt, int beginIndex, int matchType) {
    boolean flag = false;
    // 记录敏感词数量
    int matchFlag = 0;
    char word = 0;
    Map nowMap = SensitivewordUtils.sensitiveWordMap;
    for (int i = beginIndex; i < txt.length(); i++) {
      word = txt.charAt(i);
      // 判断该字是否存在于敏感词库中
      nowMap = (Map) nowMap.get(word);
      if (nowMap != null) {
        matchFlag++;
        // 判断是否是敏感词的结尾字,如果是结尾字则判断是否继续检测
        if ("1".equals(nowMap.get("isEnd"))) {
          flag = true;
          // 判断过滤类型,如果是小过滤则跳出循环,否则继续循环
          if (SensitivewordUtils.minMatchTYpe == matchType) {
            break;
          }
        }
      } else {
        break;
      }
    }
    if (!flag) {
      matchFlag = 0;
    }
    return matchFlag;
  }

  /**
   * 敏感词汇对应个数
   * 返回 "关键字"="关键字个数"
   *
   */
  public static Map getSensitiveWordSum(String txt, int matchType) {
    Map<String,Integer> map = new HashMap<String,Integer>();
    for (int i = 0; i < txt.length(); i++) {
      int length = checkSensitiveWord(txt, i, matchType);
      if (length > 0) {
        // 将检测出的敏感词保存到集合中
        String str=txt.substring(i, i + length);
        if(map.containsKey(str)) {
          map.put(str, map.get(str).intValue()+1);
        }else {
          map.put(str, new Integer(1));
        }
        //System.out.println(txt.substring(i, i + length));
        i = i + length - 1;
      }
    }
    return map;
  }

  /**
   * 对map数组value排序,并取前10
   * this method will always sort the map;
   * isCondition is true condition can be used otherwise invalid
   * @param unsortMap
   * @return
   */
  public static Map<String, Integer> sortByValue(Map<String, Integer> unsortMap,int condition,boolean isCondition) {

    // 1. Convert Map to List of Map
    List<Map.Entry<String, Integer>> list =
        new LinkedList<Map.Entry<String, Integer>>(unsortMap.entrySet());

    // 2. Sort list with Collections.sort(), provide a custom Comparator
    //  Try switch the o1 o2 position for a different order
    Collections.sort(list, new Comparator<Map.Entry<String, Integer>>() {
      public int compare(Map.Entry<String, Integer> o1,
                Map.Entry<String, Integer> o2) {
        return (o2.getValue()).compareTo(o1.getValue());
      }
    });

    // 3. Loop the sorted list and put it into a new insertion order Map LinkedHashMap
    Map<String, Integer> sortedMap = new LinkedHashMap<String, Integer>();
    if(isCondition) {
      for (int i = 0; i < list.size(); i++) {
        if (i < condition) {
          sortedMap.put(list.get(i).getKey(), list.get(i).getValue());
        }
      }
    }else{
      for (int i = 0; i < list.size(); i++) {
          sortedMap.put(list.get(i).getKey(), list.get(i).getValue());
      }
    }
    return sortedMap;
  }
}

使用上面类流程代码

Keywords ss=new Keywords("好");
List list = new ArrayList();
list.add(ss);

SensitiveWordInit sensitiveWordInit = new SensitiveWordInit();
Map sensitiveWordMap  = sensitiveWordInit.initKeyWord(list);

// 传入SensitivewordEngine类中的敏感词库
SensitivewordUtils.sensitiveWordMap = sensitiveWordMap;

SensitivewordUtils.getSensitiveWordSum("需要检测的文本", 2)  ;

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • java利用DFA算法实现敏感词过滤功能

    前言 敏感词过滤应该是不用给大家过多的解释吧?讲白了就是你在项目中输入某些字(比如输入xxoo相关的文字时)时要能检 测出来,很多项目中都会有一个敏感词管理模块,在敏感词管理模块中你可以加入敏感词,然后根据加入的敏感词去过滤输 入内容中的敏感词并进行相应的处理,要么提示,要么高亮显示,要么直接替换成其它的文字或者符号代替. 敏感词过滤的做法有很多,我简单描述我现在理解的几种: ①查询数据库当中的敏感词,循环每一个敏感词,然后去输入的文本中从头到尾搜索一遍,看是否存在此敏感词,有则做相 应的处理,

  • 详细分析JAVA加解密算法

    加解密算法分析 日常开发中,无论你是使用什么语言,都应该遇到过使用加解密的使用场景,比如接口数据需要加密传给前端保证数据传输的安全:HTTPS使用证书的方式首先进行非对称加密,将客户端的私匙传递给服务端,然后双方后面的通信都使用该私匙进行对称加密传输:使用MD5进行文件一致性校验,等等很多的场景都使用到了加解密技术. 很多时候我们对于什么时候要使用什么样的加解密方式是很懵的.因为可用的加解密方案实在是太多,大家对加解密技术的类型可能不是很清楚,今天这篇文章就来梳理一下目前主流的加解密技术,本篇文

  • Java实现DFA算法对敏感词、广告词过滤功能示例

    一.前言 开发中经常要处理用户一些文字的提交,所以涉及到了敏感词过滤的功能,参考资料中DFA有穷状态机算法的实现,创建有向图.完成了对敏感词.广告词的过滤,而且效率较好,所以分享一下. 具体实现: 1.匹配大小写过滤  2.匹配全角半角过滤  3.匹配过滤停顿词过滤.  4.敏感词重复词过滤. 例如: 支持如下类型类型过滤检测: fuck 全小写 FuCk 大小写 fuck全角半角 f!!!u&c ###k 停顿词 fffuuuucccckkk 重复词 敏感词过滤的做法有很多,我简单描述我现在理

  • Java实现8种排序算法的示例代码

    冒泡排序 O(n2) 两个数比较大小,较大的数下沉,较小的数冒起来. public static void bubbleSort(int[] a) { //临时变量 int temp; //i是循环次数,也是冒泡的结果位置下标,5个数组循环5次 for (int i = 0; i < a.length; i++) { //从最后向前面两两对比,j是比较中下标大的值 for (int j = a.length - 1; j > i; j--) { //让小的数字排在前面 if (a[j] <

  • javax.mail.SendFailedException: Sending failed问题原因

    最近一直在使用邮件发送功能,老是遇到问题,后面才找到,原来并不是程序问题引起的,我吧问题整出来, javax.mail.SendFailedException: Sending failed; nested exception is: class javax.mail.MessagingException: 554 MI:STC 0,smtp10,DsCowLC7LwPACzRN7qcQAA--.2883S2 1295256512 at javax.mail.Transport.send0(Tr

  • JAVA用递归实现全排列算法的示例代码

    求一个n阶行列式,一个比较简单的方法就是使用全排列的方法,那么简述以下全排列算法的递归实现. 首先举一个简单的例子说明算法的原理,既然是递归,首先说明一下出口条件.以[1, 2]为例 首先展示一下主要代码(完整代码在后面),然后简述 //对数组array从索引为start到最后的元素进行全排列 public void perm(int[]array,int start) { if(start==array.length) { //出口条件 for(int i=0;i<array.length;i

  • Java使用DFA算法实现过滤多家公司自定义敏感字功能详解

    本文实例讲述了Java使用DFA算法实现过滤多家公司自定义敏感字功能.分享给大家供大家参考,具体如下: 背景 因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感词过滤掉他们自定义的规则,选择了DFA算法来做,不过和以前传统了DFA写法不太一样了 模式图 直接上代码 public class KeywordFilter { // private static ReentrantReadWriteLock lock = new ReentrantReadWriteLock(); public

  • 浅谈JAVA字符串匹配算法indexOf函数的实现方法

    前言 相信每个学习过Java的人都使用过indexOf函数,indexOf函数我们可以查找一个字符串(模式串)是否在另一个字符串(主串)出现过,返回结果表示出现位置的下标,如果返回-1,表示模式串在主串中不存在,那么,你可曾想过这些查找函数又是如何实现的呢? 从indexOf源码看起 首先我们先来看一下indexOf的源码,indexOf的使用方式比较多,这是我们以一个形参的为例. static String mainString = "Hello my name is HuangLinqing

  • 基于java实现DFA算法代码实例

    DFA简介 DFA全称为:Deterministic Finite Automaton,即确定有穷自动机.(自己百度吧) 直接代码: 敏感词实体类 package com.nopsmile.dfa; public class Keywords { private String pid; private String Content; public Keywords() { } public Keywords(String content) { super(); Content = content

  • 基于Java验证jwt token代码实例

    这篇文章主要介绍了基于Java验证jwt token代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 How to load public certificate from pem file..?地址 1.HS256对称加密 package jwt; import java.io.FileInputStream; import java.io.IOException; import java.security.KeyFactory; im

  • 基于javascript实现获取最短路径算法代码实例

    这篇文章主要介绍了基于javascript实现获取最短路径算法代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 代码如下 //A算法 自动寻路 路径 class GetAutoPath{ constructor(id, map, sPos, ePos, mapArr){ //this.type = id.type; this.id = id; this.map = map; this.sPos = sPos; this.ePos = eP

  • Java实现AES算法的实例代码

    使用AES算法可用于对数据进行加密码与解密,使用的时候需要注意两点:1)被加密的串越长,加密后的字符串越长,注意数据库字段的设计:2)Linux与Windows环境中可能会出现由于环境差异导致在Windows中测试成功,到Linux上后加密的串无法被正确解密.下列算法已在真实环境中进行实测,应用时也务必做好二次验证避免出现线上事故. private static final String ALGORITHM_NAME = "AES"; //加密因子,可根据您的需要自定义 private

  • Java实现TFIDF算法代码分享

    算法介绍 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级.除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评

  • 基于python使用tibco ems代码实例

    这篇文章主要介绍了基于python使用tibco ems代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 TIBCO Enterprise Message Service 是一个消息服务器产品 完全支持JMS的通讯协议,在运行速度和消息吞吐量上表现非常出色, 对于Windows.Linux.Mac.AIX平台都提供支持 代码如下 #encoding=utf-8 import jpype jvmpath=r"C:\Program Files

  • Spring纯Java配置集成kafka代码实例

    这篇文章主要介绍了Spring纯Java配置集成kafka代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 KafkaConfig.java package com.niugang.config; import java.util.HashMap; import java.util.Map; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache

  • 使用jquery 的ajax 与 Java servlet的交互代码实例

    这篇文章主要介绍了使用jquery 的ajax 与 Java servlet的交互代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 由于是使用jquery的 所以别忘记导入jq 下面是jsp文件 <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <!

  • Java程序生成Access文件代码实例

    这篇文章主要介绍了Java程序生成Access文件代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 package access; import java.io.File; import java.io.IOException; import java.sql.SQLException; import java.sql.Types; import org.junit.Test; import com.healthmarketscience

随机推荐