短网址的原理与生成方法(Java实现)

短网址应用已经在全国各大微博上开始流行了起来。例如QQ微博的url.cn,新郎的sinaurl.cn等。

我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx

为什么要这样做的,原因我想有这样几点:

  1. 微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了。
  2. 短网址可以在我们项目里可以很好的对开放级URL进行管理。有一部分网址可以会涵盖色情,暴力,广告等信息,这样我们可以通过用户的举报,完全管理这个连接将不出现在我们的应用中,应为同样的URL通过加密算法之后,得到的地址是一样的。
  3. 我们可以对一系列的网址进行流量,点击等统计,挖掘出大多数用户的关注点,这样有利于我们对项目的后续工作更好的作出决策。

其实以上三点纯属个人观点,因为在我接下来的部分项目中会应用到,所以就了解了一下,下面先来看看短网址映射算法的理论(网上找到的资料):

  1. 将长网址md5生成32位签名串,分为4段,每段8个字节;
  2. 对这四段循环处理,取8个字节,将他看成16进制串与0x3fffffff(30位1)与操作,即超过30位的忽略处理;
  3. 这30位分成6段,每5位的数字作为字母表的索引取得特定字符,依次进行获得6位字符串;
  4. 总的md5串可以获得4个6位串;取里面的任意一个就可作为这个长url的短url地址;

很简单的理论,我们并不一定说得到的URL是唯一的,但是我们能够取出4组URL,这样几乎不会出现太大的重复。

下面来看看程序部分:

public static string[] ShortUrl(string url)
{
 //可以自定义生成MD5加密字符传前的混合KEY
 string key = "Leejor";
 //要使用生成URL的字符
 string[] chars = new string[]{
  "a","b","c","d","e","f","g","h",
  "i","j","k","l","m","n","o","p",
  "q","r","s","t","u","v","w","x",
  "y","z","0","1","2","3","4","5",
  "6","7","8","9","A","B","C","D",
  "E","F","G","H","I","J","K","L",
  "M","N","O","P","Q","R","S","T",
  "U","V","W","X","Y","Z"
 }; 

 //对传入网址进行MD5加密
 string hex = System.Web.Security.FormsAuthentication.HashPasswordForStoringInConfigFile(key + url, "md5"); 

 string[] resUrl = new string[4]; 

 for (int i = 0; i < 4; i++)
 {
  //把加密字符按照8位一组16进制与0x3FFFFFFF进行位与运算
  int hexint = 0x3FFFFFFF & Convert.ToInt32("0x" + hex.Substring(i * 8, 8), 16);
  string outChars = string.Empty;
  for (int j = 0; j < 6; j++)
  {
   //把得到的值与0x0000003D进行位与运算,取得字符数组chars索引
   int index = 0x0000003D & hexint;
   //把取得的字符相加
   outChars += chars[index];
   //每次循环按位右移5位
   hexint = hexint >> 5;
  }
  //把字符串存入对应索引的输出数组
  resUrl[i] = outChars;
 }
 return resUrl;
} 

现在可以直接使用该方法,可以等到下面四组值:

ShortUrl(http://www.me3.cn)[0]; //得到值fAVfui
ShortUrl(http://www.me3.cn)[1]; //得到值3ayQry
ShortUrl(http://www.me3.cn)[2]; //得到值UZzyUr
ShortUrl(http://www.me3.cn)[3]; //得到值36rQZn 

在存放这个URL的数据方面,我个人推荐TTServer,有的朋友可以没有听说过,下面是这个数据库的介绍:

Tokyo Cabinet 是日本人 Mikio Hirabayashi(平林幹雄)のページ 开发的一款DBM数据库(注:大名鼎鼎的DBM数据库qdbm就是他开发的),该数据库读写非常快。insert:0.4sec/1000000 recordes(2500000qps),写入100万数据只需要0.4秒。search:0.33sec/1000000 recordes (3000000 qps),读取100万数据只需要0.33秒。

可以看到对于字典类型的数据Key/Value的查询,这个数据库可以说是我目前见过效率非常高的,况且他如此的小巧,用来对short url/long url的配对再好不过。

该系统使用6个短码字符来表示任何长度的网址。 有效的字符代码是ASCII 'A'到'Z'和'0'的'5',其中每个字符包含2 ^ 5(32)状态。  6短码字符可用于绘制32 ^ 6(1073741824)的网址

首先,你需要一个数据库表来存储和检索你映射的网址。

CREATE TABLE mappedURL (的CREATE TABLE mappedURL(
shortCode char(6) not null,
lognURL text not null,
PRIMARY KEY shortCodeInd (shortCode),
); 

其次,你需要定义一个算法将长的URL映射到短的URL。 算法上面已经介绍过了。

第三,你需要创建一个网页,从数据库的短网址的映射找到原始的URL,并重定向之。

总结

到此这篇关于短网址的原理与生成方法的文章就介绍到这了,更多相关短网址的原理与生成内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 两种JAVA实现短网址服务算法

    短网址(Short URL) ,顾名思义就是看起来很短的网址.自从twitter推出短网址服务以后,各大互联网公司都推出了自己的短网址服务.短网址最大的优点就是短,字符少,便于发布.传播.复制和存储. 通过网上的搜索,感觉流传了2种短网址算法,一种是基于MD5码的,一种是基于自增序列的. 1.基于MD5码 : 这种算法计算的短网址长度一般是5位或者6位,计算过程中可能出现碰撞(概率很小),可表达的url数量为62 的5次方或6次方.感觉google(http://goo.gl),微博用的是类似这

  • java短网址服务(TinyURL)生成算法

    前不久做了一个优惠劵的分享功能,其中一个功能就是生成一个优惠劵分享短链接.生成的短链接要求每个链接都是唯一的,并且长度尽可能短.在网上查了一下相关的思路,发现了一个不错的算法.这个算法的思路就是用[a-zA-Z0-9]建立一个长度为62的矩阵,然后把矩阵打乱,再生成一个全局唯一的数字,再把这个数字用矩阵内的元素表示转换成62进制,生成的链接长度最大才11位.所以短链接的生成关键点就变成了如何生成一个全局唯一的数字和实现进制的转换. 1.生成全局唯一的数字 这本质是一个分布式ID的问题.如果简单处

  • 短网址的原理与生成方法(Java实现)

    短网址应用已经在全国各大微博上开始流行了起来.例如QQ微博的url.cn,新郎的sinaurl.cn等. 我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx 为什么要这样做的,原因我想有这样几点: 微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了. 短网址可以在我们项目里可以很好的对开放级URL进行管理.有一部分网址可以会涵盖

  • python3实现短网址和数字相互转换的方法

    本文实例讲述了python3实现短网址和数字相互转换的方法.分享给大家供大家参考.具体实现方法如下: import math import decimal def convert_to_code(num): """ 将数字转换为代码 """ def get_num(num, out=''): num = decimal.Decimal(num) codes = "abcdefghjkmnpqrstuvwxyz23456789ABCDEF

  • PHP生成短网址的思路以及实现方法的详解

    短网址流行已经有一段时间了,尤其是在新浪微博上更是频繁出现,但应该很多人都不知道这个东东是怎么实现的,其实短网址也挺容易的.下面我们对于生成短网址的思路以及使用php生成短网址的实现方法描述一下. 生成短网址的思路:如果把短网址还原了,你知道是个什么样子的吗?可能你看到新浪微博应用里面的短网址都是这个样子: http://t.cn/RzddsXt 其实他还原了说不定就是这个样子: http://t.cn/link.php?url=//www.jb51.net/ 按这个格式可以知道这个短网址其实是

  • 微信公众号生成新浪短网址的实现(快速生成)

    有没有想过,向一个公众号发送长链接,然后公众号给你回复一个短网址? 其实很简单: <?php define("TOKEN", "xiao"); //用于回复用户消息 function responseMsg(){ $postStr = $GLOBALS["HTTP_RAW_POST_DATA"]; if (!empty($postStr)){ $postObj = simplexml_load_string($postStr, 'Simpl

  • Python实现短网址ShortUrl的Hash运算实例讲解

    本文实例讲述了Python实现短网址ShortUrl的Hash运算方法.分享给大家供大家参考.具体如下: shorturl实现常见的做法都是将原始Url存储到数据库,由数据库返回一个对应ID. 以下要实现的是不用数据库支持就对原始URL进行shorturl hash.说到这里我们很容易想到MD5,固定长度,冲突概率小,但是32个字符,太长?我们以MD5为基础,将其字符缩短,同时要保证一定数量范围内hash不会冲突. 我们分成两个步骤来实现. 第一步算法: ① 将长网址用md5算法生成32位签名串

  • PHP生成短网址方法汇总

    正常的网址带上参数的那种可能会很长,尤其是我们在印刷纸质品如企业宣传册中要印上某个长的url的话非常难看,而且也没几个人会去记这个网址,虽然现在可以用扫二维码的方式打开长网址.但是人们可以使用短网址来实现优美的链接,尤其是有字数限制的应用如微博. 短网址的实现原理就是有一个数据表会配置文件将短网址和实际网址进行对应,当请求某个短网址时,程序跳转到对应的实际网址上去,从而实现网址的访问. 方案1:PHP+MySQl实现短网址的生成和读取 常规的方案我们将生成好的短网址和原网址对应到一张数据表中,然

  • php生成短网址/短链接原理和用法实例分析

    本文实例讲述了php生成短网址/短链接原理和用法.分享给大家供大家参考,具体如下: 需求 在我们的项目当中,如果需要更好传播我们的活动链接,但是链接太长1来是不美观,2来是太过于"笨重",例如拼多多,淘宝联盟,他们的推广链接都是有短链接的,还有新浪微博. 但是,这些始终都是别人的,我们调用别人的API进行生成,不稳定,所以可以自己做一个,注册一个稍微短一些的域名就行. 生成源码api.php <?php header("Content-type:application/

  • php 生成短网址原理及代码

    php 生成短网址 原理: 1.将原网址做crc32校验,得到校验码. 2.使用sprintf('%u') 将校验码转为无符号数字. 3.对无符号数字进行求余62操作(大小写字母+数字等于62位),得到余数后映射到62个字符中,将映射后的字符保存.(例如余数是10,则映射的字符是A,0-9对应0-9,10-35对应A-Z,35-62对应a-z) 4.循环操作,直到数值为0. 5.将所有映射后的字符拼接,就是短网址后的code. 代码如下: 复制代码 代码如下: /** 生成短网址 * @para

  • PHP生成短网址的3种方法代码实例

    短网址服务,可能很多朋友都已经不再陌生,现在大部分微博.手机邮件提醒等地方已经有很多应用模式了,并占据了一定的市场.估计很多朋友现在也正在使用. 看过新浪的短连接服务,发现后面主要有6个字符串组成. 太多算法的东西,也没必要去探讨太多,最主要的还是实现,下面是三种方法的代码: <?php //纯随机生成方法 function random($length, $pool = '') { $random = ''; if (empty($pool)) { $pool = 'abcdefghkmnpq

  • PHP通过调用新浪API生成t.cn格式短网址链接的方法详解

    本文实例讲述了PHP通过调用新浪API生成t.cn格式短网址链接的方法.分享给大家供大家参考,具体如下: 新浪提供了长链接转为短链接的API,可以把长链接转为 t.cn/xxx 这种格式的短链接. API: http://api.t.sina.com.cn/short_url/shorten.json (返回结果是JSON格式) http://api.t.sina.com.cn/short_url/shorten.xml (返回结果是XML格式) 请求参数: source 申请应用时分配的App

随机推荐