JavaScript拆分字符串时产生空字符的解决方案

问题描述

使用JavaScript的split方法拆分字符串时出现一些空字符串"",尤其是当使用正则表达式作为分隔符的时候。

相关问题

javascript正则表达式对字符串分组时产生空字符串组?

在上面这个问题中,题主使用正则表达式对字符串进行分割时产生了多个空字符串"",代码如下:

代码如下:

'张sdf四上法asdf翁芬aa33网s'.split(/([\u4e00-\u9fa5]{1})/gi);
//输出["", "张", "sdf", "四", "", "上", "", "法", "asdf", "翁", "", "芬", "aa33", "网", "s"]

那么,产生这些空字符串的原因是什么?

问题分析

在Google上搜索了一番,发现相关的结果并不多,即便有,详细解释的也不多,大概的说了一下,然后就给出了一个ECMAScript规范的链接。看来要想知道真正的原因,就只能硬着头皮看规范了。

相关标准

那么,接下来,按照国际惯例,先上ECMAScript的标准镇楼。

代码如下:

String.prototype.split (separator, limit)

这个章节详细介绍了split方法的执行步骤,如果感兴趣的话可以一步一步的认真看完,我在这里只把和产生空字符串相关的步骤拿出来解释一下,不当之处,欢迎大家提出。

相关步骤

摘取部分步骤:

整个过程中最主要的步骤是第13步这个循环,而这个循环主要做的事情如下:
 •定义p, q的值,每一次循环开始的时候p和q的值是相同的(该步骤在循环之外);
 •调用SplitMatch(S, q, R)这个方法对字符串进行拆分;
 •根据返回结果的不同,执行不同的分支,主要分支为分支ⅲ;
 •分支ⅲ又分成了8个小步用来将返回的结果填充到事先定义好的数组A中
 •在这个8小步中,步骤1的作用是返回原始字符串的一个子串,开始位置是p(包含在内),结束位置是q(不包含在内),注意:在这一步中会产生空字符串,我将其标记为截取字符串,方便下文引用。
 •将上一步的子串添加到数组A中
 •接下来的几步是更新相关的变量,继续下一次循环。(步骤7的作用是将正则表达式中的捕获分组保存到数组A中,和产生空字符串无关)
 
SplitMatch(S, q, R)

接下来,我们需要了解一下SplitMatch(S, q, R)这个方法做了些什么事。这个方法在split规范中的下方有提及。它主要做的事是,根据分隔符(separator)的类型进行相应的操作:
 •如果分隔符是RegExp类型的,调用RegExp的内部方法[[Match]]来对字符串进行匹配,如果匹配失败,返回failure,否则,返回一个MatchResult类型的结果。
 •如果分隔符是字符串,进行匹配判断,失败返回failure,成功返回MatchResult类型的结果。
 
MatchResult

上面的步骤中又引出了一个MatchResult类型的变量。通过查文档发现,该类型的变量有两个属性endIndex和captures,endIndex的值是字符串匹配的位置加上1,captures可以理解为一个数组,当分隔符为正则表达式时,它里面的元素是分组捕获的值;当分隔符为字符串时,它为一个空数组。

接下来

我们从上面的步骤可以看出,分割的字符串是在截取字符串这一步骤中产生的(正则表达式的分组捕获除外)。它的作用是截取指定开始(包含在内)和结束位置(不包含在内)之间的字符串,那它什么时候会返回""呢?有一种特殊情况是开始位置和结束位置的值相等,这只是猜想而已,因为该规范没有给出截取字符串的规范步骤。

都走到这里了,为什么不再往前走一步呢?

于是,我试着搜索了一些V8的源码,看看能不能找到具体的实现方法。确实找到了相关的代码,源码链接

这里摘取其中一部分:

代码如下:

function StringSplitJS(separator, limit) {
  ...
  ...
  //分隔符是字符串的情况
  if (!IS_REGEXP(separator)) {
    var separator_string = TO_STRING_INLINE(separator);

if (limit === 0) return [];

// ECMA-262 says that if separator is undefined, the result should
    // be an array of size 1 containing the entire string.
    if (IS_UNDEFINED(separator)) return [subject];

var separator_length = separator_string.length;

//分隔符是空字符串,直接返回了字符数组
    if (separator_length === 0) return %StringToArray(subject, limit);

var result = %StringSplit(subject, separator_string, limit);

return result;
  }

if (limit === 0) return [];

// 分隔符是正则表达式的情况,调用StringSplitOnRegExp
  return StringSplitOnRegExp(subject, separator, limit, length);
}

//此处省略若干代码

我在代码中发现,在填充数组的时候会调用%_SubString这个方法来截取字符串,可惜的是我没有找到他的相关定义,如果有找到的同学欢迎告知。但是,我发现JavaScript中substring这个方法所对应的StringSubstring这个方法会调用%_SubString这个方法,并将其结果返回。那么如果'abc'.substring(1,1)返回"",则表明%_SubString这个方法在开始位置和结束位置相同的时候会返回"",结果大家一试便知。

那么,什么时候会出现开始位置等于结束位置(即q === p)的情况呢?我按照上面的步骤一步一步的进行分析,最终发现:
 •当原始字符串S匹配过一次分隔符之后,紧接着,字符串S的下一个位置还匹配分隔符。如:'abbbc'.split('b'),'abbbc'.split(/(b){1}/)
 •另一种情况是字符串开头的一个或几个字符匹配分隔符。如:'abc'.split('a'),'abc'.split(/ab/)
•还有一种情况是字符串结尾的一个或几个字符串匹配分隔符,与之相关的步骤是第14步。
 如:'abc'.split('c'),'abc'.split(/bc/)

此外,当使用正则表达式作为分隔符的时候,返回的结果中还有可能出现undefined。
 如:'abc'.split(/(d)*/)

回过头来再看看开头的那个例子,是不是满足上面几种情况?

题外话

这是我第一次这么仔细的看ECMAScript的标准规范,看的过程确实很痛苦,但明白之后就感觉很痛快了。也感谢题主提出的这个问题,以及追问。
 顺便提一句,正则表达式作为分隔符时,global修饰符g是会被忽略的,这也算是一次额外的收获。

(0)

相关推荐

  • javascript字符串拆分成单个字符相加和不超过10,求最终值第1/2页

    首先把你的生日列出来 比如 1987 12 25 然后一位位的相加 1+9+8+7+1+2+2+5=35 把得出的数字再拆分 再加 3+5=8 得出的数字8 就是最后的结果,如果超过10的话就在拆分再加 1 肾脏 2 眼睛 3 才华天赋 4 良性基因 5 友情 6 慈善之心 7 亲情 8 健康和寿命 9 爱情 10 恭喜你 你拥有纯净的灵魂 最适合典当cloeft的示例 var str = "19871229"; var count = 0; for(var i = 0 ; i 10)

  • javascript 根据指定字符把字符串拆分为数组

    用split()方法 例: New Document function strToArray(str){ var arr=str.split(";"); for (i=0;i"); } } [Ctrl+A 全选 注:如需引入外部Js需刷新才能执行] 运行输出结果是 a c d e

  • JavaScript拆分字符串时产生空字符的解决方案

    问题描述 使用JavaScript的split方法拆分字符串时出现一些空字符串"",尤其是当使用正则表达式作为分隔符的时候. 相关问题 javascript正则表达式对字符串分组时产生空字符串组? 在上面这个问题中,题主使用正则表达式对字符串进行分割时产生了多个空字符串"",代码如下: 复制代码 代码如下: '张sdf四上法asdf翁芬aa33网s'.split(/([\u4e00-\u9fa5]{1})/gi); //输出["", "

  • Python cookbook(字符串与文本)针对任意多的分隔符拆分字符串操作示例

    本文实例讲述了Python针对任意多的分隔符拆分字符串操作.分享给大家供大家参考,具体如下: 问题:将分隔符(以及分隔符之间的空格)不一致的字符串拆分为不同的字段: 解决方案:使用更为灵活的re.split()方法,该方法可以为分隔符指定多个模式. 说明:字符串对象的split()只能处理简单的情况,而且不支持多个分隔符,对分隔符周围可能存在的空格也无能为力. # example.py # # Example of splitting a string on multiple delimiter

  • 28个JavaScript常用字符串方法以及使用技巧总结

    目录 前言 1. 获取字符串长度 2. 获取字符串指定位置的值 (1)charAt() (2)charCodeAt() 3. 检索字符串是否包含特定序列 (1)indexOf() (2)lastIndexOf() (3)includes() (4)startsWith() (5)endsWith() 4. 连接多个字符串 5. 字符串分割成数组 6. 截取字符串 (1) slice() (2) substr() (3) substring() 7. 字符串大小写转换 (1)toLowerCase

  • javascript中字符串的定义示例代码

    复制代码 代码如下: <html> <head> <title>javascript中字符串的定义</title> <script> //定义字符串 //第一种 var str = new Array(); alert(str);//空字符 //第二种 var str2 = new Array("hello"); alert(str2);//hello //第三种 /* String 对象可用字符串文字显式创建. 用这种方法创

  • Javascript中字符串replace方法的第二个参数探究

    前言 replace第一个参数一般放置的是正则表达式,用来匹配想要替换的文本:第二个参数一般我们放入的是字符串,用来替换掉正则匹配到的文本. 其实replace远比上面说的要强大的多,它的内部已经封装的很完善了,远不是我们想象的那么简单,下面我们就来详细聊聊replace的第二个参数. 实例介绍 现在要实现一个功能,把HTML中的字符实体转换成它们所对应的字符,比如:"<"转换成对对应字符为:"<". 下面我们来看看代码实现: String.protot

  • Javascript中字符串相关常用的使用方法总结

    刚刚在看Javascript犀牛书,看到字符串这一节,平时工作接触到这方面的不多,想着整理下,以备不时只需. JavaScript的内置功能之一就是字符串连接,如果用'+'连接两个数字,表示两数相加.但是如果用于字符串,就表示第二个字符加在第一个字符之后. var num=1+2; console.log(num); var msg='hello'+'world'; console.log(msg); 对于字符串来说,除了有length属性,还有很多其他有用的属性,如: var str='hel

  • 基于JavaScript中字符串的match与replace方法(详解)

    1.match方法 match() 方法可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配. match()方法的返回值为:存放匹配结果的数组. 2.replace方法 replace() 方法用于在字符串中用一些字符替换另一些字符,或替换一个与正则表达式匹配的子串. replace方法的返回值为:一个新的字符串. 3.说明 以上2个方法的参数在使用正则表达式时主要添加全局g,这样才能对字符串进行全部匹配或者替换. 示例代码: <!DOCTYPE html> <html lang

  • JavaScript时间戳与时间日期间相互转换

    今天在工作中要将获取到的时间转换为时间戳,一时间竟不知道怎么用,于是不得不去查询资料,这里特地做个笔记. 1.将日期转换为时间戳. 要将日期转换为时间戳,首先得先获取到日期,这里可以直接指定日期,或者是使用当前日期.要获取当前日期,我们可以使用new Date()来获取.直接上代码. // (1).将当前日期转换为时间戳. var now = new Date(); console.log(now.getTime()) // 将当前日期转换为时间戳,getTime()方法可返回距1970年1月1

  • Python 存储字符串时节省空间的方法

    从 Python 3 开始,str 类型代表着 Unicode 字符串.取决于编码的类型,一个 Unicode 字符可能会占 4 个字节,这个有些时候有点浪费内存. 出于内存占用以及性能方面的考虑,Python 内部采用下面 3 种方式来存储 Unicode 字符: 一个字符占一个字节(Latin-1 编码) 一个字符占二个字节(UCS-2 编码) 一个字符占四个字节(UCS-4 编码) 使用 Python 进行开发的时候,我们会觉得字符串的处理都很类似,很多时候根本不需要注意这些差别.可是,当

  • Python split() 函数拆分字符串将字符串转化为列的方法

    函数:split() Python中有split()和os.path.split()两个函数,具体作用如下: split():拆分字符串.通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list) os.path.split():按照路径将文件名和路径分割开 一.函数说明 1.split()函数 语法:str.split(str="",num=string.count(str))[n] 参数说明: str: 表示为分隔符,默认为空格,但是不能为空('').若字符串中没有分隔符

随机推荐