详解JavaScript实现简单的词法分析器示例

2025-01-30 02:02:13

正文

词法分析是编译器的一项重要工作，其目的是将源代码转换成单个单词（token）的序列，方便后续语法分析器（parser）对其进行分析。在本文中，我们将使用 JavaScript 实现一个简单的词法分析器，以便更好地理解其原理。

什么是词法分析器？

在编译器中，词法分析器是将源代码分割成单个单词的程序。它将输入的字符流转换为单词流，这些单词（token）在后续的编译过程中将被用来构建语法树（parse tree）。

词法分析器通常由两部分组成：一系列正则表达式模式，以及一个状态机，用于在输入字符流中匹配模式并生成单词。词法分析器也可以在解释器中使用，用于将源代码转换成解释器所能理解的形式。

实现一个简单的词法分析器

下面是一个基于 JavaScript 实现的简单词法分析器，它可以将输入的源代码转换成单个单词的序列：

首先定义一个 JavaScript 对象 tokenTypes，其中包含了各种单词类型的名称。每个类型名称都对应一个字符串，用于在词法分析器中标识不同类型的单词。具体来说，该对象定义了以下单词类型：

const tokenTypes = {
  number: "NUMBER",
  string: "STRING",
  keyword: "KEYWORD",
  identifier: "IDENTIFIER",
  operator: "OPERATOR",
  punctuation: "PUNCTUATION",
};

number：表示数字类型的单词。
string：表示字符串类型的单词。
keyword：表示关键字类型的单词，如 if、else、while 等。
identifier：表示标识符类型的单词，即变量名。
operator：表示运算符类型的单词，如 +、-、*、/ 等。
punctuation：表示标点符号类型的单词，如 ()、{}、,、; 等。

接着定义了一个数组 lexerRules，其中包含了一系列的词法规则，用于匹配不同类型的单词。每个词法规则是一个对象，其中包含两个属性：

// 定义词法规则
const lexerRules = [
  // 匹配数字
  { pattern: /^[0-9]+/, type: tokenTypes.number },
  // 匹配字符串
  { pattern: /^"[^"]*"/, type: tokenTypes.string },
  { pattern: /^'[^']*'/, type: tokenTypes.string },
  // 匹配关键字
  { pattern: /^(if|else|while|for|function)\b/, type: tokenTypes.keyword },
  // 匹配标识符
  { pattern: /^[a-zA-Z_][a-zA-Z0-9_]*/, type: tokenTypes.identifier },
  // 匹配运算符
  { pattern: /^[+\-*/%&lt;&gt;=!&amp;|^~]/, type: tokenTypes.operator },
  // 匹配标点符号
  { pattern: /^[(),;{}[\].]/, type: tokenTypes.punctuation },
  // 匹配注释
  { pattern: /^\/\/.*|\/*[\s\S]*?\*\//, type: null },
  // 匹配空白字符
  { pattern: /^\s+/, type: null },
];

最后，我们定义了一个函数 lexer(code)，用于将输入的代码字符串分解成一个个单独的词法单元（token）。代码如下：

// 定义词法分析函数
function lexer(code) {
  let tokens = []; // 用于存储词法单元
  let pos = 0; // 当前处理的位置
  while (pos < code.length) {
    let match = null; // 当前匹配到的规则
    // 依次尝试所有规则，找到第一个匹配成功的规则
    for (let rule of lexerRules) {
      match = code.slice(pos).match(rule.pattern);
      if (match) {
        // 如果规则匹配成功，则生成对应的词法单元并添加到结果数组中
        if (rule.type) {
          tokens.push({
            type: rule.type,
            value: match[0],
          });
        }
        break; // 跳出规则匹配循环，继续处理下一个字符
      }
    }
    if (!match) {
      // 如果没有任何规则匹配当前字符，则抛出错误
      throw new Error(`Invalid character at position ${pos}`);
    }
    pos += match[0].length; // 更新当前处理位置
  }
  return tokens;
}

实现流程如下：

定义 tokenTypes 对象，包含各种单词类型的名称。
定义 lexerRules 数组，包含一系列词法规则，用于匹配不同类型的单词。
实现 lexer 函数，用于将输入的代码字符串分解成一个个单独的词法单元（token）。

在 lexer 函数中，我们遍历输入字符串中的每个字符，对每个字符尝试使用一组预定义的规则进行匹配。如果匹配成功，则生成对应类型的词法单元并添加到结果数组中，然后继续遍历后面的字符。如果没有任何规则匹配当前字符，则抛出错误。

这样，我们就实现了一个简单的词法分析器。通过词法分析器，我们可以将输入的代码字符串分解成单个单词（token）的序列，为后续的语法分析器（parser）提供便利。

可以将下面的代码复制到Chrome浏览器控制台，看下输出结果...

const tokenTypes = {
  number: "NUMBER",
  string: "STRING",
  keyword: "KEYWORD",
  identifier: "IDENTIFIER",
  operator: "OPERATOR",
  punctuation: "PUNCTUATION",
};
// 定义词法规则
const lexerRules = [
  // 匹配数字
  { pattern: /^[0-9]+/, type: tokenTypes.number },
  // 匹配字符串
  { pattern: /^"[^"]*"/, type: tokenTypes.string },
  { pattern: /^'[^']*'/, type: tokenTypes.string },
  // 匹配关键字
  { pattern: /^(if|else|while|for|function)\b/, type: tokenTypes.keyword },
  // 匹配标识符
  { pattern: /^[a-zA-Z_][a-zA-Z0-9_]*/, type: tokenTypes.identifier },
  // 匹配运算符
  { pattern: /^[+\-*/%<>=!&|^~]/, type: tokenTypes.operator },
  // 匹配标点符号
  { pattern: /^[(),;{}[\].]/, type: tokenTypes.punctuation },
  // 匹配注释
  { pattern: /^\/\/.*|\/*[\s\S]*?\*\//, type: null },
  // 匹配空白字符
  { pattern: /^\s+/, type: null },
];
// 定义词法分析函数
function lexer(code) {
  let tokens = []; // 用于存储词法单元
  let pos = 0; // 当前处理的位置
  while (pos < code.length) {
    let match = null; // 当前匹配到的规则
    // 依次尝试所有规则，找到第一个匹配成功的规则
    for (let rule of lexerRules) {
      match = code.slice(pos).match(rule.pattern);
      if (match) {
        // 如果规则匹配成功，则生成对应的词法单元并添加到结果数组中
        if (rule.type) {
          tokens.push({
            type: rule.type,
            value: match[0],
          });
        }
        break; // 跳出规则匹配循环，继续处理下一个字符
      }
    }
    if (!match) {
      // 如果没有任何规则匹配当前字符，则抛出错误
      throw new Error(`Invalid character at position ${pos}`);
    }
    pos += match[0].length; // 更新当前处理位置
  }
  return tokens;
}
// 示例输入
const code = `
  // This is a comment
  let x = 123;
  let y = "hello, world!";
  if (x > 100) {
    console.log(y);
  }
`;
// 执行词法分析
const tokens = lexer(code);
// 输出结果
console.log(tokens,'-------效果---------');

总结

这个词法分析器是基于正则表达式的简单实现，还有许多可以优化的地方。但是，通过这个例子，我们可以更好地理解词法分析器的工作原理。

以上就是详解JavaScript实现简单的词法分析器示例的详细内容，更多关于JavaScript词法分析器的资料请关注我们其它相关文章！

深入了解JavaScript词法作用域

JavaScript并不是传统的块级作用域,而是函数作用域! 一.作用域 JavaScript引擎在代码执行前会对其进行编译,在这个过程中,像var a = 2 这样的声明会被分解成两个独立的步骤: 第一步(编译阶段):var a 在其作用域中声明新变量.这会在最开始的阶段,也就是代码执行前进行. 第二步(运行阶段):a = 2 会查询变量a(LHS查询)并对其进行赋值. LHS & RHS(当前作用域->上级作用域->...->全局作用域) LHS(左侧):试图找到变量的容器本
让nodeJS支持ES6的词法----babel的安装和使用方法

要使用Babel, 我们需要nodeJS的环境和npm, 主要安装了nodeJS, npm就默认安装了 , 现在安装nodeJS很简单了, 直接下载安装就好了: 安装es-checker 在使用Babel之前 , 我们要先检测一下当前node对es6的支持情况, 我们使用先es-checker, 命令行下执行: 运行下面代码 npm -g install es-checker es-checker安装完毕以后, 命令行执行:es-checker , 如下图, 我的node环境版本是v4.4.3,
JavaScript进阶（二）词法作用域与作用域链实例分析

本文实例讲述了JavaScript词法作用域与作用域链.分享给大家供大家参考,具体如下: 一.作用域域表示的就是范围,即作用域,就是一个名字在什么地方可以使用,什么时候不能使用.想了解更多关于作用域的问题推荐阅读<你不知道的JavaScript上卷>第一章(或第一部分),从编译原理的角度说明什么是作用域.概括的说作用域就是一套设计良好的规则来存储变量,并且之后可以方便地找到这些变量. 1.1 块级作用域在C.Java.C#等编程语言中,下面的语法报错(伪代码) { var num = 12
JavaScript的词法结构精华篇

词法结构是一套基础性的规则,用来描述如何使用这门语言来编写程序.诸如如何给变量命名,如何写注释,如何分割短语等等. 我总结为以下几点 1.字符集使用Unicode码 2.区分大小写 javascript是区分大小写的语言.也就是说,关键字,变量,函数名和所有的标识符(identifier)都必须采取一致的大小写形式.注意:HTML并不区分大小写.在HTML中,标签和属性名可以是大写也可以是小写,而在javascript中则必须是小写. 3.注释有两种:单行注释(//)多行注释(/**/) //单
js词法作用域与this实例详解

目录前言实践总结前言静态作用域又叫做词法作用域,采用词法作用域的变量叫词法变量.词法变量有一个在编译时静态确定的作用域.词法变量的作用域可以是一个函数或一段代码,该变量在这段代码区域内可见(visibility):在这段区域以外该变量不可见(或无法访问).词法作用域里,取变量的值时,会检查函数定义时的文本环境,捕捉函数定义时对该变量的绑定.大多数现在程序设计语言都是采用静态作用域规则,如 C/C++ . C# . Python . Java . JavaScript …… 相反,采用动
详解JavaScript实现简单的词法分析器示例

目录正文什么是词法分析器? 实现一个简单的词法分析器总结正文词法分析是编译器的一项重要工作,其目的是将源代码转换成单个单词(token)的序列,方便后续语法分析器(parser)对其进行分析.在本文中,我们将使用 JavaScript 实现一个简单的词法分析器,以便更好地理解其原理. 什么是词法分析器? 在编译器中,词法分析器是将源代码分割成单个单词的程序.它将输入的字符流转换为单词流,这些单词(token)在后续的编译过程中将被用来构建语法树(parse tree). 词法分析器通常
详解JavaScript基本类型和引用类型

一.值的类型早在介绍JS的数据类型的时候就提到过基本类型和引用类型,不过在说两种类型之前,我们先来了解一下变量的值的类型.在ECMAScript中,变量可以存在两种类型的值,即原始值和引用值. (1)原始值存储在栈中的简单数据段,也就是说,它们的值直接存储在变量访问的位置. (2)引用值存储在堆中的对象,也就是说,存储在变量处的值是一个指针,指向存储对象的内存处. 为变量赋值时,ECMAScript的解释程序必须判断该值是原始类型,还
详解JavaScript作用域闭包

JavaScript闭包,是JS开发工程师必须深入了解的知识.3月份自己曾撰写博客<JavaScript闭包>,博客中只是简单阐述了闭包的工作过程和列举了几个示例,并没有去刨根问底,将其弄明白! 现在随着对JavaScript更深入的了解,也刚读完<你不知道的JavaScript(上卷)>这本书,所以乘机整理下,从底层和原理上去刨一下. JavaScript并不具有动态作用域,它只有词法作用域.词法作用域是在写代码或者说定义时确定的,而动态作用域是在运行时确定的.了解闭包前,首先我
详解JavaScript 的执行机制

一.关于javascript javascript是一门单线程语言,在最新的HTML5中提出了Web Worker,但javascript是单线程这一核心仍未改变. 为什么js是单线程的语言?因为最初的js是用来在浏览器验证表单操纵DOM元素的.如果js是多线程的话,两个线程同时对一个DOM进行了相互冲突的操作,那么浏览器的解析是无法执行的. Web Worker 的作用,就是为 JavaScript 创造多线程环境,允许主线程创建 Worker 线程,将一些任务分配给后者运行.在主线程运行的同
详解JavaScript Promise和Async/Await

概述一般在开发中,查询网络API操作时往往是比较耗时的,这意味着可能需要一段时间的等待才能获得响应.因此,为了避免程序在请求时无响应的情况,异步编程就成为了开发人员的一项基本技能. 在JavaScript中处理异步操作时,通常我们经常会听到 "Promise "这个概念.但要理解它的工作原理及使用方法可能会比较抽象和难以理解. 四个示例那么,在本文中我们将会通过实践的方式让你能更快速的理解它们的概念和用法,所以与许多传统干巴巴的教程都不同,我们将通过以下四个示例开始: 示例1:用生
详解JavaScript状态容器Redux

目录一.Why Redux 二.Redux Data flow 三.Three Principles(三大原则) 四.Redux源码解析 4.1.index.js 4.2.createStore.js 4.3.combineReducers.js 4.4.bindActionCreators.js 4.5.compose.js 4.6.applyMiddleware.js 五.从零开始实现一个简单的Redux 六.Redux Devtools 七.总结一.Why Redux 在说为什么用 R
详解JavaScript中Arguments对象用途

目录前言 Arguments 的基本概念 Arguments 的作用获取实参和形参的个数修改实参值改变实参的个数检测参数合法性函数的参数个数不确定时,用于访问调用函数的实参值遍历或访问实参的值总结在实际开发中,Arguments 对象非常有用.灵活使用 Arguments 对象,可以提升使用函数的灵活性,增强函数在抽象编程中的适应能力和纠错能力. JavaScript 中 Arguments 对象的用途总结. 前言相信我们很多人在代码开发的过程中都使用到过一个特殊的对象 --
详解JavaScript Alert函数执行顺序问题

目录问题分析解决替换 Alert() 函数 setTimeOut函数小结问题前几天使用 JavaScript 写 HTML 页面时遇到了一个奇怪的问题: 我想实现的功能是通过 confirm() 弹窗让用户选择不同的需求,每次选择后都将选择结果暂时输出到页面上,最后一次选择结束后再一次性将选项传到后端处理. 代码类似于: var step1 = confirm("exec step1?"); $('#result').html($('#result').html() +
万字详解JavaScript手写一个Promise

目录前言 Promise核心原理实现 Promise的使用分析 MyPromise的实现在Promise中加入异步操作实现then方法的多次调用实现then的链式调用 then方法链式调用识别Promise对象自返回捕获错误及 then 链式调用其他状态代码补充捕获执行器错误捕获then中的报错错误与异步状态的链式调用将then方法的参数变成可选参数 Promise.all方法的实现 Promise.resolve方法的实现 finally方法的实现 catch方法的实现完整
详解JavaScript基于面向对象之创建对象（2）

接着上文<详解JavaScript基于面向对象之创建对象(1)>继续学习. 4.原型方式我们创建的每个函数都有一个通过prototype(原型)属性,这个属性是一个对象,它的用途是包含可以由特定类型的所有实例共享的属性和方法.逻辑上可以这么理解:prototypt通过条用构造函数而创建的那个对象的原型对象.使用原型的好处就是可以让所有对象实例共享它所包含的属性和方法.也就是说,不必在构造函数中定义对象信息,而是直接将这些信息添加到原型中. 原型方式利用了对象的pr

详解JavaScript实现简单的词法分析器示例

目录

正文

什么是词法分析器？

实现一个简单的词法分析器

总结

相关推荐

随机推荐