js判断文件是否为utf-8编码的方法

2025-10-17 17:34:34

常规方案

使用FileReader以utf-8格式读取文件，根据文件内容是否包含乱码字符�，来判断文件是否为utf-8。

如果存在�，即文件编码非utf-8，反之为utf-8。

代码如下：

const isUtf8 = async (file: File) => {
  return await new Promise((resolve, reject) => {
    const reader = new FileReader();
    reader.readAsText(file);

    reader.onloadend = (e: any): void => {
      const content = e.target.result;
      const encodingRight = content.indexOf("") === -1;

      if (encodingRight) {
        resolve(encodingRight);
      } else {
        reject(new Error("编码格式错误，请上传 UTF-8 格式文件"));
      }
    };

    reader.onerror = () => {
      reject(new Error("文件内容读取失败，请检查文件是否损坏"));
    };
  });
};

该方法问题在于，如果文件非常大，比如几个G，浏览器读到的内容直接放在内存中，fileReader实例会直接触发onerror，抛出错误，有时浏览器会直接崩溃。

大文件方案

对于大文件，可以对文件内容进行抽样，对文件进行切片，这里使用100片。对切出的每片文件再切取前面1kb大小的片段，以string方式读取。如果1024B可能正好切在某个汉字编码的中间，导致以string方式读取时出错，即首尾可能出现�，被认为是非utf-8片段。这时可以取1kb对应字符串的前半段，再去判断�是否存在。

上述常数可以根据需求进行调整。

代码如下：

const getSamples = (file: File) => {
  const filesize = file.size;
  const parts: Blob[] = [];
  if (filesize < 50 * 1024 * 1024) {
    parts.push(file);
  } else {
    let total = 100;
    const sampleSize = 1024 * 1024;
    const chunkSize = Math.floor(filesize / total);
    let start = 0;
    let end = sampleSize;
    while (total > 1) {
      parts.push(file.slice(start, end));
      start += chunkSize;
      end += chunkSize;
      total--;
    }
  }
  return parts;
};

const isUtf8 = (filePart: Blob) => {
  return new Promise((resolve, reject) => {
    const fileReader = new FileReader();

    fileReader.readAsText(filePart);

    fileReader.onload = (e) => {
      const str = e.target?.result as string;
      // 大致取一半
      const sampleStr = str?.slice(4, 4 + str?.length / 2);
      if (sampleStr.indexOf("�") === -1) {
        resolve(void 0);
      } else {
        reject(new Error(编码格式错误，请上传 UTF-8 格式文件"));
      }
    };

    fileReader.onerror = () => {
      reject(new Error(文件内容读取失败，请检查文件是否损坏"));
    };
  });
};

export default async function (file: File) {
  const samples = getSamples(file);
  let res = true;

  for (const filePart of samples) {
    try {
      await isUtf8(filePart);
    } catch (error) {
      res = false;
      break;
    }
  }
  return res;
}

到此这篇关于js判断文件是否为utf-8编码的方法的文章就介绍到这了,更多相关js判断utf-8内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

PHP 正则判断中文UTF-8或GBK的思路及具体实现

UTF-8匹配: 在javascript中,要判断字符串是中文是很简单的.比如: 复制代码代码如下: var str = "php编程"; if (/^[\u4e00-\u9fa5]+$/.test(str)) { alert("该字符串全部是中文"); }else{ alert("该字符串不全部是中文"); } //php中,是用\x表示十六进制数据的.于是,变换成如下的代码: $str = "php编程"; if (pr
php 判断字符串编码是utf-8 或gb2312实例

php 判断字符串编码是utf-8 或gb2312 第一种方法: function is_gb2312($str) { for($i=0; $i<strlen($str); $i++) { $v = ord( $str[$i] ); if( $v > 127) { if( ($v >= 228) && ($v <= 233) ) { if( ($i+2) >= (strlen($str) - 1)) return true; // not enough cha
js判断文件是否为utf-8编码的方法

常规方案使用FileReader以utf-8格式读取文件,根据文件内容是否包含乱码字符�,来判断文件是否为utf-8. 如果存在�,即文件编码非utf-8,反之为utf-8. 代码如下: const isUtf8 = async (file: File) => { return await new Promise((resolve, reject) => { const reader = new FileReader(); reader.readAsText(file); reader.on
js判断文件类型大小并给出提示的实现方法

上传文件是工作中常用的功能,不同的场景对不同的文件类型和文件大小都有不同的要求: <form id="uploadForm" method="post" class="layui-form"> <div class="layui-form-item"> <label class="layui-form-label">名称</label> <div cla
JS判断浏览器是否安装flash插件的简单方法

1. 直接判断是否有flash插件 var myFlash = (function(){ if(typeof window.ActiveXObject != "undefined"){ return new ActiveXObject("ShockwaveFlash.ShockwaveFlash"); }else{ return navigator.plugins['Shockwave Flash']; } })(); chrome: Edge浏览器中取消了wind
JS判断两个对象内容是否相等的方法示例

本文实例讲述了JS判断两个对象内容是否相等的方法.分享给大家供大家参考,具体如下: 我们知道,如果两个对象即使内容,JavaScript也会判断它们不相等.但是有时候,我们仅仅需要判断两个对象的内容是否相等.那么我们应该如何做到且考虑周全呢?比如说0和-0,null和undefined,是不相等的,NaN和NaN默认是不相等的.我写了一个isEqual方法,考虑到了诸多方面,代码如下: <!DOCTYPE html> <html> <head> <meta cha
js判断是否按下了Shift键的方法

本文实例讲述了js判断是否按下了Shift键的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: <html> <head> <title>使用js判断是否按下了Shift键</title> <script type="text/javascript"> function isKeyPressed(event) { if (event.shiftKey==1) { alert("shift被按下了&
js判断一个字符串是否包含一个子串的方法

本文实例讲述了js判断一个字符串是否包含一个子串的方法.分享给大家供大家参考.具体如下: 在我们前端日常开发中,经常会遇到判断一个字符串中是否包含某个子串,这里我们将去探究一些解决此种需求的方法以及正确的使用它们.理想情况下,我们要找的是一个能匹配我们的目的(if x contains y)的方法,并返回true或false. 一.String.prototype.indexOf和String.prototype.lastIndexOf 这两个方法,可能是我们最容易想到的,如果包含子串,则返回大
JS判断输入的字符串是否是数字的方法(正则表达式)

实例如下: if (!checkNumber(gopage_val)) { alert("请输入正确页数(数字)"); return false; } //验证字符串是否是数字 function checkNumber(theObj) { var reg = /^[0-9]+.?[0-9]*$/; if (reg.test(theObj)) { return true; } return false; } 以上这篇JS判断输入的字符串是否是数字的方法(正则表达式)就是小编分享给大家的全
js判断文本框剩余可输入字数的方法

本文实例讲述了js判断文本框剩余可输入字数的方法.分享给大家供大家参考.具体如下: 目的:为了更直观的体现用户在文本框输入文本时能看到自己输入了多少字,项目中需要通过判断提示文本框剩余可输入字数 JS实现方法复制代码代码如下: <html> <head runat="server"> <title></title> <script type="text/javascript">
js判断手机浏览器操作系统和微信浏览器的方法

今天就为大家介绍一下用js判断手机客户端平台及系统平台的方法: <script type="text/javascript"> //手机端判断各个平台浏览器及操作系统平台 function checkPlatform(){ if(/android/i.test(navigator.userAgent)){ document.write("This is Android'browser.");//这是Android平台下浏览器 } if(/(iPhonei
利用JS判断字符串是否含有数字与特殊字符的方法小结

前言本文主要介绍的是利用JS判断字符串是否含有数字与特殊字符的方法,文中有几种不同的方法,包括普通的JS验证法.正则表达式法,另外还有判断是否为浮点数的js函数,在最后还将简要介绍下isNAN函数的使用方法和例子,来一起学习学习吧. 一.正则表达式方法判断是否为数字,包括判断正整数: function checkRate(input) { var re = /^[0-9]+.?[0-9]*$/; //判断字符串是否为数字,//若判断正整数,则后边是:/^[1-9]+[0-9]*]*$/ if

js判断文件是否为utf-8编码的方法

常规方案

大文件方案

相关推荐

随机推荐