title

date

错误的代码

const PDFParser = require('pdf2json');
const fs = require('fs');
const src = './pdf';
const xlsx = require('node-xlsx');
let list = [['序号','统一社会信用代码','单位名称','行业类别']];
let index = 1;
let len = 0;

fs.readdir(src, (err, files) => {
    len = files.length;
    files.forEach(item => {
        var pdfParser = new PDFParser(this, 1);
        pdfParser.loadPDF(`${src}/${item}`);
        pdfParser.on('pdfParser_dataError', errData => console.error(errData.parserError)); pdfParser.on('pdfParser_dataReady', () => {
            let data = pdfParser.getRawTextContent();
            let result = data.match(/(统一社会信用代码|单位名称|行业类别)：[\S]*/g);
            for (let i = 0 ;i < 3;++i){
                result[i] = result[i].split('：')[1];
            }
            list.push(result);
            ++index;
            if( index === len){
                var buffer = xlsx.build([{name: 'company', data: list}]); // Returns a buffer
                fs.writeFileSync('list.csv', buffer, 'binary');
            }
        });
    });
});

但是究竟这个异步操作的并发量的上限是多少，不能确定，有一个同学尝试过，读取PDF文件的时候，上限是30，分析以上结果，进行改进，改进之后，每次执行五个异步操作，执行完成之后再继续执行下一个五个异步函数。

测试过，这种方式处理100个文件时没有问题的，对比了两种方式方法，以34个文件为测试用例：

方法 | 文件数量 | 读取时间(s) | CPU | 内存

| :-: |:-: -: | :-: | :-: 方法一 | 34| 26.817 | 暴涨(14%-42%) | 最大(1591MB) 方法二 | 34| 19.374 | (36%)平稳 | 最大(300MB)

改进后核心代码

ConvertToJSON(path){
    return new Promise((resolve,reject) => {
        var pdfParser = new PDFParser(this, 1);
        pdfParser.loadPDF(`${src}/${path}`);
        pdfParser.on('pdfParser_dataError', errData =>reject( new Error(errData.parserError)));
        pdfParser.on('pdfParser_dataReady', () => {
            // 省略处理部分
            resolve(result);
        });
    }).catch(error => {
        console.log(error);
    });
}

seek(callback){
    let arr = this.files.splice(0,5);
    let all = [];
    arr.forEach(item => {
        all.push(this.ConvertToJSON(item));
    });
    let promise = Promise.all(all);
    promise.then(result => {
       // 省略处理部分
        return this.files.length === 0 ? callback(this.list) : this.seek(callback);
    });
}

源码地址，欢迎指正。

参考文档：

v8引擎详解
Google V8 引擎原理详解
FATAL ERROR: CALL_AND_RETRY_LAST Allocation failed - process out of memory
nodeJs内存泄漏问题详解

最近读书分享（来源：掘金）

浏览器渲染引擎
主流浏览器内核介绍
对象扩展符简易指南
用Flow提升前端健壮性
JavaScript 工作原理之二－如何在 V8 引擎中书写最优代码的 5 条小技巧(译)

心得：以上是我最近读到的，我认为非常好的文章。关于浏览器内核，这样的文章一直都在读，但是每一次读，理解都是不一样的，有一种书读百遍其义自见的感觉，学的知识越多，再去读以前读过的文章，理解就更深刻，共勉。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

memory.md

memory.md

错误的代码

改进后核心代码

Files

memory.md

Latest commit

History

memory.md

File metadata and controls

错误的代码

改进后核心代码