一个词在同一句话里出现三次就不能忍，必须换近义词；

一件事手动做三次就不能忍，必须写程序自动化；

一顿饭重复吃三口就不能忍，必须开发一个喂饭机；

同一处空气重复呼吸三口就不能忍，必须装一台呼吸机

……

发人深省，对不对？这些正是当今最严肃而真实的信仰，有着最为坚定的践行者。在古代2015年全球最大的雄性交友平台GitHub上出了个网红毛子码农、脚本狂魔Narkoz，他的人生原则是：如果一件事要耗费自己90秒以上，那就写个脚本。这些奇葩的脚本包括：如加班到21点以后就自动给老婆发马屁短信、收到蠢货DBA的任何求助邮件后自动恢复数据库的最近备份、让咖啡机等待17秒然后煮杯咖啡并等待24秒再灌入杯子（正好是作者起身走到咖啡机前的耗时）……

从时间效益的经济学评价来讲，这个准则烂透了。这好比为了节约每天通勤的公交车钱，去买了一辆跑车。但跑车本身还是很拉风的。若能竖立起极客死宅的品牌形象，还是可能会产生某些潜在的溢价——比如说，会有更多的人请你修电脑。

判断一个人是否天生适合当码农，很重要的一点就是看他/她有没有这种懒癌强迫症。而这种强迫症的形上学本质是：对自由王国的无尽向往。——重复劳动太蠢了，它侮辱人类的尊严，阻碍我们证法悟道，必须消灭。这就是自动化的诞生。

所以——尽管技术上跌跌撞撞，也并不妨碍我隔三差五搞个三脚猫爬虫出来。这回的主题又跳跃了：爬取现代化支付行号。

这就带来了第一个问题

蛤？这是啥？

所谓现代化支付行号 (CNAPS)

也叫联行号。

就是中国人民银行搞的一套12位银行代码，用来做自动清算的。在通过手机银行app转账时，选择收款方账户时，也会看到这个代码。它的结构如下：

1 2	** * ** ** * 行别码地区码分支机构序号校验码

所以如果要搭一个跟支付清算相关的系统，就很有必要把CNAPS作为基建纳入考虑。这套代码并不公开，但是公开渠道仍能从一些银行的官网查到。比如河北银行、浙商银行。

河北银行CNAPS查询

浙商银行CNAPS查询

随手上去试了两把，还挺好用。于是思路比较清楚了：穷尽所有查询策略，把返回的结果提出来存好。

怎么爬咧？

首先，选型要精准

上面提到的这两家都要输校验码，攻起来有门槛。所以退而求其次，发现一家中原银行。

中原银行CNAPS查询

这就比较好对付一些，而且信息更多，连网点地址也提供。

其次，办法要对路

要理智。当然不能手工复制粘贴。平均查一个结果需要点行名、省、市，输验证码、按确认，超过10次交互动作。几千次这么做下来，非死亦残。更不要提错误率了。放弃
我比较熟悉的rvest这类简单的R爬虫包，只能对付静态网页，无法模拟网页交互行为。放弃
Python的scrapy框架很牛，也能对付验证码、AJAX异步之类问题。次一点，R里面也有Rcurl。但我都不会。放弃
要模拟用户交互行为最好的办法是Selenium这类框架(代码版按键精灵)，但是当时我还不会。放弃。
其他。不明

所谓“夫未战而庙算者，得算多也”。经过一番严谨的分析，我发现：技术上搞不定——再次落入了经典的“看得上的买不起，买得起的看不上”窘境。

曲线救国

办法还是有的，但就是要先停下来，离题万里去讲另一个故事。

在OA领域，我们经常会把一系列小操作对应的系统指令录下来，套个循环再复用，那就是VBA宏语言。所谓宏，实质上就是定义一组模式替换规则，套用到一组命令上进行批量批处理。这不就是“录制-修改-复用”自动化党的福音吗？看看我们平时用的最多的宏，通常就是VBA，SPSS，SAS，以及各种各样的游戏作弊器。那就是宏天生的战场。

对于本地的任务，其实最合适的工具是Selenium IDE (或Katalon之类替代品)，一样从录制宏开始。但我当时并不会。好在Firefox里有一个历史悠久的代替品：iMacros。看，名字里就有一个“宏”。它也有Chrome和IE的版本，通过浏览器扩展商店装好后，模样长这样：

iMacros界面（左侧）

如果自己录一段宏，打开后长这样：

iMacros代码

由于完全是一堆动作指令，所以很容易读懂。无非是关闭其他标签页，打开一个网址，依次在几个文本控件里填入内容，最后点按钮提交。

双击录好的iim脚本运行，就把刚才的录入工作重复执行一遍。就跟自己动手一毛一样。

iMacros示例（来自YouTube）

想象一下你有几千条记录要在网上填入。用imacros，只要在脚本同目录下准备一个csv，整理好数据，然后修改一下上面的代码，读入csv，逐行扫描，按布局顺序提取数据{{!COL1}}、{{!COL2}}、…，填入对应的控件，提交。接下来边喝茶边看屏幕飞滚，繁复的录入任务就自行完成了。

节外生枝的JavaScript

按说imacros已经给了很完美的循环方案：在iim脚本里给内置变量{{!LOOP}}赋一个初始值，然后在执行面板里设置一个（{{!LOOP}}的）Max值，点Play Loop即可。但这只能对付单层循环。在中原银行这个案例上，单层循环是不够的。理论上需要三层循环：

for i in 所有银行名:

for j in 所有省份:

for k in 所有城市:

查询

提取结果表格

存入一个文件

next k

next j

next i

大约80个银行类目，34个省份，650个城市，这样完整运行一遍要有17.7万个组合。但实际上34个省份和650个城市不会完整组合，每个省份只可能匹配其属下的那几个城市。省份选择“江苏”后，硬要让脚本到城市下拉框找“杭州”，只能逼它报错。所以省份、城市的两层循环(j, k)实际上应当合并。

饶是如此，仍有两层循环。假如硬是压成单层，就得在csv里把所有组合罗列一遍，imacros表示无力。所幸这个工具还有不错的延展性，可以执行vbs和js脚本。查询、提取、存储之类还是可以用imacros宏来完成，外面搭一个js的循环壳调用iimPlay就行。伪代码看起来大约是这样：

for (var i=0; i < 银行数; i ){

for (var j=0; j < 省份和城市对数; j ){

iimPlay(一段imacros宏，选好银行、省、市，查询结果)

iimPlay(另一段imacros宏，返回查询结果的页数，以便诸页去点)

iimPlay(另一段imacros宏，抽取银行、省、市的标签名，

用来给文件命名)

iimPlay(最后一段imacros宏，循环点查询结果页，

把每一页结果存入csv)

}

}

心里有底了。开工。

提取银行和省份城市的控件值

Chrome里F12，可以看到银行下拉菜单的载入值齐齐整整。

分析HTML节点

选中’banksite’这个节点，右键copy element复制下来。到R里，赋值给banks。

<select name="select" class="select_170" id="banksite">

<option value="">==请选择银行==</option>

<option value="100">中原银行</option>

<option value="102">中国工商银行</option>

<option value="103">中国农业银行</option>

<option value="104">中国银行</option>

<option value="105">中国建设银行</option>

<option value="201">国家开发银行</option>

<option value="202"> ....

用R快速处理一下：

banks <- unlist(banks, strsplit(banks, "</option>"))

paste(sapply(banks, function(v)

gsub("^<option value="(d )">D $", "1", v)), collapses=",")

这样直接就提取成了一个文本向量。如果在Windows，可以复制outerHTML，用readClipboard来直接读剪贴板。所以定义一个getCbId函数，直接处理成js列表。

library(jsonlite)

getCbId <- function(grpId=NA){

# Copy XML nodes from ZYB page by F12

a <- readClipboard(format=13)

a <- unlist(strsplit(a, """))

a <- a[seq(2, length(a), 2)]

if (is.na(grpId)){

toJSON(as.numeric(a))

}else{

a=matrix(as.numeric(c(

rep.int(grpId, length(a)), a)), ncol=2)

toJSON(a)

}

}

所以这个scrapy_cnaps.js的起头部分就变成了：

var banks= [100,102,103,104,105,201,202,203,301,302,303,304,305,306,

307,308,309,310,313,314,315,316,317,318,319,401,402,403,501,502,503,

504,505,506,507,509,510,512,531,532,533,561,562,563,564,565,591,593,

594,595,596,597,621,622,623,631,641,651,652,661,662,671,672,691,692,

693,695,711,712,713,714,715,716,732,741,742,751,752,761,771,775,776,

781,782,783,785,787];

var nBanks=banks.length;

以此类推，把所有省份和城市的组合都找了出来。

var cities=[

[11,1000],

[12,1100],

[13,1210],[13,1240],[13,1260],[13,1270],[13,1310],[13,1340],[13,1380],

[13,1410],[13,1430],[13,1460],[13,1480],

[14,1610],[14,1620],[14,1630],[14,1640],[14,1680],[14,1690],[14,1710],

[14,1730],[14,1750],[14,1770],[14,1810],

[15,1910],[15,1920],[15,1930],[15,1940],[15,1960],[15,1980],[15,1990],

[15,2010],[15,2030],[15,2050],[15,2070],[15,2080],

[21,2210],[21,2220],[21,2230],[21,2240],[21,2250],[21,2260],[21,2270],

[21,2280],[21,2290],[21,2310],[21,2320],[21,2330],[21,2340],

[22,2410],[22,2420],[22,2430],[22,2440],[22,2450],[22,2460],[22,2470],

[22,2490],[22,2520],

[23,2610],[23,2640],[23,2650],[23,2660],[23,2670],[23,2680],[23,2690],

[23,2710],[23,2720],[23,2740],[23,2760],[23,2780],[23,2790],

[31,2900],

[32,3010],[32,3020],[32,3030],[32,3040],[32,3050],[32,3060],[32,3070],

[32,3080],[32,3090],[32,3110],[32,3120],[32,3140],

[33,3310],[33,3320],[33,3330],[33,3350],[33,3360],[33,3370],[33,3380],

[33,3410],[33,3420],[33,3430],[33,3450],

[34,3610],[34,3620],[34,3630],[34,3640],[34,3650],[34,3660],[34,3670],

[34,3680],[34,3710],[34,3720],[34,3740],[34,3750],[34,3760],[34,3790],

[35,3910],[35,3930],[35,3940],[35,3950],[35,3960],[35,3970],[35,3990],

[35,4010],[35,4030],[35,4050],

[36,4210],[36,4220],[36,4230],[36,4240],[36,4260],[36,4270],[36,4280],

[36,4310],[36,4330],[36,4350],[36,4370],

[37,4510],[37,4520],[37,4530],[37,4540],[37,4550],[37,4560],[37,4580],

[37,4610],[37,4630],[37,4650],[37,4660],[37,4680],[37,4710],[37,4730],

[37,4750],

[41,4910],[41,4920],[41,4930],[41,4950],[41,4960],[41,4970],[41,4980],

[41,5010],[41,5020],[41,5030],[41,5040],[41,5050],[41,5060],[41,5080],

[41,5110],[41,5130],[41,5150],

[42,5210],[42,5220],[42,5230],[42,5260],[42,5280],[42,5310],[42,5320],

[42,5330],[42,5350],[42,5360],[42,5370],[42,5410],

[43,5510],[43,5520],[43,5530],[43,5540],[43,5550],[43,5570],[43,5580],

[43,5590],[43,5610],[43,5620],[43,5630],[43,5650],[43,5670],[43,5690],

[44,5810],[44,5820],[44,5840],[44,5850],[44,5860],[44,5880],[44,5890],

[44,5910],[44,5920],[44,5930],[44,5950],[44,5960],[44,5970],[44,5980],

[44,5990],[44,6010],[44,6020],[44,6030],

[45,6110],[45,6140],[45,6170],[45,6210],[45,6230],[45,6240],[45,6330],

[46,6410],[46,6420],

[50,6530],

[51,6510],[51,6550],[51,6560],[51,6570],[51,6580],[51,6590],[51,6610],

[51,6620],[51,6630],[51,6650],[51,6670],[51,6690],[51,6710],[51,6730],

[51,6750],[51,6770],[51,6790],[51,6810],[51,6840],[51,6870],

[52,7010],[52,7020],[52,7030],[52,7050],[52,7070],[52,7090],[52,7110],

[52,7130],[52,7150],

[53,7310],[53,7340],[53,7360],[53,7380],[53,7410],[53,7430],[53,7450],

[53,7470],[53,7490],[53,7510],[53,7530],[53,7540],[53,7550],[53,7560],

[53,7570],[53,7580],

[54,7700],[54,7720],[54,7730],[54,7740],[54,7750],[54,7760],[54,7770],

[54,7790],[54,7810],[54,7830],

[61,7800],[61,7910],[61,7920],[61,7930],[61,7950],[61,7970],[61,7990],

[61,8010],[61,8030],[61,8040],[61,8060],

[62,8210],[62,8220],[62,8230],[62,8240],[62,8250],[62,8260],[62,8270],

[62,8280],[62,8290],[62,8310],[62,8330],[62,8340],[62,8360],[62,8380],

[63,8510],[63,8520],[63,8540],[63,8550],[63,8560],[63,8570],[63,8580],

[63,8590],

[64,8710],[64,8720],

[65,8810],[65,8820],[65,8830],[65,8840],[65,8850],[65,8870],[65,8880],

[65,8910],[65,8930],[65,8940],[65,8960],[65,8980],[65,9010],[65,9020]]

var nCities=cities.length;

构建循环

由于解析返回结果的页码需要用到正则，里面一大堆转义符，如果通过js来拼接脚本源文本，会让难度雪上加霜。所以我决定把最难的脚本单元提出来，最后拼到主脚本里。

获取返回结果的页码

点了查询之后，结果是分页显示的：

首页上一页 1 2 3 下一页末页

所以只要探一下下一页和末页的链接有没有绑onclick事件，就知道是不是有效。

如果搜出结果，“下一页”能点，说明不止一页，那么就可以往下点开页面，直到末页。
如果点不了，就不用费劲循环了。

于是写了个脚本getNextLastPage.iim，用SEARCH正则表达式的方法从页面源代码里提取js绑定。

VERSION BUILD=844

SEARCH SOURCE=REGEXP:"<a href="javascript:;" onclick="goPage

((d ))"[^>]*>下一页" EXTRACT="$1"

SEARCH SOURCE=REGEXP:"<a href="javascript:;" onclick="goPage

((d ))"[^>]*>末页" EXTRACT="$1"

imacros提供了一个iimGetLastExtract接口，能把iim脚本提取的结果以数组形式拿出来交给javascript或者vbs。

获得控件标签键

脚本交互时用到的是控件值，所以js工作脚本里只提供了100、101这类值列表。但我希望最终下载的csv以“银行_省份_城市_页码”，而不是“银行value_省份value_城市value_页码”的纯编码方式命名，所以得再写个getBankProvCity.iim，从三个下拉框控件属性标签里把“北京”、“天津”这些键取回来。

VERSION BUILD=844

Tab T=1

TAG POS=1 TYPE=SELECT ATTR=ID:banksite EXTRACT=TXT

SET !VAR1 {{!EXTRACT}}

SET !EXTRACT NULL

SEARCH SOURCE=REGEXP:"<option value="{{!VAR1}}">([^"<] )<"

EXTRACT="$1"

SET !VAR2 {{!EXTRACT}}

SET !EXTRACT NULL

TAG POS=1 TYPE=SELECT ATTR=ID:province EXTRACT=TXT

SET !VAR1 {{!EXTRACT}}

SET !EXTRACT NULL

SEARCH SOURCE=REGEXP:"<option value="{{!VAR1}}">([^"<] )<"

EXTRACT="$1"

SET !VAR3 {{!EXTRACT}}

SET !EXTRACT NULL

TAG POS=1 TYPE=SELECT ATTR=ID:city EXTRACT=TXT

SET !VAR1 {{!EXTRACT}}

SET !EXTRACT NULL

SEARCH SOURCE=REGEXP:"<option value="{{!VAR1}}">([^"<] )<"

EXTRACT="$1"

SET !VAR4 {{!EXTRACT}}

TAG POS=1 TYPE=SELECT ATTR=ID:city CONTENT=%{{!VAR1}}

SET !EXTRACT {{!VAR2}}

ADD !EXTRACT {{!VAR3}}

ADD !EXTRACT {{!VAR4}}

事后想想，直接在预处理时把键和值都解析出来写进js里岂不是最方便。真是智商捉急。

功能集成

写好两个工作脚本，就可以着手搭集成脚本了。

//上面已述。var banks和cities的定义

//主工作脚本：

for (var i=0; i < nBanks; i ){ // 遍历所有银行

for (var j=0; j < nCities; j ){ //遍历所有省份城市

/* 拼接iim脚本，分别点击银行、省、市下拉框，点查询

注意wait seconds，不能太短，否则页面来不及反应*/

var m = "CODE:";

m = "VERSION BUILD=844 " " ";

m = "TAG POS=1 TYPE=SELECT ATTR=ID:banksite CONTENT=%"

banks[i] " ";

m = "TAG POS=1 TYPE=SELECT ATTR=ID:province CONTENT=%"

cities[j][0] " ";

m = "WAIT SECONDS=3" " ";

m = "TAG POS=1 TYPE=SELECT ATTR=ID:city CONTENT=%"

cities[j][1] " ";

m = "TAG POS=1 TYPE=A ATTR=ID:search" " ";

m = "WAIT SECONDS=4";

iimPlay(m); //执行

// 执行外部iim脚本，获取最末一页的页码

iimPlay("getNextLastPage.iim");

var nextPge = Number(iimGetLastExtract(1));

var lastPge = Number(iimGetLastExtract(2));

/* 执行另一个iim脚本，获取省份和城市的取值，

用来给文件起名 */

iimPlay("getBankProvCity.iim");

var bankName = iimGetLastExtract(1);

var provName = iimGetLastExtract(2);

var cityName = iimGetLastExtract(3);

/* 如果有下一页，则继续点下一页链接，知道最后一页，

并将表格内容存入‘银行_省_市_页码_时间’.csv*/

if (nextPge > 0) {

for (var k=1; k <= lastPge; k ){

m = "CODE:VERSION BUILD=844 " " ";

m = "TAG POS=1 TYPE=A ATTR=TXT:" k " ";

m = "TAG POS=2 TYPE=TABLE ATTR=TXT:* EXTRACT=TXT"

" ";

m = "SAVEAS TYPE=EXTRACT FOLDER=* FILE="

bankName "_" provName "_" cityName "_" k

"_{{!NOW:yymmddhhnnss}}.csv" " ";

m = "WAIT SECONDS=1";

iimPlay(m); //执行

}

}

}

}

说时容易做时难。因为技术三脚猫，调试这些玩意儿花了很多时间。最坑爹的环节就是正则转义。

运行

工程搭好后，把脚本放在虚拟机上跑了三天，幸运的是网站似乎没有反爬虫策略，夜间也不关服务，于是让我顺顺利利地跑完了。

看到上千个文件静静躺在文件夹里，感觉到了巅峰愉悦。

里面的文件纷纷长这样：

下载的csv文件

R合并csv

为啥之前费尽周章地格式化命名下载结果呢？因为我需要把文件名里的信息提取出来，合并到数据集里。下面这个R脚本定义了一个parseCsvTbl函数，就负责把csv文件名里的银行、省份、城市解析出来合并到数据集中。

# -------载库，配环境----------

Sys.setlocale("LC_CTYPE", "Chs")

library(readr)

library(parallel)

library(compiler)

library(magrittr)

# -------读数据---------------

files <- list.files(".")

## 剔除.zip和.bat

files <- files[!grepl("zip$|bat$", files)]

## 某些文件莫名奇妙没有拿到后缀名，强制重命名

if (!all(grepl("csv$", files))){

file.rename(files[!grepl("csv$", files)],

paste0(files[!grepl("csv$", files)], ".csv"))

}

## 文件名全名显示

files <- list.files(getwd(), pattern=".csv$",

full.names=FALSE)

stopifnot(all(grepl("csv$", files)))

message("A total of ", length(files), " files read.")

# ---------------自定义函数-----------------

parseCsvTbl <- cmpfun(function(

csvfile, header=c("CNAPS", "Bank", "Tel", "Addr")){

# for parallel use, duplicate the global settings

Sys.setlocale("LC_CTYPE", "Chs")

stopifnot(length(header) == 4)

stopifnot(file.exists(csvfile))

dat <- readr::read_csv(csvfile, col_types="nccc")

names(dat) <- header

dat$bank <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",

"1", csvfile)

dat$prov <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",

"2", csvfile)

dat$city <- sub("^([^_]*?)_([^_]*?)_([^_]*?)_. $",

"3", csvfile)

return(dat)

})

# --------------调用解析函数，解析csv并合并------------

## 如果文件超过1000个，调用并行计算

if (length(files) > 1000){

cl <- makeCluster(detectCores())

df <- do.call("rbind", parLapply(cl, files, parseCsvTbl))

stopCluster(cl)

}else{

df <- do.call("rbind", lapply(files, parseCsvTbl))

}

## 合并后的结果输出到一个大csv

write_csv(df, paste0("cnaps_", format(Sys.time(),

"%Y%m%d%H%M%S"), ".csv"))

message("output cnaps csv is generated.")

跑完脚本，数据变成了：

一共40多万条记录。谢天谢地，老泪纵横。

但是！

你以为这是一篇萌蠢拙计、热情洋溢的imacros软文？那你错了。我只是为了说明一件事：

为了偷懒，我勤奋到废寝忘食。

但至于imacros，我绝不推荐。这是一段技术弯路，所有有志于自动化的，应该直接去学Python和Selenium，不要给无良付费软件一毛线的活路。

首先，今年的11月份，Firefox发布了新版Quantum，运行速度快了很多，但是API全变了。一众网红扩展纷纷蒙圈，统统跑不起来了。其中就包括了imacros。官网很快发了一则通告，大意是“用不了啦，大家赶紧降级Firefox。要不给Mozilla写个万民伞，让他们重新把废掉的那些API弄回来吧。”

开历史倒车还开出情怀来了。

随即，就在前两天，这家“全球最流行的浏览器自动化解决方案”提供者，升级了imacros浏览器插件，样子少许好看了点。然而免费版的功能却从猛犸缩水到野猪。

免费版最多只能录50个动作
免费版不再能读取本地文件
免费版不能回放iim脚本
只有IE版插件能用csv作输入源，不能超过100行、3列 …

要达到以往免费版的功能，需要升级到个人版。价钱比企业版可便宜多了，大约只需要……700大洋吧。

瞧这点出息，难怪欧洲软件企业而今越来越排不上号。市占率套现的玩法千千万，它却选择直接杀鸡取卵。这应该是我第一次，也是最后一次吹imacros。写完此文，我就把imacros彻底卸了。

工具没那么重要，重要的是理念。

Save your life. Automate everything.

[完]

北京银行开户银行行别码(北京银行怎么知道银行开户行)

这就带来了第一个问题

怎么爬咧？

首先，选型要精准

其次，办法要对路

曲线救国

节外生枝的JavaScript

提取银行和省份城市的控件值

构建循环

获取返回结果的页码

获得控件标签键

功能集成

运行

R合并csv

但是！

友情链接百度权重≥5符合友链交换

联系我们

北京银行开户银行行别码(北京银行怎么知道银行开户行)

这就带来了第一个问题

怎么爬咧？

首先，选型要精准

其次，办法要对路

曲线救国

节外生枝的JavaScript

提取银行和省份 城市的控件值

构建循环

获取返回结果的页码

获得控件标签键

功能集成

运行

R合并csv

但是！

相关推荐

友情链接 百度权重≥5符合友链交换

联系我们

提取银行和省份城市的控件值

友情链接百度权重≥5符合友链交换