每次须要获取城市数据的时候就会很头痛,但是现在你大可不必担心,现在有救了,这里有一份自动跟新的省市区数据。现在已经更新到 2019 年的最新数据了。
项目的数据源国家统计局 > 统计数据 > 统计标准 > 统计用区划和城乡划分代码高德舆图坐标和行政区域边界范围http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/
项目先容这个项目包含国家统计局中的省市区镇行政区划数据带拼音标注,高德舆图的坐标和行政区域边界范围,在浏览器里面运行js代码采集的2019年发布的最新数据,含采集源码,供应 csv 格式数据,支持 csv 转成省市区多级联动 js 代码。
项目地址为:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov
下面是项目截图
如何利用可直接打开采集到的数据文件夹内的 ok_data_level4.csv 来利用,level4 是省市区镇4级数据,level3 是省市区3级数据。其余不须要的数据可以大略的用 Excel 筛选后直接删除。csv格式非常方便解析或导入数据库。
ok_geo.csv.7z为省市区3级的坐标和行政区域边界范围数据,csv格式,解压后130M+。
如果在利用csv文件过程中涌现乱码、错乱等情形,请自行调对utf-8编码(或者利用文本编辑器 如notepad++ 把文件转成须要的编码),文本限定符为\"大众。
数据已测试在: win10+notepad+++UltraEdit+WPS+SQL Server 中无需任何设置,全部都能直接打开,并且数据保持工致,没有创造非常情形。
csv导入数据库华夏来便是繁芜的事情,参考3_格式化.js 中在SQL Server中的导入流程。
边界效果预览利用 js 自行采集
在低版本chrome掌握台内运行1、2、3打头的文件即可完成采集,条件是指定网页打开的掌握台。这三个文件按顺序实行。
最新采集代码内对拼音转换的接口变革蛮大,由于精良的那个公网接口采纳了IP限定方法,就算利用了全自动的切换代理,全量转换还是极为缓慢,因此采取了本地转换接口和公网转换接口结合的办法,省市区三级采取公网接口,其他的采取本地接口。公网接口转换的精确度极高,本地的略差那么一点。
步骤1
打开国家统计局任页面 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/。掌握台内粘贴1_抓取国家统计局城市信息.js代码实行。采集完成自动弹出下载,保存得到文件data.txt。步骤2
[可选]启动.pinyin-python-server中确当地拼音做事,根据2_1_抓取拼音.js中的提示对4级进行本地拼音转换。根据2_2_抓取拼音.js开头注释打开拼音接口页面,然后导入数据,进行省市区3级进行高准确度拼音转换。拼音采集完成自动弹出下载,保存得到文件data-pinyin.txt。步骤3
任意页面,最好是第二步这个页面,根据3_格式化.js中的提示导入data-pinyin.txt,并实行代码。格式化完成自动弹出下载,保存得到终极文件ok_data.csv。末了好了,本日就先容到这里,如果有须要记得点赞,收藏,分享哟。以防备用。
末了啰嗦一下,这个项目的地址是:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov
可以给作者一个 star 哟。