大佬们 请教下这个问题,数据为下载的html文件,写法已经固定,解析成json文件会报错,这种字符串包含了不须要的双引号,导致读取成json文件失落败?怎么批量修正?用正则会把其他数据也给更换掉,涌现双引号的位置内容不愿定
测试数据:{ 34;taskType": 1, "printPageHeight": 1459, "exportTypeTemplate": "html", "reportTitle": "信息科技"网络安全漏洞扫描系统 "安全评估报告-主机报表", "companyName": "信息科技", "createTime": "2024-08-09 10:03:48", "curr_lang": "zh-CN"pt "漏洞" }
怎么批量修正成可读取的json文件?
二、实现过程
这里【猫药师Kelly】给了一个辅导,如下所示:末了一个字段curr_lang意思是用到的措辞,那么pt "漏洞"便是无效信息。看看是不是其它数据都符合这个规律,是的话把无效信息洗濯掉。
【哎呦喂 是豆子~】:那个是我改的 造的测试数据。
后来【此类生物】给了一份代码:
import reimport json# 原始的JSON字符串json_str = '''{ "taskType": 1, "printPageHeight": 1459, "exportTypeTemplate": "html", "reportTitle": "信息科技"网络安全漏洞扫描系统 "安全评估报告-主机报表", "companyName": "信息科技", "createTime": "2024-08-09 10:03:48", "curr_lang": "zh-CN"pt "漏洞"}'''# 修复多余的逗号json_str = re.sub(r',\s[^,}]$', '', json_str)# 修复属性值,确保每个属性值都被双引号包围# 这个正则表达式会匹配到属性名和属性值,然后考试测验修复属性值json_str = re.sub(r'("([^"]+)"\s:\s)([^"]+)(,?)', r'\1"\4"\5', json_str)# 考试测验将修复后的字符串解析为JSONtry: data = json.loads(json_str) print("JSON解析成功:", data)except json.JSONDecodeError as e: print("JSON解析失落败:", e)
【哎呦喂 是豆子~】:弗成 error: invalid group reference 5 at position 7。测试数据
要把这个数据解析成json文件,正常都是可以读取的,但是部分数据为了展示好看,研发把部分数据又加了引号,导致读取成json文件的时候报错,有没有什么办法可以避开这种问题,成功读取成json格式
【瑜亮老师】:下面这个代码:
json_str = re.findall(r'"(.?)": (.?)[,\n]', json_str)data = {i[0]: i[1].replace('"', ' ') for i in json_str}
这样出来就字典。便是先匹配数据中冒号两端的数据,然后更换删除右侧字符串中的双引号。
想转换成json字符串,就加一行json_str = json.dumps(data, ensure_ascii=False)
【哎呦喂 是豆子~】:还得是大佬!
!
!
瑜亮老师的办法切实其实了!
!
!
显得我更我菜了 不知道变通 难怪有ai也救不了我
【黑科技·鼓包】:向老师学习!
太强了!
后来【此类生物】也给了一份代码:他补充道:或许需求不是这样,没细看。
【瑜亮老师】:我那个也只是给出一个思路。你这个可以进一步修正,保持原数据中整型不变。data = {i[0]: i[1][1:-1] if i[1][0] == '"' else int(i[1]) for i in json_str}
后来粉丝的数据又有新增,如下:
后来【瑜亮老师】也顺利地办理了粉丝的提问。
顺利地办理了自己的问题。
如果你也有类似这种Python干系的小问题,欢迎随时来互换群学习互换哦,有问必答!
大家好,我是Python进阶者。这篇文章紧张盘点了一个Python数据处理的问题,文中针对该问题,给出了详细的解析和代码实现,帮助粉丝顺利办理了问题。
末了感谢粉丝【哎呦喂 是豆子~】提出的问题,感谢【瑜亮老师】、【猫药师Kelly】、【冯诚】、【黑科技·鼓包】、【此类生物】给出的思路,感谢【莫生气】等人参与学习互换。
【提问补充】温馨提示,大家在群里提问的时候。可以把稳下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码笔墨即可,代码超过50行这样的话,发个.py文件就行。