Python的卓越灵巧性和易用性使其成为最受欢迎的编程措辞之一,尤其是对付数据科学家而言。这在很大程度上是由于处理大型数据集比较大略。
在现如今竞争激烈的情形下,基本上每家技能公司都在制订数据计策。它们都意识到了拥有精确的数据会尽可能多带给他们关键的竞争上风。如果有效利用数据,可以供应深层次的,在其他任何地方都无法创造的洞察力。
多年来,您可以存储数据的可能格式列表已显著增长。但是,有3种在日常利用中占主导地位:CSV、JSON和XML。在本文中,我将与您分享在Python中利用这三种盛行数据格式的最大略方法!
CSV数据
CSV文件是存储数据的最常用方法。您会创造来自Kaggle比赛的大部分数据都因此这种办法存储的。我们可以利用内置的Python csv库来读取和写入CSV。常日,我们会将数据读入一个列表。
看看下面的代码。当我们运行csv.reader()时,我们所有的CSV数据都可以访问。 函数的浸染是:从CSV中读取一行;每次调用它,它都会移动到下一行。我们也可以利用for循环遍历csv的每一行,就像利用csvreader中的for一样。确保每行中的列数相同,否则,在处理列表时,终极可能会碰着一些缺点。
在Python中写入CSV同样随意马虎。在单个列表中设置字段名称,并在列表中设置数据。这次我们将创建一个writer()工具,并利用它将我们的数据写入文件,与我们阅读的办法非常相似。
当然,一旦您将数据读入变量,安装panda库将使处理数据变得随意马虎得多。从CSV读取和写入文件都是一行代码!
我们乃至可以利用Pandas将CSV转换为快速单行的字典列表。将数据格式化为字典列表后,我们将利用dicttoxml库将其转换为XML格式。我们还将其保存为JSON文件!
JSON数据
JSON供应了一种干净且易于阅读的格式,由于它掩护了字典风格的构造。就像CSV一样,Python有一个内置的JSON模块,使阅读和写作变得非常大略!
当我们读取CSV时,它将成为字典。然后我们将该字典写入文件。
正如我们之前看到的,一旦我们得到了数据,您就可以通过pandas轻松转换为CSV或利用内置的Python CSV模块。转换为XML时,dicttoxml库始终是我们的朋友。
XML数据
XML与CSV和JSON有点不同。常日,CSV和JSON由于其大略性而被广泛利用。它们既大略又快速,可以为人类进行阅读、编写和解释,没有额外的事情,且解析JSON或CSV非常轻量级。
另一方面,XML每每有点重。您正在发送更多数据,这意味着您须要更多带宽、更多存储空间和更多运行韶光。但是XML确实供应了一些基于JSON和CSV的额外特性:您可以利用命名空间来构建和共享标准构造,更好地表示继续,以及利用XML模式、DTD等表示数据的行业标准化方法。
要读入XML数据,我们将利用Python的内置XML模块和子模块ElementTree。从那里,我们可以利用xmltodictlibrary将ElementTree工具转换为字典。一旦我们有了字典,我们就可以像上面看到的那样转换为CSV、JSON或Pandas Dataframe!
编译出品