简单学量化pandas的应用38读取csv文件12

今天我们学习keep_default_na参数,这个参数的作用是自定义一个或多个值,这一个或多个值将被NA/NaN替换。pandas中默认的NA/NaN数值有:‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘nan’`,如果表中有这些值,则读入时会显示为NA或NaN。而keep_default_na的作用是让一些非默认的值也显示为NA或NaN。

下面我们举例,先读入数据表:

import pandas as pd
df=pd.read_csv("test2.csv",encoding='gbk')
df

显示:

简单学量化pandas的应用38读取csv文件12

对比一下原表,可以发现这些标黄的元素被转换成了上表中的NaN。

简单学量化pandas的应用38读取csv文件12

仔细看一下,猕猴桃的数量为0,产地为“不知道”,可能这样的数据不利于分析,那我们就利用na_values参数将这两个数值也变为NaN:

import pandas as pd
df=pd.read_csv("test2.csv",encoding='gbk',na_values=[0,'不知道'])
df

返回:

简单学量化pandas的应用38读取csv文件12

这下符合要求了。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/74897
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 2024 年 7 月 11 日
下一篇 2024 年 7 月 11 日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注