之前我们简单的介绍了一下HDF5(简单学Python——HDF5 数据文件1——创建和追加数据),DHF5是一种非常方便保存数据的文件,有着数据库的性能,但不用像数据库那样设计和规划,降低了分类保存数据的门槛。
今天我们学习用pandas追加数据和去重。有一些每天都更新了数据,如股票行情,我们在保存了历史数据之后,就要及时更新,最好做到每天更新。更新的时候,容易少更新了或者添加上了重复行,今天我们就学习一下追加数据及如何避免缺少或重复数据。
追加数据:
dataframe.to_hdf('data.h5',key='yourkey', append=True, mode='r+', format='t')
追加数据用dataframe的to_hdf方法,括号内的参数为hdf5文件名、文件的key(相当于表格名称),后面三个参数的意思是以后可以追加。
避免漏掉,用if判断一下,只要key不在hdf5中,就追加上数据。:
if not (('要添加的新表的key') in pandas.HDFStore('data.h5').keys())
数据去重:
pandas.HDFStore('data.h5')['yourkey'].drop_duplicates()
去重的标准为两个或以上完全一样的行,将只保留一行。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/75009
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!