Python Pandas 如何shuffle（打乱）数据

在Python里面，使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法，本文介绍两种比较常用而且简单的方法。

应用情景：

我们有下面以个DataFrame

我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的，我们希望不保持这个次序，但是同时列属性又不能改变，即如下效果：

实现方法：

最简单的方法就是采用pandas中自带的 sample这个方法。

假设df是这个DataFrame

df.sample(frac=1)

这样对可以对df进行shuffle。其中参数frac是要返回的比例，比如df中有10行数据，我只想返回其中的30%,那么frac=0.3。

有时候，我们可能需要打混后数据集的index（索引）还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)

-------------------------------------分割线--------------------------------------------------------------

其实，sklearn(机器学习的库）中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

另外，numpy库中也有进行shuffle的方法（不建议）

df.iloc[np.random.permutation(len(df))]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持呐喊教程。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：notice#nhooo.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

基础教程