Python中的Dask数组

Python Dask数组

Dask是并行计算的python库,主要用于跨多个系统运行。Dask用于在其他计算机群集上有效地处理数据。Dask可以完全使用机器中可用的所有内核。

Dask将完整的数据存储在磁盘上,并使用磁盘中的数据块进行处理。达斯克借助Pandas数据框和“ numpy数组”分析大型数据集。

基本上,dask数组是分布式的“ numpy数组”。大的“ numpy数组”分为较小的数组,它们组合在一起形成dask数组

使用以下命令进行安装:

    pip install dask

Daskarray.asarray用于将给定的输入转换为dask数组。它将列表,元组,numpy数组转换为dask数组

程序创建一个dask数组:

范例1:

importdask.arrayas p 

rk = [1,2,3,4,5] 	#将列表转换为dask数组 
d=p.asarray(rk) 
print(d.compute()) 	#d的打印类型 
print(type(d)) 

r = (1,2,3) 		#将元组转换为dask数组 
k=p.asarray(r) 

print(k.compute()) 	#k的打印类型 
print(type(k))

输出结果

[1 2 3 4 5]
<class 'dask.array.core.Array'>
[1 2 3]
<class 'dask.array.core.Array'>

范例2:

importdask.arrayas p 
 import numpy as np 
 
 #创建一个numpy数组 
 r=np.arange(5) 
 print(r) 		#numpy数组的打印类型 
 print(type(r)) 	#将numpy数组转换为dask数组 
 
 d=p.asarray(r) 
 print(d.compute()) 
 print(type(d)) 
 
 t=np.array([1,2,3]) 
 print(t) 		#numpy数组的打印类型 
 print(type(t)) 	#将numpy数组转换为dask数组 
 
 f=p.asarray(t) 
 print(f.compute()) #d的打印类型ask array 
 print(type(f))

输出结果

[0 1 2 3 4]
<class 'numpy.ndarray'>
[0 1 2 3 4]
<class 'dask.array.core.Array'>
[1 2 3]
<class 'numpy.ndarray'>
[1 2 3]
<class 'dask.array.core.Array'>