Dask是并行计算的python库,主要用于跨多个系统运行。Dask用于在其他计算机群集上有效地处理数据。Dask可以完全使用机器中可用的所有内核。
Dask将完整的数据存储在磁盘上,并使用磁盘中的数据块进行处理。达斯克借助Pandas数据框和“ numpy数组”来分析大型数据集。
基本上,dask数组是分布式的“ numpy数组”。大的“ numpy数组”分为较小的数组,它们组合在一起形成dask数组。
使用以下命令进行安装:
pip install dask
Daskarray.asarray用于将给定的输入转换为dask数组。它将列表,元组,numpy数组转换为dask数组。
程序创建一个dask数组:
范例1:
importdask.arrayas p rk = [1,2,3,4,5] #将列表转换为dask数组 d=p.asarray(rk) print(d.compute()) #d的打印类型 print(type(d)) r = (1,2,3) #将元组转换为dask数组 k=p.asarray(r) print(k.compute()) #k的打印类型 print(type(k))
输出结果
[1 2 3 4 5] <class 'dask.array.core.Array'> [1 2 3] <class 'dask.array.core.Array'>
范例2:
importdask.arrayas p import numpy as np #创建一个numpy数组 r=np.arange(5) print(r) #numpy数组的打印类型 print(type(r)) #将numpy数组转换为dask数组 d=p.asarray(r) print(d.compute()) print(type(d)) t=np.array([1,2,3]) print(t) #numpy数组的打印类型 print(type(t)) #将numpy数组转换为dask数组 f=p.asarray(t) print(f.compute()) #d的打印类型ask array print(type(f))
输出结果
[0 1 2 3 4] <class 'numpy.ndarray'> [0 1 2 3 4] <class 'dask.array.core.Array'> [1 2 3] <class 'numpy.ndarray'> [1 2 3] <class 'dask.array.core.Array'>