运行python程序时,我们需要使用数据集进行数据分析。Python具有各种模块,可帮助我们将各种文件格式的外部数据导入python程序。在此示例中,我们将看到如何将各种格式的数据导入python程序。
csv模块使我们能够使用逗号作为分隔符来读取文件中的每一行。我们首先以只读模式打开文件,然后分配定界符。最后,使用for循环从csv文件读取每一行。
import csv with open("E:\\customers.csv",'r') as custfile: rows=csv.reader(custfile,delimiter=',') for r in rows: print(r)
输出结果
运行上面的代码给我们以下结果-
['customerID', 'gender', 'Contract', 'PaperlessBilling', 'Churn'] ['7590-VHVEG', 'Female', 'Month-to-month', 'Yes', 'No'] ['5575-GNVDE', 'Male', 'One year', 'No', 'No'] ['3668-QPYBK', 'Male', 'Month-to-month', 'Yes', 'Yes'] ['7795-CFOCW', 'Male', 'One year', 'No', 'No'] …… …….
pandas库实际上可以处理大多数文件类型,包括csv文件。在该程序中,让我们看一下熊猫库如何使用read_excel模块处理excel文件。在下面的示例中,我们读取了上述文件的excel版本,并在读取文件时获得了相同的结果。
import pandas as pd df = pd.ExcelFile("E:\\customers.xlsx") data=df.parse("customers") print(data.head(10))
输出结果
运行上面的代码给我们以下结果-
customerID gender Contract PaperlessBilling Churn 0 7590-VHVEG Female Month-to-month Yes No 1 5575-GNVDE Male One year No No 2 3668-QPYBK Male Month-to-month Yes Yes 3 7795-CFOCW Male One year No No 4 9237-HQITU Female Month-to-month Yes Yes 5 9305-CDSKC Female Month-to-month Yes Yes 6 1452-KIOVK Male Month-to-month Yes No 7 6713-OKOMC Female Month-to-month No No 8 7892-POOKP Female Month-to-month Yes Yes 9 6388-TABGU Male One year No No
我们还可以使用称为pyodbc的模块连接到数据库服务器。这将帮助我们使用sql查询从关系源导入数据。当然,我们还必须在传递查询之前定义与数据库的连接详细信息。
import pyodbc sql_conn = pyodbc.connect("Driver={SQL Server};Server=serverName;UID=UserName;PWD=Password;Database=sqldb;") data_sql = pd.read_sql_query(SQL QUERY’, sql_conn) data_sql.head()
输出结果
根据SQL查询,将显示结果。