如何在Python Pandas中使用模板将新行追加到DataFrame。
作为数据工程专家,我经常会创建比行更多的派生列,因为创建数据并将数据发送给我进行分析的作用应该由其他数据库专家来负责。但是,并非始终如此。
我们必须创建示例行,而不是等待数据专家团队向我们发送数据。在本主题中,我将展示创建行的巧妙技巧。
在本食谱中,我们将首先将行添加到具有.loc属性的小型数据集中,然后将使用.append方法。
1.让我们从创建一个数据框开始,以后再添加行。
import pandas as pd import numpy as np players_info = pd.DataFrame(data=[ {"players": "Roger Federer", "titles": 20}, {"players": "Rafael Nadal", "titles": 20}, {"players": "Novak Djokovic", "titles": 17}, {"players": "Andy Murray", "titles": 3}], columns=["players", "titles"])
print(players_info.info())
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4 entries, 0 to 3 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 players 4 non-null object 1 titles 4 non-null int64 dtypes: int64(1), object(1) memory usage: 192.0+ bytes None
1.现在,让我们使用.loc属性将新播放器“ Dominic Theim”添加到数据框。
new_Player = ['Dominic Theim', 1] players_info.loc[4] = new_Player
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1
1.使用相同的.loc属性,让我们将新行添加到数据帧的末尾。在这里,我将展示如何向数据框添加字典。
new_player = {'players': 'Daniel Medvedev', 'titles': 0} players_info.loc[len(players_info)] = new_player
输出结果
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1 5 Daniel Medvedev 0
1.我们还可以将保存数据的熊猫系列添加到数据框中。
players_info.loc[len(players_info)] = pd.Series({'players': 'Andy Zverev', 'titles': 0})
输出结果
print(players_info)
players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Dominic Theim 1 5 Daniel Medvedev 0 6 Andy Zverev 0
结论
我们使用.loc方法在以上4个步骤中添加了数据。.loc属性对DataFrame进行适当的更改。
在接下来的几个步骤中,我们将查看.append方法,该方法不会修改调用的DataFrame,而是返回带有附加行的DataFrame的新副本。
.append的第一个参数必须是另一个DataFrame,Series,Dictionary或列表。
# Create a DataFrame with index players_info = pd.DataFrame(data=[ {"players": "Roger Federer", "titles": 20}, {"players": "Rafael Nadal", "titles": 20}, {"players": "Novak Djokovic", "titles": 17}, {"players": "Andy Murray", "titles": 3}], columns=["players", "titles"], index=["roger", "nadal", "djokovic", "murray"])
# Add a new row(dictionary) to DataFrame using .append method. players_info.append({'players': 'Daniel Medvedev', 'titles': 0})
--------------------------------------------------------------------------- TypeError Traceback (most recent call last) --------------------------------------------------------------------------- TypeError Traceback (most recent call last) in 1 # Add a new row(dictionary) to DataFrame using .append method. ----> 2 players_info.append({'players': 'Daniel Medvedev', 'titles': 0}) ~\anaconda3\lib\site-packages\pandas\core\frame.py in append(self, other, ignore_index, verify_integrity, sort) 7046 other = Series(other) 7047 if other.name is None and not ignore_index: -> 7048 raise TypeError( 7049 "Can only append a Series if ignore_index=True " 7050 "or if the Series has a name"
TypeError仅当ignore_index = True或系列具有名称时,才能追加系列
当我尝试追加字典时,它引发了一个异常,要求我们使用参数ignore_index = True。因此,让我添加此建议的参数并查看其作用。
new_df = players_info.append({'players': 'Daniel Medvedev', 'titles': 0}, ignore_index=True)
输出结果
print(f" *** Original with index \n {players_info} \n\n\n *** Modified index \n {new_df}")
*** Original with index players titles roger Roger Federer 20 nadal Rafael Nadal 20 djokovic Novak Djokovic 17 murray Andy Murray 3 *** Modified index players titles 0 Roger Federer 20 1 Rafael Nadal 20 2 Novak Djokovic 17 3 Andy Murray 3 4 Daniel Medvedev 0
在我使用ignore_index = True参数后,您从输出中观察到了什么?是的,当ignore_index设置为True时,旧索引将被完全删除并替换为范围从0到n-1的RangeIndex。
如果您想一次向DataFrame添加许多行,则.append方法非常有用。
player1 = pd.Series({'players': 'Andy Zverev', 'titles': 0}, name='zverev') player2 = pd.Series({'players': 'Dominic Theim', 'titles': 1}, name='theim') new_df_1 = players_info.append([player1, player2])
输出结果
print(new_df_1)
players titles roger Roger Federer 20 nadal Rafael Nadal 20 djokovic Novak Djokovic 17 murray Andy Murray 3 zverev Andy Zverev 0 theim Dominic Theim 1
好的,现在您已经了解了如何添加行的基础知识,我们将深入研究如何在具有许多列的数据框中添加行。
df = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")
输出结果
print(df.info())
<class 'pandas.core.frame.DataFrame'> RangeIndex: 4803 entries, 0 to 4802 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 budget 4803 non-null int64 1 id 4803 non-null int64 2 original_language 4803 non-null object 3 original_title 4803 non-null object 4 popularity 4803 non-null float64 5 release_date 4802 non-null object 6 revenue 4803 non-null int64 7 runtime 4801 non-null float64 8 status 4803 non-null object 9 title 4803 non-null object 10 vote_average 4803 non-null float64 11 vote_count 4803 non-null int64 dtypes: float64(3), int64(4), object(5) memory usage: 450.4+ KB None
这个来自Google的数据集有12列,如果您手动输入新的数据行,很容易输错列名或完全忘记其中的一个。那么如何避免这个问题呢?好吧,有一种方法,只需创建一个列名模板即可。
columns_dictionary = df.iloc[0].to_dict()
##### Output:
print(columns_dictionary)
{'budget': 237000000, 'id': 19995, 'original_language': 'en', 'original_title': 'Avatar', 'popularity': 150.437577, 'release_date': '10/12/2009', 'revenue': 2787965087, 'runtime': 162.0, 'status': 'Released', 'title': 'Avatar', 'vote_average': 7.2, 'vote_count': 11800}
因此,您可能现在已经知道我们已经将第一行转换为字典。好的,我们也获得了列和值,现在让我们通过字典理解来清除旧值,将所有先前的字符串值分配为空字符串,将所有其他字符串值分配为缺失值。
该词典现在可以用作您要输入的任何新数据的模板。
import datetime new_data_dict = {} for a, b in columns_dictionary.items(): if isinstance(b, str): new_data_dict[a] = np.random.choice(list('abcde')) elif isinstance(b, datetime.date): new_data_dict[a] = np.nan else: new_data_dict[a] = np.nan
输出结果
print(new_data_dict)
{'budget': nan, 'id': nan, 'original_language': 'e', 'original_title': 'a', 'popularity': nan, 'release_date': 'b', 'revenue': nan, 'runtime': nan, 'status': 'e', 'title': 'c', 'vote_average': nan, 'vote_count': nan}