我将向您展示几种从结构化字符串中提取需要的数据/字段的方法。在输入结构的格式为已知格式的情况下,这些方法会有所帮助。
1.让我们创建一种虚拟格式来了解该方法。
Report: <> - Time: <> - Player: <> - Titles: - Country: <>
报表:Daily_Report-时间:2020-10-16T01:01:01.000001-球员:费德勒-冠军:20-国家:瑞士
report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland'
2.我从报告中注意到的第一件事是分隔符“-”。我们将继续以“-”解析报告
fields = report.split(' - ') name, time, player , titles, _ = fields print(f"Output \n *** The report name {name} generated on {time} has {titles} titles for {player}. ")
输出结果
*** The report name Report: Daily_Report generated on Time: 2020-10-10T12:30:59.000000 has Titles: 20 titles for Player: Federer.
3.现在,输出并没有达到预期的效果,因为我们仍然可以看到一些不需要的标签,例如Report:,Time:,Player:。
# extract only report name formatted_name = name.split(':')[1] # extract only player formatted_player = player.split(':')[1] # extract only titles formatted_titles = int(titles.split(':')[1]) # extract only titles new_time = time.split(': ')[1] print(f"Output \n {formatted_name} , {new_time}, {formatted_player} , {formatted_titles}")
输出结果
Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20
4.现在,时间戳为ISO格式,如果您想保留或保留原样,可以将其拆分。让我向您展示如何拆分时间戳字段。
from datetime import datetime formatted_date = datetime.fromisoformat(new_time) print(f"Output \n{formatted_date}")
输出结果
2020-10-10 12:30:59
现在,我们将所有这些步骤组合为一个功能。
def parse_function(log): """ Function : Parse the given log in the format Report: <> - Time: <> - Player: <> - Titles: - Country: <> Args : log Return : required data """ fields = log.split(' - ') name, time, player , titles, _ = fields # extract only report name formatted_name = name.split(':')[1] # extract only player formatted_player = player.split(':')[1] # extract only titles formatted_titles = int(titles.split(':')[1]) # extract only titles new_time = time.split(': ')[1] return f"{formatted_name} , {new_time}, {formatted_player} , {formatted_titles}" if __name__ == '__main__': report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland' data = parse_function(report) print(f"Output \n{data}")
输出结果
Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20
6.我们可以使用parse模块使它变得简单一些。如您所见,格式创建一个模板。我们可以使用parse模块更轻松地执行此操作。
首先通过以下方式安装解析模块:-pip install parse
from parse import parse report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland' # Looking at the report, create a template template = 'Report: {name} - Time: {time} - Player: {player} - Titles: {titles} - Country: {country}' # Run parse and check the results data = parse(template, report) print(f"Output \n{data}")
输出结果
<Result () {'name': 'Daily_Report', 'time': '2020-10-10T12:30:59.000000', 'player': 'Federer', 'titles': '20', 'country': 'Switzerland'}>
7.使用一个简单的衬纸,我们就可以通过定义模板从日志中提取数据。现在让我们提取单个值。
print(f"Output \n {data['name']} - {data['time']} - {data['player']} - {data['titles']} - {data['country']}")
输出结果
Daily_Report - 2020-10-10T12:30:59.000000 - Federer - 20 - Switzerland
您已经看到了几种从日志文件中解析所需数据的方法。最好定义模板,然后使用解析模块提取所需的数据。