如何从Python的结构化字符串中提取所需数据?

介绍...

我将向您展示几种从结构化字符串中提取需要的数据/字段的方法。在输入结构的格式为已知格式的情况下,这些方法会有所帮助。

怎么做..

1.让我们创建一种虚拟格式来了解该方法。

Report: <> - Time: <> - Player: <> - Titles: - Country: <>

报表:Daily_Report-时间:2020-10-16T01:01:01.000001-球员:费德勒-冠军:20-国家:瑞士

report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland'

2.我从报告中注意到的第一件事是分隔符“-”。我们将继续以“-”解析报告

fields = report.split(' - ')
name, time, player , titles, _ = fields

print(f"Output \n *** The report name {name} generated on {time} has {titles} titles for {player}. ")

输出结果

*** The report name Report: Daily_Report generated on Time: 2020-10-10T12:30:59.000000 has Titles: 20 titles for Player: Federer.

3.现在,输出并没有达到预期的效果,因为我们仍然可以看到一些不需要的标签,例如Report:,Time:,Player:。

# extract only report name
formatted_name = name.split(':')[1]

# extract only player
formatted_player = player.split(':')[1]

# extract only titles
formatted_titles = int(titles.split(':')[1])

# extract only titles
new_time = time.split(': ')[1]

print(f"Output \n {formatted_name} , {new_time}, {formatted_player} , {formatted_titles}")

输出结果

Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20

4.现在,时间戳为ISO格式,如果您想保留或保留原样,可以将其拆分。让我向您展示如何拆分时间戳字段。

from datetime import datetime
formatted_date = datetime.fromisoformat(new_time)

print(f"Output \n{formatted_date}")

输出结果

2020-10-10 12:30:59
  • 现在,我们将所有这些步骤组合为一个功能。

def parse_function(log):
"""
Function : Parse the given log in the format
Report: <> - Time: <> - Player: <> - Titles: - Country: <>
Args : log
Return : required data
"""
fields = log.split(' - ')
name, time, player , titles, _ = fields

# extract only report name
formatted_name = name.split(':')[1]

# extract only player
formatted_player = player.split(':')[1]

# extract only titles
formatted_titles = int(titles.split(':')[1])

# extract only titles
new_time = time.split(': ')[1]

return f"{formatted_name} , {new_time}, {formatted_player} , {formatted_titles}"

if __name__ == '__main__':
report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland'
data = parse_function(report)
print(f"Output \n{data}")

输出结果

Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20

6.我们可以使用parse模块使它变得简单一些。如您所见,格式创建一个模板。我们可以使用parse模块更轻松地执行此操作。

首先通过以下方式安装解析模块:-pip install parse

from parse import parse
report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland'

# Looking at the report, create a template
template = 'Report: {name} - Time: {time} - Player: {player} - Titles: {titles} - Country: {country}'

# Run parse and check the results
data = parse(template, report)
print(f"Output \n{data}")

输出结果

<Result () {'name': 'Daily_Report', 'time': '2020-10-10T12:30:59.000000', 'player': 'Federer', 'titles': '20', 'country': 'Switzerland'}>

7.使用一个简单的衬纸,我们就可以通过定义模板从日志中提取数据。现在让我们提取单个值。

print(f"Output \n {data['name']} - {data['time']} - {data['player']} - {data['titles']} - {data['country']}")

输出结果

Daily_Report - 2020-10-10T12:30:59.000000 - Federer - 20 - Switzerland

结论:

您已经看到了几种从日志文件中解析所需数据的方法。最好定义模板,然后使用解析模块提取所需的数据。

猜你喜欢