假设我们有一个字符串;我们必须设计一个HTML解析器,它将HTML语法的特殊字符替换为普通字符。HTML实体解析器是将HTML代码作为输入并将特殊字符的所有实体替换为字符本身的解析器。这些是HTML的特殊字符及其实体-
引号-实体为“,符号字符为”。
单引号-实体为',符号字符为'。
&符-实体为&,符号字符为&。
大于符号-实体为>,符号字符为>。
小于符号-实体为<,符号字符为<。
斜线-实体为⁄,符号字符为/。
因此,如果输入就像“&已更改,但&ambassador;未更改。”,则输出将为“&已更改但&ambassador;未更改”。
为了解决这个问题,我们将遵循以下步骤-
定义数组v =通过使用空格分割字符串来初始化v
ret:=空字符串
定义一个映射m,它将所有HTML符号作为键,并将相应的特殊字符作为值
对于初始化i:= 0,当i <v的大小时,更新(将i增加1),执行-
ret:= ret串联空白
ret:= ret串联温度
ret:= ret连接m [temp]
如果v [i,k]与'&'相同,则-
除此以外
ret:= ret +温度
ret:= ret + m [temp]
温度:=温度+ v [i,k]
(将k增加1)
温度:=温度+ v [i,k]
(将k增加1)
而(k <n和v [i,k]不等于';'),则执行-
温度:=温度+ v [i,k]
(将k增加1)
如果temp是m的成员,则-
除此以外
temp:=空字符串
ret:= ret + v [i,k]
(将k增加1)
s:= v [i]
temp:=空字符串
n:= v [i]的大小
k:= 0
当k <n时,-
如果temp的大小不为0并且temp是m的成员,则-
否则,当temp大小时,则-
如果我不等于v的大小,则-
返回ret
让我们看下面的实现以更好地理解-
#include <bits/stdc++.h> using namespace std; class Solution { public: vector <string> split(string& s, char delimiter){ vector <string> tokens; string token; istringstream tokenStream(s); while(getline(tokenStream, token, delimiter)){ tokens.push_back(token); } return tokens; } void out(vector <string> v){ for(string s : v) cout << s << endl; } string entityParser(string text) { vector<string> v = split(text, ' '); string ret = ""; map<string, string> m; m["""] = "\""; m["'"] = "\'"; m["&"] = "&"; m[">"] = ">"; m["<"] = "<"; m["⁄"] = "/"; for (int i = 0; i < v.size(); i++) { string s = v[i]; string temp = ""; int n = v[i].size(); int k = 0; while (k < n) { if (v[i][k] == '&') { temp += v[i][k]; k++; while (k < n && v[i][k] != ';') { temp += v[i][k]; k++; } temp += v[i][k]; k++; if (m.count(temp)) ret += m[temp]; else ret += temp; temp = ""; } else { ret += v[i][k]; k++; } } if (temp.size() && m.count(temp)) { ret += m[temp]; } else if (temp.size()) ret += temp; if (i != v.size() - 1) ret += " "; } return ret; } }; main(){ Solution ob; cout << (ob.entityParser("& is changed but &ambassador; is not.")); }
"& is changed but &ambassador; is not."
输出结果
& is changed but &ambassador; is not.