C ++中的HTML实体解析器

假设我们有一个字符串;我们必须设计一个HTML解析器,它将HTML语法的特殊字符替换为普通字符。HTML实体解析器是将HTML代码作为输入并将特殊字符的所有实体替换为字符本身的解析器。这些是HTML的特殊字符及其实体-

  • 引号-实体为“,符号字符为”。

  • 单引号-实体为',符号字符为'。

  • &符-实体为&,符号字符为&。

  • 大于符号-实体为>,符号字符为>。

  • 小于符号-实体为<,符号字符为<。

  • 斜线-实体为⁄,符号字符为/。

因此,如果输入就像“&已更改,但&ambassador;未更改。”,则输出将为“&已更改但&ambassador;未更改”。

为了解决这个问题,我们将遵循以下步骤-

  • 定义数组v =通过使用空格分割字符串来初始化v

  • ret:=空字符串

  • 定义一个映射m,它将所有HTML符号作为键,并将相应的特殊字符作为值

  • 对于初始化i:= 0,当i <v的大小时,更新(将i增加1),执行-

    • ret:= ret串联空白

    • ret:= ret串联温度

    • ret:= ret连接m [temp]

    • 如果v [i,k]与'&'相同,则-

    • 除此以外

    • ret:= ret +温度

    • ret:= ret + m [temp]

    • 温度:=温度+ v [i,k]

    • (将k增加1)

    • 温度:=温度+ v [i,k]

    • (将k增加1)

    • 而(k <n和v [i,k]不等于';'),则执行-

    • 温度:=温度+ v [i,k]

    • (将k增加1)

    • 如果temp是m的成员,则-

    • 除此以外

    • temp:=空字符串

    • ret:= ret + v [i,k]

    • (将k增加1)

    • s:= v [i]

    • temp:=空字符串

    • n:= v [i]的大小

    • k:= 0

    • 当k <n时,-

    • 如果temp的大小不为0并且temp是m的成员,则-

    • 否则,当temp大小时,则-

    • 如果我不等于v的大小,则-

    • 返回ret

    例 

    让我们看下面的实现以更好地理解-

    #include <bits/stdc++.h>
    using namespace std;
    class Solution {
    public:
       vector <string> split(string& s, char delimiter){
          vector <string> tokens;
          string token;
          istringstream tokenStream(s);
          while(getline(tokenStream, token, delimiter)){
             tokens.push_back(token);
          }
          return tokens;
       }
       void out(vector <string> v){
          for(string s : v) cout << s << endl;
       }
       string entityParser(string text) {
          vector<string> v = split(text, ' ');
          string ret = "";
          map<string, string> m;
          m["""] = "\"";
          m["'"] = "\'";
          m["&"] = "&";
          m[">"] = ">";
          m["<"] = "<";
          m["⁄"] = "/";
          for (int i = 0; i < v.size(); i++) {
             string s = v[i];
             string temp = "";
             int n = v[i].size();
             int k = 0;
             while (k < n) {
                if (v[i][k] == '&') {
                   temp += v[i][k];
                   k++;
                   while (k < n && v[i][k] != ';') {
                      temp += v[i][k];
                      k++;
                   }
                   temp += v[i][k];
                   k++;
                   if (m.count(temp))
                      ret += m[temp];
                   else
                      ret += temp;
                   temp = "";
                }
                else {
                   ret += v[i][k];
                   k++;
                }
             }
             if (temp.size() && m.count(temp)) {
                ret += m[temp];
             }
             else if (temp.size())
                ret += temp;
             if (i != v.size() - 1)
                ret += " ";
          }
          return ret;
       }
    };
    main(){
       Solution ob;
       cout << (ob.entityParser("& is changed but &ambassador; is not."));
    }

    输入值

    "& is changed but &ambassador; is not."

    输出结果

    & is changed but &ambassador; is not.