TensorFlow Text如何用于预处理序列建模?

TensorFlow Text包含可与TensorFlow 2.0一起使用的与文本相关的类和操作的集合。该库有助于进行基于文本的模型所需的预处理,并包括序列建模所需的其他功能。这些功能在TensorFlow中不存在。

在文本预处理期间使用操作类似于使用Tensorflow图。这意味着用户无需担心训练中的令牌化与干扰时的令牌化不同。Ops还有助于管理预处理脚本。

可以使用以下命令进行安装:

pip install -q tensorflow-text


TensorFlow Text需要TensorFlow 2.0,并且与eager模式和graph模式兼容。

有些操作要求字符串采用UTF-8编码。如果使用其他编码,则可以使用核心Tensorflow对op进行转码以将其转码为UTF-8。如果输入无效,则可以使用相同的op将字符串强制为结构上有效的UTF-8编码。