codflow

Trie树敏感词检测及优化

1 摘要 业务涵盖C端用户提交文本输入功能,需要进行内容审查控制。商品评论等互动即时需要,要对文本进行敏感词检测及模糊处理, 并风险提示。实现基础敏感词检测,采用Trie树组织字典,针对业务场景进行组织多词典及歧义处理,达到更准确识别效果 2 方案设计 基于 Trie 树的词检查, 改造开源分词方案 analyze-ik, 实现敏感词检测。 模块功能需求: 1- 检测并去除评论中的敏感词汇 2- 词典包括基础初始配置,热加载 3-词典租户隔离 1.2 核心功能 Trie (也称为基数树或前缀树)是基于树的数据结构,通常节点存储的是字符串。它和 HashMap 类似存儲的是关联数组结构,但它的每个节点存的是部分的字符串数据。HashMap 仅支持完 全匹配的查找,Trie更支持前缀匹配 (不然怎么叫前缀树)。例如在文本"场上有杂耍", 在哈希表中只能精准匹配"广场上有杂耍"
8 min read
浙ICP备20020600号-1