mirror of
https://github.com/houbb/sensitive-word.git
synced 2026-03-22 08:27:36 +08:00
[Feature] add for new
This commit is contained in:
3
doc/issues/roadmap/v004-实现标点英文全角半角转换.md
Normal file
3
doc/issues/roadmap/v004-实现标点英文全角半角转换.md
Normal file
@@ -0,0 +1,3 @@
|
||||
# 字符
|
||||
|
||||
全部使用小写+半角的形式匹配。
|
||||
3
doc/issues/roadmap/v005-繁简体转换实现.md
Normal file
3
doc/issues/roadmap/v005-繁简体转换实现.md
Normal file
@@ -0,0 +1,3 @@
|
||||
# 在遍历的时候
|
||||
|
||||
如果是中文,则直接进行替换。
|
||||
7
doc/issues/roadmap/v006-重复词的处理.md
Normal file
7
doc/issues/roadmap/v006-重复词的处理.md
Normal file
@@ -0,0 +1,7 @@
|
||||
ffffuuuuccckkk
|
||||
|
||||
直接认为是
|
||||
|
||||
f xxx
|
||||
|
||||
x 如果和上一个字符一样,则直接忽略。
|
||||
9
doc/issues/roadmap/v007-停顿词的处理.md
Normal file
9
doc/issues/roadmap/v007-停顿词的处理.md
Normal file
@@ -0,0 +1,9 @@
|
||||
# 英文
|
||||
|
||||
核心是英文停顿词。
|
||||
|
||||
# 中文
|
||||
|
||||
如果是数字,则中文就会成为停顿词。
|
||||
|
||||
有这些字符,直接跳过。
|
||||
11
doc/issues/roadmap/v008-拼音的处理.md
Normal file
11
doc/issues/roadmap/v008-拼音的处理.md
Normal file
@@ -0,0 +1,11 @@
|
||||
主要是两个引用:
|
||||
|
||||
(1)中文生成拼音
|
||||
|
||||
例如国骂的各种简写,拼音。
|
||||
|
||||
感觉比较合适
|
||||
|
||||
(2)数字
|
||||
|
||||
对于数字,除却象形,最常用的就是谐音。
|
||||
1
doc/issues/roadmap/v009-自定义黑名单的处理.md
Normal file
1
doc/issues/roadmap/v009-自定义黑名单的处理.md
Normal file
@@ -0,0 +1 @@
|
||||
初始化构造的时候,加入即可。
|
||||
3
doc/issues/roadmap/v010-自定义白名单的处理.md
Normal file
3
doc/issues/roadmap/v010-自定义白名单的处理.md
Normal file
@@ -0,0 +1,3 @@
|
||||
如果敏感词在这个列表中,则认为没有命中,直接跳过。
|
||||
|
||||
获取在构造的时候,直接移除。
|
||||
7
doc/issues/roadmap/v011-镜像反转处理.md
Normal file
7
doc/issues/roadmap/v011-镜像反转处理.md
Normal file
@@ -0,0 +1,7 @@
|
||||
# 这里比较消耗性能
|
||||
|
||||
主要针对国骂+政治非常敏感的个别名词。
|
||||
|
||||
你大爷
|
||||
|
||||
一句话如果反转之后是敏感词,那应该就是敏感词。
|
||||
Reference in New Issue
Block a user