[Feature] add for new

This commit is contained in:
houbb
2020-01-08 23:47:18 +08:00
parent 81d1399404
commit 200a60c3ba
8 changed files with 44 additions and 0 deletions

View File

@@ -0,0 +1,3 @@
# 字符
全部使用小写+半角的形式匹配。

View File

@@ -0,0 +1,3 @@
# 在遍历的时候
如果是中文,则直接进行替换。

View File

@@ -0,0 +1,7 @@
ffffuuuuccckkk
直接认为是
f xxx
x 如果和上一个字符一样,则直接忽略。

View File

@@ -0,0 +1,9 @@
# 英文
核心是英文停顿词。
# 中文
如果是数字,则中文就会成为停顿词。
有这些字符,直接跳过。

View File

@@ -0,0 +1,11 @@
主要是两个引用:
1中文生成拼音
例如国骂的各种简写,拼音。
感觉比较合适
2数字
对于数字,除却象形,最常用的就是谐音。

View File

@@ -0,0 +1 @@
初始化构造的时候,加入即可。

View File

@@ -0,0 +1,3 @@
如果敏感词在这个列表中,则认为没有命中,直接跳过。
获取在构造的时候,直接移除。

View File

@@ -0,0 +1,7 @@
# 这里比较消耗性能
主要针对国骂+政治非常敏感的个别名词。
你大爷
一句话如果反转之后是敏感词,那应该就是敏感词。