jarlyyn 发表于 2024-9-6 19:54:22

[一天一个小禁招][新人有手就行]怎么区分中文和特殊符号

北侠很多任务是把中文和符号混杂在一起的,需要从中文排除出符号的干扰。

这时候怎么办?

正则?

正则其实会误判。

最简单的方法,就是不是单字节的,不是中文的,都是符号。

这句话啥意思呢?

往上搜索中文汉字表,常用的分为 一级汉字,二级汉字,三级汉字,放在一个txt里。

脚本加载时读出数据,一个一个放在大table里,设为true。

然后每个字符在表里匹配一下,就知道是不是中文,是不是特殊符号了。

简单暴力,新人友好。

(我猜这个帖子不会被拉黑,嘿嘿嘿。)

case 发表于 2024-9-6 21:33:21

那换个思路,其实机器可以不用人盯着,好的机器就是盲猜。所以使用 utf-8 的客户端使用 gbk,gbk 的客户端使用 utf-8,这样就完全可以避免出错,因为人会,机器不会。

harrychencyh 发表于 2024-9-6 21:37:17

为什么人会机器不会?我既不会看uft-8在gbk格式下的乱码,也不会看gbk在utf8格式下的乱码呀?

case 发表于 2024-9-6 21:39:24

人是看字,机器只看代码,说白了就是只知道 01 二进制,人可能会吧。和.看错,但是机器不会

jarlyyn 发表于 2024-9-6 21:53:49

case 发表于 2024-9-6 09:33 PM
那换个思路,其实机器可以不用人盯着,好的机器就是盲猜。所以使用 utf-8 的客户端使用 gbk,gbk 的客户端 ...

实际上,这是个很好的思路。

不然你想想怎么提取出文本中的中文。
页: [1]
查看完整版本: [一天一个小禁招][新人有手就行]怎么区分中文和特殊符号