[一天一个小禁招][新人有手就行]怎么区分中文和特殊符号
北侠很多任务是把中文和符号混杂在一起的,需要从中文排除出符号的干扰。这时候怎么办?
正则?
正则其实会误判。
最简单的方法,就是不是单字节的,不是中文的,都是符号。
这句话啥意思呢?
往上搜索中文汉字表,常用的分为 一级汉字,二级汉字,三级汉字,放在一个txt里。
脚本加载时读出数据,一个一个放在大table里,设为true。
然后每个字符在表里匹配一下,就知道是不是中文,是不是特殊符号了。
简单暴力,新人友好。
(我猜这个帖子不会被拉黑,嘿嘿嘿。)
那换个思路,其实机器可以不用人盯着,好的机器就是盲猜。所以使用 utf-8 的客户端使用 gbk,gbk 的客户端使用 utf-8,这样就完全可以避免出错,因为人会,机器不会。 为什么人会机器不会?我既不会看uft-8在gbk格式下的乱码,也不会看gbk在utf8格式下的乱码呀? 人是看字,机器只看代码,说白了就是只知道 01 二进制,人可能会吧。和.看错,但是机器不会 case 发表于 2024-9-6 09:33 PM
那换个思路,其实机器可以不用人盯着,好的机器就是盲猜。所以使用 utf-8 的客户端使用 gbk,gbk 的客户端 ...
实际上,这是个很好的思路。
不然你想想怎么提取出文本中的中文。
页:
[1]