由于汉字是2个字符(这里不讨论可变字符的情形),因此,在C语言中,用一个固定长度的buffer 存放包含汉字的字符串,就有汉字被截断从而导致半个汉字的情形的出现。半个汉字的存在,对字符串的后续处理,会带来一定的麻烦,比如在xml文档、或者SQL语句中,如果存在半个汉字,就会导致xml解析失败,或者sql执行错误的异常。为了解决这个问题,有必要找到并删除半个汉字,或者存放的时候,即便截断,也不产生新的半个汉字。
以下是我近期对半个汉字的处理,C++代码如下:
清泛网注:
其中只需要看一个字节和0x80与运算(& 0x80 )是否不为零,不为零则该字节是汉字的第一个字节,否则是普通的ASCII字符。