由于汉字是2个字符(这里不讨论可变字符的情形),因此,在C语言中,用一个固定长度的buffer 存放包含汉字的字符串,就有汉字被截断从而导致半个汉字的情形的出现。半个汉字的存在,对字符串的后续处理,会带来一定的麻烦,比如在xml文档、或者SQL语句中,如果存在半个汉字,就会导致xml解析失败,或者sql执行错误的异常。为了解决这个问题,有必要找到并删除半个汉字,或者存放的时候,即便截断,也不产生新的半个汉字。
以下是我近期对半个汉字的处理,C++代码如下:
// strSrc: 原始字符串
// nMaxLen: 截断后的最大长度
char *GetTruncate(char *strSrc, int nMaxLen)
{
if (strSrc == NULL || nMaxLen == 0)
{
return NULL;
}
int len = strlen(strSrc);
if (len == 0)
{
return strSrc;
}
int size = len; bool bFlag = false;
if (len >= nMaxLen)
{
size = nMaxLen;
bFlag = true;
}
int index = 0; int mid = 0;
for (int i = size - 1; i >= 0; i--)
{
mid = i;
if (!(strSrc[i] & 0x80)) // 找到非汉字的话,立刻停止搜索
{
break;
}
index++;
}
if (bFlag) // 原始字符串的长度比预留的空间要大
{
if (index == 0 || (index % 2) != 0) // 0 or 奇数
{
strSrc[size - 1] = 0;
}
else
{
strSrc[size - 2] = 0;
}
}
else
{
if (index % 2 == 0) // 0 or 偶数
{
strSrc[size] = 0;
}
else
{
strSrc[size - 1] = 0;
}
}
return strSrc;
}
清泛网注:
其中只需要看一个字节和0x80与运算(& 0x80 )是否不为零,不为零则该字节是汉字的第一个字节,否则是普通的ASCII字符。