Utf-8

众所周知（划掉），UTF-8是一种可变长度字符编码，即每个字符会占用不等数量(1-4个)的byte。例如，一个英文字母只占用1个byte，而大部分汉字需要2个byte来储存。因此，传统的strlen（统计字符串byte数量）来获取字符数的方式就变得不准确了。这就是为什么某些网站输入框会把一个汉字误认为是两个字的原因。 ...