17
2011

substr截取中文字符出现乱码的解决方法二则

  • 使用fetch_feed()获取rss数据时,利用substr()函数截取200字节作为内容摘要。但是,substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码

    查了一下,网上大多只提到了使用PHP扩展库方法,即利用mb_substr()代替substr()函数。

    方法定义:string mb_substr ( string str, int start [, int length [, string encoding]] )

    扩展库位置:php.ini中;extension=php_mbstring.dll,去掉前面的分号。

    注意:在使用mb_substr()最后要加入多一个参数,以设定字符串的编码,例如,

    1
    2
    3

    使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

    另外,中文字符常用编码有utf-8和GB2312,一般情况下mb_substr()不能通用于上述两种编码。

    枫芸志给我们提供了另外一个方法,转述如下:

    这里提供一个函数可较好地解决substr遇到中文字符的问题。此函数由UCHome 1.5中的getstr()函数修改而来。

    中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

    function getstr($string, $length, $encoding = ‘utf-8′) {
    $string = trim($string);

    if($length && strlen($string) > $length) {
    //截断字符
    $wordscut = ”;
    if(strtolower($encoding) == ‘utf-8′) {
    //utf8编码
    $n = 0;
    $tn = 0;
    $noc = 0;
    while ($n < strlen($string)) {
    $t = ord($string[$n]);
    if($t == 9 || $t == 10 || (32 $tn = 1;
    $n++;
    $noc++;
    } elseif(194 $tn = 2;
    $n += 2;
    $noc += 2;
    } elseif(224 $tn = 3;
    $n += 3;
    $noc += 2;
    } elseif(240 $tn = 4;
    $n += 4;
    $noc += 2;
    } elseif(248 = $length) {
    break;
    }
    }
    if ($noc > $length) {
    $n -= $tn;
    }
    $wordscut = substr($string, 0, $n);
    } else {
    for($i = 0; $i < $length – 1; $i++) { if(ord($string[$i]) > 127) {
    $wordscut .= $string[$i].$string[$i + 1];
    $i++;
    } else {
    $wordscut .= $string[$i];
    }
    }
    }
    $string = $wordscut;
    }
    return trim($string);
    }

    // 示例
    echo getstr(“0一二三四五六七”,5).’
    ‘; // 0一二

    参考文献:
    [1]枫芸志-【PHP】substr截取中文字符出现乱码的解决方案
    [2]深冬及夕-php中substr截取中文字符乱码的解决方法

    1 条评论

    1. 茵曼2011 年 08 月 19 日 上午 4:45

      第一次来贵博,博客不错,博主写的也不错。继续加油

    shopex 京东模板
    全新2010仿凡客/凡客诚品模板 shopex4.85版 去版权
    shopex模板 修改 定制 ecshop模板
    DEDECMS数据迁移 Dedecms安装调试 dedecms Css修改 Dedecms 模板
    DeDeCms仿站 dede仿站 织梦仿站 模板仿制 模板定制
    [ASP源码]界面清爽的ASP客户关系(CRM)系统源码

    网拓传媒资讯交流群:161412764 
    旺旺:dhplp