用正则,从指定起始位置,在源字符串之中截取定长字符串
[代码]用正则, 从指定起始位置, 在源字符串之中截取定长字符串(含中文)[第四版]
[代码]用正则, 从指定起始位置开始, 在源字符串之中截取一定长度的字符串[第四版]
[代码]使用正则表达式, 从指定的起始位置开始, 在源字符串之中截取一定长度的字符串[第四次修正]
[代码]使用正则表达式, 从字符串头部开始, 在源字符串之中截取一定字节长度的字符串
[代码]使用正则表达式, 从指定的起始位置开始, 在源字符串之中截取一定长度的字符串
(BTW: 中文编码很复杂也有些不合理的地方 高位是 0xa1-0xfe (不含 0xff 因为 0xff即 255在telnet协议中有重要作用), 低位 0x40-0xfe; 而 GBK 为了和 unicode 映射把高位扩展到了 0x81-0xfe
对于最后字节是否截取错误中文的说明:
最后一个字节,假如截取了中文的一半,那么应该是高位字节,其ASCII码大于0x81的。
因为中文的高位字节都是大于0x81的,而低位字节不限。
一个完整的汉字:[0x81-0xfe][0x40-0xfe]
故使用正则表达式,依次取出汉字和非汉字,汉字优先。
最后一个字节,假如截取了中文的一半,那么她将是一个非汉字,而且是汉字的高位字节
而判定这个字节是否在[0x81-0xfe],即可知道是否截取错误。
<?php // -------------------------------------------------------------------------- // File name : preg_substr.php // Description : 使用正则表达式, 从指定的起始位置开始, 在源字符串之中截取一定程度的字符串 // Requirement : PHP4 (http://www.php.net) // // Copyright(C), HonestQiao, 2005, All Rights Reserved. // // Author: HonestQiao (honestqiao@hotmail.com) // // -------------------------------------------------------------------------- /// 函数说明 /// 函数名称 : preg_substr /// 函数版本 : 第四次修订 /// 函数功能 : 使用正则表达式, 从指定的起始位置开始, 在源字符串之中截取一定程度的字符串 /// 函数参数 : /// $strSource : 源字符串 /// $intStart : 起始位置, 默认为0表示从头开始 /// $intLen : 截取长度, 默认为32 function preg_substr($strSource, $intStart=0, $intLen=32) { is_int($intLen) ?0:die("len isn't a integer"); is_int($intStart) ?0:die("start isn't a integer"); if ($intStart>=0 && $intLen>0 && @preg_match('/^(.{'.$intStart.'})(.{0,'.$intLen.'})/si', $strSource)) { @preg_match('/^(.{'.$intStart.'})(.{0,'.$intLen.'})/si', $strSource, $regs); @preg_match_all('/([\\x81-\\xFE].|.)/sim', $regs[1], $regs1, PREG_PATTERN_ORDER); @preg_match('/^[\\x81-\\xFE]$/',$regs1[1][count($regs1[1])-1])?$intStart--:0; @preg_match('/^(.{'.$intStart.'})(.{0,'.$intLen.'})/si', $strSource, $regs); @preg_match_all('/([\\x81-\\xFE].|.)/sim', $regs[2], $regs1, PREG_PATTERN_ORDER); @preg_match('/^[\\x81-\\xFE]$/',$regs1[1][count($regs1[1])-1])?$intLen--:0; @preg_match('/^(.{'.$intStart.'})(.{0,'.$intLen.'})/si', $strSource, $regs); $strResult = $regs[2]; }else{ $strResult = ""; } return $strResult; } function preg_substr2($strSource, $intStart=0, $intLen=32) { is_int($intLen) ?0:die("len isn't a integer"); is_int($intStart) ?0:die("start isn't a integer"); if ($intStart>=0 && $intLen>=0) { $strResult = substr($strSource, 0, $intStart); @preg_match_all('/([\\x81-\\xFE].|.)/sim', $strResult, $regs, PREG_PATTERN_ORDER); if(@preg_match('/^[\\x81-\\xFE]$/',$regs[1][count($regs[1])-1], $regs)){ $intStart--; } $strResult = substr($strSource, $intStart, $intLen); @preg_match_all('/([\\x81-\\xFE].|.)/sim', $strResult, $regs, PREG_PATTERN_ORDER); if(@preg_match('/^[\\x81-\\xFE]$/',$regs[1][count($regs[1])-1], $regs)){ $strResult = substr($strSource, $intStart, --$intLen); } } return $strResult; } $strHTML = <<<HTML ab﨎,cd刚刚抵达首尔开始对韩国进行国事访问的中国国家主席胡锦涛16日下午在青瓦台同韩国总统卢武铉举行会谈。双方就双边关系和共同关心的国际和地区问题 HTML; $intT1 = time(); for($j=0; $j<10; $j++){ for($i=0; $i<10; $i++){ $strResult = preg_substr($strHTML, $j, $i); echo("preg_substr(string, $j, $i)=$strResult\n"); } } $intT2 = time(); printf("%d - %d = %d\n\n", $intT1, $$intT2, ($intT2-$intT1)); $intT1 = time(); for($j=0; $j<10; $j++){ for($i=0; $i<10; $i++){ $strResult = preg_substr2($strHTML, $j, $i); echo("preg_substr2(string, $j, $i)=$strResult\n"); } } $intT2 = time(); printf("%d - %d = %d\n\n", $intT1, $$intT2, ($intT2-$intT1)); ?>
永久地址:http://www.phprm.com/base/e8e51f0a8fb5209357e4c1ffe924155f.html
转载随意~请带上教程地址吧^^