注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

@fc_lamp

关注Web应用解决方案MySql/PHP/Python一盏名为"飞川"的灯~

 
 
 

日志

 
 

PHP正则表达式,关于PHP正则表达式的问题  

2009-08-20 23:18:00|  分类: Web技术-正则表达 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

PHP正则表达式,关于PHP正则表达式的问题

   正则表达式确是一个很强大的东东,值的学习学习,以下是关于PHP正则表达式的高级部分。(什么是正则表达式,PHP正则表达式)

(另注:此文不是我所原创,作者:列旭松)

因第一次投稿,如有错误,请多多包涵。

说起,可以一直上溯至对人类神经系统如何的早期研究。Warren McCulloch和Walter Pitts这两位神经生理学家研究出一种数学方式来描述这些神经网络。

1956年,一位叫Stephen Kleene的美国数学家在McCulloch和Pitts早期工作的基础上,发表了一篇标题为“神经网事件的表示法”的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为“正则集的代数”的表达式,因此采用“正则表达式”这个术语。

随后,发现可以将这一工作应用于使用Ken Thompson的计算搜索算法的一些早期研究,Ken Thompson是Unix的主要发明人。正则表达式的第一个实用应用程序就是Unix中的qed编辑器。

这个主要是为了提高大家对正则表达式的认识和的使用。

1 使用正则表达式来检测是否关闭

function check_html($html) {
    preg_match_all("/<([a-zA-Z0-9]+)\\s*[^\\/>]*>/",$html,$start_tags);
    preg_match_all("/<
\\/([a-zA-Z0-9]+)>/", $html, $end_tags);
    if(count($start_tags[1]) != count($end_tags[1])) return false;
    for($i = 0; $i < count($start_tags[1]); $i++) {
        if(!in_array($start_tags[1][$i], $end_tags[1])) return false;
    }
    return true;
}

解释:

/<([a-zA-Z0-9]+)\\s*[^\\/>]*>/这个模式是用来匹配HTML的标记(如:<head>、<div>、<div id="main">等等,但是除了<br/>这种)的,并且在$start_tags保持着标签的名字(如:head、div等)。而/<\\/([a-zA-Z0-9]+)>/这个模式是用来匹配闭合的HTML标记(如:</head>,</div>等)的。并且在$end_tags中保持这闭合的标签名。然后我们用count($start_tags[1]) != count($end_tags[1])这个条件语句来判断开始的标记跟闭合的标记是否相等,不相等就说明没闭合。最后用in_array($start_tags[1][$i], $end_tags[1])来判断开始标跟闭合的标记是否相等。至此,我们就完成了HTML的匹配了!

2 匹配E-mail格式

function check_email($email) {
        if(preg_match("/^[\w\d!#$%&'*+-\/=?^`{|}~]+(\.[\w\d!#$%&'*+-\/=?^`{|}~]+)*@([a-z\d][-a-z\d]*[a-z\d]\.)+[a-z][-a-z\d]*[a-z]$/", $eamil)) return true;
        return false;
}

解释:

不要被/^[\w\d!#$%&'*+-\/=?^`{|}~]+(\.[\w\d!#$%&'*+-\/=?^`{|}~]+)*@([a-z\d][-a-z\d]*[a-z\d]\.)+[a-z][-a-z\d]*[a-z]$/这条模式给吓跑了,其实也很简单的。前部分[\w\d!#$%&'*+-\/=?^`{|}~]+(\.[\w\d!#$%&'*+-\/=?^`{|}~]+)*只是匹配符合RFC-2882标准的E-mail地址允许出现的字符,就是英文字母,数字跟一些符号,有兴趣可以查询RFC-2882手册,而([a-z\d][-a-z\d]*[a-z\d]\.)+就是匹配HOST的。最后[a-z][-a-z\d]*[a-z]就是匹配顶级域名的(如:.com、.org)。

3 非贪心模式

有时候使用正则表达式的时候,你会发现有以下的问题:

preg_match('/".*"/', 'Tony say:"hello", Jack say: "Hi"', $matches);
print_r($matches);

很惊奇的你会发现匹配的是这样的内容"hello", Jack say: "Hi",而不是"hello"和"Hi"。这就是贪心匹配引起的。在贪心匹配中,正则表达式会尽可能的匹配最多的字符,所以出现了第一种情况,但是我们想要的是第二种情况,那我们要怎么做呢?

我们可以使用非贪心匹配,将刚才的模式改为/".*?"/这样就可以看见我们想要的结果了。*?这个就是非贪心匹配模式。还有另外一种就是+?。
? *?:前面的字符可以出现任意多次,但是遇到*?后的一个字符即停止匹配。
? +?:前面的字符可以出现一次或者多次,但是遇到+?后的一个字符即停止匹配。

4 检测一个用户密码是否安全

function is_good_pw($pw) {
    if(preg_match('/(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z]).{8,16}/', $pw)) {
        return true;
    }
    return false;
}

解释:

在本例中,我们使用了/(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z]).{8,16}/模式来匹配我们的密码。在这个模式中,我们使用了正则表达式中的前瞻模式(?=)。(?=.*[0-9])这个是匹配密码中有数字,而(?=.*[a-z])是匹配密码中有小写字母,最后(?=.*[A-Z])就是匹配密码中有大写字母。而.{8,16}这个就是匹配密码是由8至16个字符组成的。那么我们的密码就需要有数字,大写字母和小写字母组成的就属于安全的密码了~

5 匹配一个中的所有链接

function get_links($link) {
    $html = file_get_contents($link);
    $html = str_replace("\n", "", $html);
    $html = preg_replace('/<a/i', "\n<a", $html);
    $html = preg_replace('/<\/a>/', "</a>\n", $html);
    preg_match_all('/<a\s*.*>.*?<\/a>/', $html, $matches);
    return($matches);
}

在这个例子中,我们想用file_get_contents来取得一个网页的内容。然后用str_replace("\n", "", $html)把所有的换行去掉。再用preg_replace('/<a/i', "\n<a", $html)和preg_replace('/<\/a>/', "</a>\n", $html)来把所有的<a href=".....">.....</a>模式另起一行。最后就用preg_match_all('/<a\s*.*>.*?<\/a>/', $html, $matches)匹配链接模式。/<a\s*.*>.*?<\/a>/就是匹配<a href=".....">.....</a>这种模式的正则表达式。那我们为什么要把<a href=".....">.....</a>链接另起一行呢??因为在/<a\s*.*>.*?<\/a>/模式中,.*是不能匹配换行的,所以就如<a>和</a>不在同一行就不能匹配了!!所以我们要这样做!

  评论这张
 
阅读(244)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017