python教程·一

nyqxmfj · 发表于 2011-9-18 00:09:04

2011·09·18 00：15更新：睡覺去了，還在論壇上的各位用力頂阿！前十位+分
順便求人品能追到CH！

本來應該發自己blog的不過大陸那台免備硬碟掛了先發論壇上吧。
====================================================================
以下內容全部基於Python 2.7.2運行環境
嘛廢話甚麼的最討厭了！直接開始：
Python是一門優雅的語言：
python程式碼的書寫相當優雅不像傳統類C語言那樣用{}來控制程式運行。在python中全部使用縮進符來控制例如：

a="mjj"
b="ni"
if a=="mjj":
print b, a

1、獲取HostLoc主頁
Python有很多方便的類庫，比如支援正則表達式的re類、urllib類等等。
因為本教程內容和網路關係較大，所以我們從urllib講起。
獲取一個網頁可以很簡單的用Python做到，只需要三行程式碼。是的，你沒有看錯三行！
import urllib
hl=urllib.urlopen("http://www.sunk.eu.org")
print hl.read()
將這段代碼保存成後綴名為py指令稿，或者在python IDE中運行，看看得到了甚麼？
如果沒有輸錯的話應該看到一大攤的數據恩 HostLoc首頁的原始碼就被輸出了
2、獲取後的信息處理
那麼你一定有個疑問。如果我想獲取HostLoc的標題怎麼辦呢？Python有個非常方便的HTML分析類：BeautifulSoup，不過那是分析複雜的HTML網頁用的，我們不需要那麼高端的類庫，於是我們用正則自己獲取。
如何引用正則類呢？很簡單：
import re
就這一行代碼。如果我們要同時引用正則類和urllib類的話前面說過，Python的語法很優雅，因此你不需要打入兩行import。你只需要這樣：
import re, urllib

好吧= =我承認我說了很多廢話。接下來就是重頭戲了用正則表達式截取標題。同樣只需要幾行代碼即可實現。
import re, urllib
hl=urllib.urlopen("http://www.sunk.eu.org").read()
print re.compile(r'<title>(.*?)</title>',re.DOTALL).findall(hl)[0]
如果正常的話應該會顯示出一堆奇怪的字符，比如這樣：

' \xe9\x8d\x8f\xe3\x84\xa7\xe6\x82\x86\xe6\xb6\x93\xe7\xbb\x98\xe6\xba\x80\xe6\xb5\x9c\xe3\x82\x86\xe7\xa5\xa6\xe7\x92\x81\xe5\x93\x84\xe6\xbd\xa7 \xe7\xbc\x87\xe5\xba\xa1\xe6\xb5\x97\xe9\x8f\x88\xe5\xb6\x85\xe5\xa7\x9f\xe9\x8d\xa3\xe2\x95\x9b\xe7\xbc\x87\xe5\xba\xa1\xe6\xb5\x97VPS_\xe5\xa8\x86\xd1\x84\xe5\xba\x8a\xe9\x8f\x88\xe5\xb6\x85\xe5\xa7\x9f\xe9\x8d\xa3- Powered by Discuz!'

要怎麼讓它變成中文呢？很簡單，把

print re.compile(r'<title>(.*?)</title>',re.DOTALL).findall(hl)[0]

改成

print re.compile(r'<title>(.*?)</title>',re.DOTALL).findall(hl)[0].decode("gbk","ignore").encode("utf-8","ignore")

* 請注意如果你通過ssh調試，並且沒有打開本地的utf-8支援或者漢字支援的話，看到的將是亂碼。如果你在本地用python調試就不會。
運行後將會輸出：

全球主机交流论坛美国服务器_美国VPS_欧洲服务器 - Powered by Discuz!

好了今天的教程到此結束。請期待明天的教程

[ 本帖最后由 nyqxmfj 于 2011-9-18 00:16 编辑 ]

Ultratude · 发表于 2011-9-18 00:09:40

沙发，细看。

Poison · 发表于 2011-9-18 00:10:10

还能勉强看懂

neolee · 发表于 2011-9-18 00:15:33

认真学习咯

neverno · 发表于 2011-9-18 00:16:31

mark LZ好人~
有点鸟哥的讲解风格，呆湾都是这么的？

有容乃大 · 发表于 2011-9-18 00:17:31

期待已久

这个东西做好了真的可以告别火车头。。

mslxd · 发表于 2011-9-18 00:22:40

不错，呵呵，，，不知道效率怎么样

funkys · 发表于 2011-9-18 00:23:58

不错，

誓誓 · 发表于 2011-9-18 00:30:47

收藏了

qiqi13245 · 发表于 2011-9-18 01:53:36

2011·09·18 00：15更新：睡覺去了，還在論壇上的各位用力頂阿！前十位+分
順便求人品能追到CH！

本來應該發自己blog的不過大陸那台免備硬碟掛了先發論壇上吧。
====================================================================
以下內容全部基於jdk 6u10運行環境
嘛廢話甚麼的最討厭了！直接開始：

1、獲取HostLoc主頁
Java自帶有很多方便的支援庫，比如支援正則表達式的re類、urllib類等等，都在java.util下。
因為本教程內容和網路關係較大，所以我們從urllib講起。
獲取一個網頁可以很簡單的用Java做到！

URL url = new URL("http://sunk.eu.org"); //获取的地址
Reader reader = new InputStreamReader(new BufferedInputStream(url.openStream()));
int c; //tmp
String d = "";
while ((c = reader.read()) != -1) {
d = d + String.valueOf((char) c); //将Chat Copy进String
}reader.close();
System.out.println(d);

复制代码

將這段代碼保存成後綴名為java指令稿，或者在java IDE (如eclipse netbeans等軟體)中運行，看看得到了甚麼？
如果沒有輸錯的話應該看到一大攤的數據恩 HostLoc首頁的原始碼就被輸出了
2、獲取後的信息處理
那麼你一定有個疑問。如果我想獲取HostLoc的標題怎麼辦呢？Java有非常方便的支援庫，不過那是分析複雜的HTML網頁用的，我們不需要那麼高端的類庫，於是我們用正則自己獲取。
如何引用正則類呢？很簡單：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

复制代码

好吧= =我承認我說了很多廢話。接下來就是重頭戲了用正則表達式截取標題。同樣只需要幾行代碼即可實現。

Pattern pattern = Pattern.compile("(.+?)"); //正则规则
Matcher matcher = pattern.matcher(d); //应用正则
if(matcher.find()){
System.out.print("Title : ");
System.out.println(matcher.group(1)); //输出

如果正常的話應該會顯示出一堆字符，比如這樣：

全球主机交流论坛美国服务器_美国VPS_欧洲服务器 - Powered by Discuz!

* 請注意如果你通過ssh調試，並且沒有打開本地的utf-8支援或者漢字支援的話，看到的將是亂碼。如果你在本地用Java調試就不會。
運行後將會輸出：

Title: 全球主机交流论坛美国服务器_美国VPS_欧洲服务器 - Powered by Discuz!

好了今天的教程到此結束。請期待明天的教程
---------------------------------------------------------------------------------------------------------------------------------------------------------
public static void main(String[] args) throws IOException {
      URL url = new URL("http://sunk.eu.org"); //获取的地址
      Reader reader = new InputStreamReader(new BufferedInputStream(url.openStream()));

      int c; //tmp
      String d = "";
      while ((c = reader.read()) != -1) {
         d = d + String.valueOf((char) c); //将Chat Copy进String
         }
      reader.close();
      System.out.println(d);
      Pattern pattern = Pattern.compile("<title>(.+?)</title>"); //正则规则
      Matcher matcher = pattern.matcher(d); //应用正则
      if(matcher.find()){
      System.out.print("Title : ");
      System.out.println(matcher.group(1)); //输出
      }

[ 本帖最后由 qiqi13245 于 2011-9-18 02:12 编辑 ]

		自动登录	找回密码
密码			注册

python教程·一

评分

评分

评分

评分

评分

评分

评分

评分

浏览过的版块