• 15.3 访问并读取页面

    15.3 访问并读取页面

    在下边这个程序中,数组中的url都将被访问:会发送一个简单的http.Head()请求查看返回值;它的声明如下:func Head(url string) (r *Response, err error)

    返回状态码会被打印出来。

    示例 15.7 poll_url.go:

    1. package main
    2. import (
    3. "fmt"
    4. "net/http"
    5. )
    6. var urls = []string{
    7. "http://www.google.com/",
    8. "http://golang.org/",
    9. "http://blog.golang.org/",
    10. }
    11. func main() {
    12. // Execute an HTTP HEAD request for all url's
    13. // and returns the HTTP status string or an error string.
    14. for _, url := range urls {
    15. resp, err := http.Head(url)
    16. if err != nil {
    17. fmt.Println("Error:", url, err)
    18. }
    19. fmt.Println(url, ": ", resp.Status)
    20. }
    21. }

    输出为:

    1. http://www.google.com/ : 302 Found
    2. http://golang.org/ : 200 OK
    3. http://blog.golang.org/ : 200 OK

    译者注 由于国内的网络环境现状,很有可能见到如下超时错误提示:

    1. Error: http://www.google.com/ Head http://www.google.com/: dial tcp 216.58.221.100:80: connectex: A connection attempt failed because the connected pa
    2. rty did not properly respond after a period of time, or established connection failed because connected host has failed to respond.

    在下边的程序中我们使用http.Get()获取网页内容; Get的返回值res中的Body属性包含了网页内容,然后我们用ioutil.ReadAll把它读出来:

    示例 15.8 http_fetch.go:

    1. package main
    2. import (
    3. "fmt"
    4. "io/ioutil"
    5. "log"
    6. "net/http"
    7. )
    8. func main() {
    9. res, err := http.Get("http://www.google.com")
    10. checkError(err)
    11. data, err := ioutil.ReadAll(res.Body)
    12. checkError(err)
    13. fmt.Printf("Got: %q", string(data))
    14. }
    15. func checkError(err error) {
    16. if err != nil {
    17. log.Fatalf("Get : %v", err)
    18. }
    19. }

    当访问不存在的网站时,这里有一个CheckError输出错误的例子:

    1. 2011/09/30 11:24:15 Get: Get http://www.google.bex: dial tcp www.google.bex:80:GetHostByName: No such host is known.

    译者注 和上一个例子相似,你可以把google.com更换为一个国内可以顺畅访问的网址进行测试

    在下边的程序中,我们获取一个twitter用户的状态,通过xml包将这个状态解析成为一个结构:

    示例 15.9 twitter_status.go

    1. package main
    2. import (
    3. "encoding/xml"
    4. "fmt"
    5. "net/http"
    6. )
    7. /*这个结构会保存解析后的返回数据。
    8. 他们会形成有层级的XML,可以忽略一些无用的数据*/
    9. type Status struct {
    10. Text string
    11. }
    12. type User struct {
    13. XMLName xml.Name
    14. Status Status
    15. }
    16. func main() {
    17. // 发起请求查询推特Goodland用户的状态
    18. response, _ := http.Get("http://twitter.com/users/Googland.xml")
    19. // 初始化XML返回值的结构
    20. user := User{xml.Name{"", "user"}, Status{""}}
    21. // 将XML解析为我们的结构
    22. xml.Unmarshal(response.Body, &user)
    23. fmt.Printf("status: %s", user.Status.Text)
    24. }

    输出:

    1. status: Robot cars invade California, on orders from Google: Google has been testing self-driving cars ... http://bit.ly/cbtpUN http://retwt.me/97p<exit code="0" msg="process exited normally"/>

    译者注 和上边的示例相似,你可能无法获取到xml数据,另外由于go版本的更新,xml.Unmarshal函数的第一个参数需是[]byte类型,而无法传入Body

    我们会在章节15.4中用到http包中的其他重要的函数:

    • http.Redirect(w ResponseWriter, r *Request, url string, code int):这个函数会让浏览器重定向到url(是请求的url的相对路径)以及状态码。
    • http.NotFound(w ResponseWriter, r *Request):这个函数将返回网页没有找到,HTTP 404错误。
    • http.Error(w ResponseWriter, error string, code int):这个函数返回特定的错误信息和HTTP代码。
    • http.Request对象的一个重要属性reqreq.Method,这是一个包含GETPOST字符串,用来描述网页是以何种方式被请求的。

    go为所有的HTTP状态码定义了常量,比如:

    1. http.StatusContinue = 100
    2. http.StatusOK = 200
    3. http.StatusFound = 302
    4. http.StatusBadRequest = 400
    5. http.StatusUnauthorized = 401
    6. http.StatusForbidden = 403
    7. http.StatusNotFound = 404
    8. http.StatusInternalServerError = 500

    你可以使用`w.header().Set(“Content-Type”, “../..”)设置头信息

    比如在网页应用发送html字符串的时候,在输出之前执行w.Header().Set("Content-Type", "text/html")

    练习 15.4:扩展 http_fetch.go 使之可以从控制台读取url,使用章节12.1学到的接收控制台输入的方法 (http_fetch2.go)

    练习 15.5:获取json格式的推特状态,就像示例 15.9(twitter_status_json.go)