likes
comments
collection
share

「Go开源包」chromedp:一个基于Chrome DevTools协议的Go语言库,支持数据采集、截取网页长图

作者站长头像
站长
· 阅读数 14

大家好,我是渔夫子

公众号:Go学堂 ,关注送《Go常见错误100例及原理分析》pdf文档

今天给大家推荐一个基于Chrome DevTools协议的Go语言库:chromedp。该库提供了一种简单、高效、可靠的方式来控制Chrome浏览器进行自动化测试和爬取数据。

它可以模拟用户在浏览器中执行各种操作如点击输入文本、截取网页长图、将网页内容转换成pdf文档、下载图片等,从而获取到需要采集的数据

项目地址:github.com/chromedp/ch…

基础用法

chromedp的基本用法非常简单,只需要定义一个任务列表,然后将其传递给chromedp.Run函数即可。下面是一个简单的例子。 这个例子的功能如下:

  • chromedp.Navigate: 打开pkg.go.dev/time网页
  • **chromedp.WaitVisible:**等待网页加载完成
  • **chromedp.Click:**点击#example-After标签。也就是网页中的After函数示例
  • chromedp.Value:将示例代码的值读取到example变量中
  • 最后输出example变量

如下:

package main

import (
	"context"
	"log"
	"time"
    "github.com/chromedp/chromedp"
)

func main() {
	// create chrome instance
	ctx, cancel := chromedp.NewContext(
		context.Background(),
		// chromedp.WithDebugf(log.Printf),
	)
	defer cancel()

	// create a timeout
	ctx, cancel = context.WithTimeout(ctx, 15*time.Second)
	defer cancel()

	// navigate to a page, wait for an element, click
	var example string
	err := chromedp.Run(ctx,
		chromedp.Navigate(`https://pkg.go.dev/time`),
		// wait for footer element is visible (ie, page is loaded)
		chromedp.WaitVisible(`body > footer`),
		// find and click "Example" link
		chromedp.Click(`#example-After`, chromedp.NodeVisible),
		// retrieve the text of the textarea
		chromedp.Value(`#example-After textarea`, &example),
	)
	if err != nil {
		log.Fatal(err)
	}
	log.Printf("Go's time.After example:\n%s", example)
}

高级使用

除了基本用法之外,chromedp还提供了许多高级功能。

截屏

将网页截取成图片有两个函数:chromedp.Screenshotchromedp.FullScreenshot。 其中chromedp.Screenshot是按网页中的某个div的元素截取。而chromedp.FullScreenshot是截取整个网页。我们看下下面的例子:

package main

import (
	"context"
	"log"
	"os"

	"github.com/chromedp/chromedp"
)

func main() {
	// create context
	ctx, cancel := chromedp.NewContext(
		context.Background(),
		// chromedp.WithDebugf(log.Printf),
	)
	defer cancel()

	// capture screenshot of an element
	var buf []byte
	if err := chromedp.Run(ctx, elementScreenshot(`https://pkg.go.dev/`, `img.Homepage-logo`, &buf)); err != nil {
		log.Fatal(err)
	}
	if err := os.WriteFile("elementScreenshot.png", buf, 0o644); err != nil {
		log.Fatal(err)
	}

	// capture entire browser viewport, returning png with quality=90
	if err := chromedp.Run(ctx, fullScreenshot(`https://brank.as/`, 90, &buf)); err != nil {
		log.Fatal(err)
	}
	if err := os.WriteFile("fullScreenshot.png", buf, 0o644); err != nil {
		log.Fatal(err)
	}

	log.Printf("wrote elementScreenshot.png and fullScreenshot.png")
}

// elementScreenshot takes a screenshot of a specific element.
func elementScreenshot(urlstr, sel string, res *[]byte) chromedp.Tasks {
	return chromedp.Tasks{
		chromedp.Navigate(urlstr),
		chromedp.Screenshot(sel, res, chromedp.NodeVisible),
	}
}

// fullScreenshot takes a screenshot of the entire browser viewport.
//
// Note: chromedp.FullScreenshot overrides the device's emulation settings. Use
// device.Reset to reset the emulation and viewport settings.
func fullScreenshot(urlstr string, quality int, res *[]byte) chromedp.Tasks {
	return chromedp.Tasks{
		chromedp.Navigate(urlstr),
		chromedp.FullScreenshot(res, quality),
	}
}

该示例就是通过elementScreenshot函数中截取了pkg.go.dev/中的img.Homepage-logo标签的图片。另外一个就是通过fullScreenshot函数来截取了brank.as/网站的长图。因为图像较大,大家可以运行代码查看具体的效果。

其他功能

  • 模拟表单提交:可以使用chromedp.Submit函数模拟表单提交。
  • 模拟鼠标滚动:可以使用chromedp.ScrollIntoView函数模拟鼠标滚动。
  • 模拟键盘输入:可以使用chromedp.KeyEvent函数模拟键盘输入。

github上也给出了具体的示例代码,大家可以自行查看。 示例链接:github.com/chromedp/ex…

chromedp的应用场景

由于chromedp具有高效、稳定、可靠的特点,因此在以下场景中得到了广泛的应用: 1.数据采集:可以使用chromedp对各类网站进行数据采集。 2.自动化测试:可以使用chromedp对Web应用进行自动化测试。 3.网络爬虫:可以使用chromedp对各类网站进行爬取。 4.数据分析:可以使用chromedp对采集到的数据进行分析和处理。

总结

chromedp基于Chrome DevTool协议实现。可以对网页内容进行采集、模拟点击、提交数据、将网页内容转换成pdf、抓取网页长图等功能。

特别推荐:这里是 Go学堂 ,每天分享Go编程知识和精选开源包。欢迎关注、点赞、转发