ython从零到壹九网络爬虫之elenium基础技术万字详解（定位元素常用方法鼠标操作）腾讯云开发者社区|爬虫技术是什么入门教程_AI技术

Selenium是一款用于测试Web应用程序的经典工具，它直接运行在浏览器中，仿佛真正的用户在操作浏览器一样，主要用于网站自动化测试、网站模拟登陆、自动操作键盘和鼠标、测试浏览器兼容性、测试网站功能等，同时也可以用来制作简易的网络爬虫。

本文主要介绍Selenium Python API技术，它以一种非常直观的方式来访问Selenium WebDriver的所有功能，包括定位元素、自动操作键盘鼠标、提交页面表单、抓取所需信息等。

Selenium是ThoughtWorks公司专门为Web应用程序编写的一个验收测试工具，它提供的API支持多种语言，包括Python、Java、C#等，本书主要介绍Python环境下的Selenium技术。Python语言提供了Selenium扩展包，它是使用Selenium WebDriver（网页驱动）来编写功能、验证测试的一个API接口。

通过Selenium Python API，读者能够以一种直观的方式来访问Selenium WebDriver的所有功能。Selenium Python支持多种浏览器，诸如Chrome、火狐、IE、360等浏览器，也支持PhantomJS特殊的无界面浏览器引擎。

Selenium WebDriver API接口提供了一种定位网页中元素（Locate Elements）的策略，本书将使用Selenium Python讲解网络数据爬取知识，本章主要介绍Selenium技术的基础知识，后面的章节结合实例讲解如何利用Selenium定位网页元素、自动爬取、设计爬虫等。

类似于BeautifulSoup技术，Selenium制作的爬虫也是先分析网页的HTML源码和DOM树结构，再通过其所提供的方法定位到所需信息的结点位置，获取文本内容。

同时，推荐读者阅读官网提供的《Selenium with Python Bindings》开源技术文档，本文也汲取了它很多精彩的知识，再结合自己的理解和实际爬虫实例进行介绍的。下面从Selenium安装、驱动安装、PhantomJS三部分知识进行介绍，让我们开始吧！

读者可以访问PyPI网站来下载Selenium扩展包，例如图2所提供的selenium 3.4.3，对应的网址为：

我们点击“Downloads”按钮下载该Selenium扩展包，解压下载的文件后，在解压目录下执行下面的命令进行安装Selenium包。

PyPI全称是Python Package Index，是Python官方的第三方库的仓库，所有人都可以下载第三方库或上传自己开发的库到PyPI。

同时，作者更推荐大家使用pip工具来安装Selenium库，PyPI官方也推荐使用pip管理器来下载第三方库。Python3.6标准库中自带pip，Python2.x需要自己单独安装。前文介绍了pip工具的安装过程及基础用法。安装好pip工具后，直接调用命令即可安装Selenium：

调用命令“pip install selenium”安装Selenium包如图3所示。

此时的Selenium包已经安装成功，接下来需要调用浏览器来进行定位或爬取信息，而使用浏览器的过程中需要安装浏览器驱动。作者推荐使用Firefox浏览器、Chrome浏览器或PhantomJS浏览器，下面将结合实例讲解三种浏览器驱动的配置过程。

Selenium需要安装浏览器驱动，才能调用浏览器进行自动爬取或自动化测试，常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。表1是部分浏览器驱动下载页面。

输出结果如下图所示：

调用时如果报错“Unable to start phantomjs with ghostdriver”，则需要设置PhantomJS的路径，或者配置到Scripts目录环境下。当Selenium安装成功并且PhantomJS下载配置好后，下面这代代码是调用方法。其中executable_path参数设置PhantomJS的路径。

代码含义为：

运行结果如图6所示，Python3效果一样。

注意，webdriver中提供的save_sceenshot()函数可以对网页进行截图，代码如下：

网页通常采用文档对象模型树结构进行存储，并且这些节点都是成对出现的，如“< html >”对应“</ html >”、“< table >”对应“</ table >”、“< div >”对应“</ div >”等。Selenium技术通过定位节点的特定属性，如class、id、name等，可以确定当前节点的位置，再获取相关网页的信息。

下面代码是定位百度搜索框并进行自动搜索，它作为我们的快速入门代码。

运行结果如下图所示，调用Firefox浏览器并搜索“数据分析”关键词，最后对浏览的网页进行截图操作。所以，Selenium常用于自动化测试领域。

下面对这部分代码进行详细讲解。

图8是百度首页审查元素的反馈结果，其中输入框input元素对应属性name为“kw”，所以定位其节点代码为：

Selenium Python提供了一种用于定位元素（Locate Elements）的策略，你可以根据所爬取网页的HTML结构选择最适合的方案，表8.2是Selenium提供的各种方法。定位多个元素时，只需将方法“element”后加s，这些元素将会以列表的形式返回。

该网页打开运行如下图9所示。

下面结合这个实例分别介绍各种元素定位方法，并以定位单个元素为主。

该方法是通过网页标签的id属性定位元素，它将返回第一个用id属性值匹配定位的元素。如果没有元素匹配id值，将会返回一个NoSuchElementException异常。

假设需要通过id属性定位页面中的杜甫、李商隐、杜牧三个超链接，HTML核心代码如下：

如果需要获取div布局，则使用如下代码：

如果写成如下代码，则返回第一个诗人的信息。

注意“elements”表示获取多个值。三个超链接都使用同一个id名称“link”，通过find_elements_by_id()函数定位获取之后，再调用for循环输出结果，如下所示：

输出结果如下图所示：

该方法是通过网页标签的name属性定位元素，它将返回第一个用name属性值匹配定位的元素。如果没有元素匹配name值，会返回NoSuchElementException异常。

下面介绍通过name属性定位页面中的杜甫、李商隐、杜牧三个超链接的方法，HTML源码如下：

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用代码如下：

此时不能调用find_elements_by_name()函数获取多个元素，因为三位诗人对应超链接的name属性都是不同的，即“dufu”、“lsy”、“dumu”，如果name属性相同，则该方法可以获取同一name属性的多个元素。

XPath是用于定位XML文档中节点的技术，HTML\XML都采用网页DOM树状标签的结构进行编写的，所以可以通过XPath方法分析其节点信息。Selenium Python也提供了类似的方法来跟踪网页中的元素。

XPath定位元素方法不同于按照ID或Name属性的定位方法，前者更加的灵活、方便。

比如想通过ID属性定位第三个诗人“杜牧”的超链接信息，但是三位诗人的ID属性值都是相同的，即“link”，如果没有其他属性，那我们怎么实现呢？此时可以借助XPath方法进行定位元素。这也体现了XPath方法的一个优点：

XPath方法也可以通过除了ID和Name属性以外的其他属性进行定位元素，其完整函数为：

下面开始通过实例进行讲解，HTML代码如下：

这个div布局可能通过如下三种XPath方法定位：

如需定位第三位诗人“杜牧”超链接的内容，则使用如下所示的三种方法。

同时，如果是按钮控件且name属性相同，假设HTML代码如下：

则定位value值为“Clear”按钮元素的方法如下：

XPath定位方法作为最常用的定位元素方法之一，后面章节的实例中将会被反复利用，而本小节只是介绍了些基础知识，更多知识请读者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文档中学习。

当你需要定位一个锚点标签内的链接文本（Link Text）时就可以使用该方法。该方法将返回第一个匹配这个链接文本值的元素。如果没有元素匹配这个链接文本，将抛出一个NoSuchElementException异常。下面介绍调用该方法定位页面中的杜甫、李商隐、杜牧三个超链接，假设HTML源码如下：

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用如下代码。

其中，find_element_by_link_text()函数是使用锚点标签的链接文本进行定位的，partial表示部分匹配，获取多个元素的方法则使用：

该方法是通过标签名（Tag Name）定位元素，它将返回第一个用Tag Name匹配定位的元素。如果没有元素匹配，将会返回一个NoSuchElementException异常。假设HTML源码如下：

定位元素h1和段落p的方法如下：

该方法是通过类属性名（Class Attribute Name）定位元素，它将返回第一个用类属性名匹配定位的元素。如果没有元素匹配，将会返回一个NoSuchElementException异常。

如果存在多个相同class值的content标签，则可以使用下面方法进行定位获取：

CSS选择器定位方法是比较难的一个方法，推荐读者下来自行研究，同时作者更推荐大家使用ID、Name、XPath等常用定位方法。

讲述完定位元素（Locate Elements）之后，我们需要对已经定位好的对象进行操作，这些操作的交互行为通常需要通过WebElement接口来实现，常见操作元素方法如表3所示。

通过find_element_by_name()定位元素，调用函数clear()清除输入框默认内容，如“请输入密码”等提示，并调用send_keys()函数输入正确的用户名和密码后点击登录。核心代码如下：

完整代码如下：

最终，该部分代码会自动输入指定的用户名和密码，然后输入回车键实现登录操作。但需要注意，由于部分页面是动态加载的，而实际操作时可能无法捕获其节点，同时百度网页的HTML源码也会不定期变化，但是其原理知识更为重要，希望读者掌握类似的分析方法，在后面爬取微博、知乎、B站等案例时，也会再结合实例详细讲解自动登录爬虫。

通过WebElement接口可以获取常用的值，其中常见属性值如下表所示。

该部分代码如下：

输出结果如下图所示：

Selenium技术另一个特点就是可以自动化操作鼠标和键盘，所以它更多的应用是自动化测试领域，通过自动操作网页，反馈响应结果从而检测网站健壮性和安全性。

在Selenium提供的Webdriver库中，其子类Keys提供了所有键盘按键操作，比如回车键、Tab键、空格键，同时也包括一些常见的组合按键操作，如Ctrl+A（全选）、Ctrl+C（复制）、Ctrl+V（粘贴）等。常用键盘操作如下：

下面举一个百度自动搜索“Python”关键字的简单示例，代码如下：

首先需要定位百度搜索框的HTML源代码，分析结果如图14所示，百度搜索框对应的HTML标签为input且其ID属性为“kw”，故定位代码为：

同样可以自动搜索作者“Eastmount”的信息，哈哈~

Selenium操作鼠标技术也常用于自动化测试中，它位于ActionChains类中，最常用的是click()函数，该函数表示单击鼠标左键操作。常见的鼠标操作如下：

下面的示例代码是定位百度的logo图片，再执行鼠标右键另存为图片操作。

弹出对话框如下图所示，新版本尝试输入k键也能另存为网页。

前一小节讲述了Python操作键盘和鼠标，建议读者一定要自己去实现该部分代码，从而更好地应用到实际项目中去。本小节主要介绍Selenium的导航控制操作，包括页面交互、表单操作和对话框间移动。

前面讲述的百度搜索案例就是一个页面交互的过程，包括：

这里我们将补充页面交互的切换下拉菜单的实例。定位“name”下拉菜单标签之后，我们调用SELECT类选中选项，同时select_by_visible_text()用于显示选中菜单，也可以提交Form表单。

如果读者想取消已经选中的选项，则使用如下代码：

网站通常都是由多个窗口组成的，称为多帧Web应用，WebDriver提供了方法switch_to_window来支持命名窗口间的移动切换。比如：

现在driver的所有操作将会针对特定的窗口。但是怎么才能知道窗口的名字呢？可以通过定位其HTML源码中的超链接，或者给switch_to_window()方法传递一个“窗口句柄”，常用的方法是循环遍历所有的窗口，再获取指定的句柄进行定位操作，核心代码如下：

更多知识推荐读者阅读官方文档，下面是捕获弹出式对话框内容的核心代码。

后续实例也会介绍一种窗口句柄转义的方法。

Selenium库分析和定位节点的方法和BeautifulSoup库类似，它们都能够利用类似于XPath技术来定位标签，都拥有丰富的操作函数来爬取数据。但不同之处在于：

Selenium用得更广泛的领域是自动化测试，它直接运行在浏览器中（如Firefox、Chrome、IE等），就像真实用户操作一样，对开发的网页进行各式各样的测试，它更是自动化测试方向的必备工具。希望读者能掌握这种技术的爬取方法，尤其是目标网页需要验证登录等情形。

THE END

ython从零到壹九网络爬虫之elenium基础技术万字详解（定位元素常用方法鼠标操作）腾讯云开发者社区

新手爬虫如何入门腾讯云开发者社区

爬虫入门指南：学习爬虫的基础知识和技巧腾讯云开发者社区

ython从零到壹九网络爬虫之elenium基础技术万字详解（定位元素常用方法鼠标操作）腾讯云开发者社区

杂谈爬虫基础与快速入门指南腾讯云开发者社区

python爬虫教程：详解种类型的爬虫技术m江河湖海

爬虫入门指南：学习爬虫的基础知识和技巧全栈若城的技术博客

爬虫入门到放弃：什么是爬虫腾讯云开发者社区

ython爬虫快速入门攻略腾讯云开发者社区

ython数据采集入门：从零开始构建网络爬虫腾讯云开发者社区