python爬虫入门教程之二——爬虫基础知识及环境搭建

Python kingmo888 688℃ 0评论

爬虫的运作流程

  在前言中,简单讲了一下什么是爬虫,那么爬虫的运行机制是怎样的呢?我们可以把爬虫想象成一个有大把时间无聊的人在上网,突然他点开一个网页(目标入口),浏览这个网页中他感兴趣的文章列表(目标内容列表),从内容列表点开看具体的文章内容(目标内容),从文章内容中可能左侧或者右侧的文章推荐再次进入其他文章中(遍历、迭代目标网站)。

  爬虫和人对于目标网站而言,是一样的,但二者所看到的内容则完全不同,人看到的是内容是这样的:

爬虫看到的是完全由HTML代码构成的世界——:

因此我们才需要了解一些基本的HTML知识。

网站URL的作用

  百度百科对url是这样描述的:url是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

  URL的格式由三部分组成:

①第一部分是协议:http/https/ftp/ws等等。。

②第二部分是存有该资源的主机IP地址(有时也包括端口号),简单说就是网站的域名。

③第三部分是主机资源的具体地址,如目录和文件名:即网站的二级目录和信息列表页、资源页等等。

  我们在编写爬虫的过程中,需要了解网站url中一些区分,比如一个网站中有视频(xxx.com/videos)、新闻(xxx.com/news)、图片相册(xxx.com/photos)等内容,而我们需要的是其图片内容,此时我们要去分析他的图片相册的列表页是哪一个,很明显在这个例子中是photos。

环境的搭建

Anaconda3的下载安装

下载地址:https://www.anaconda.com/distribution/#download-section

截止目前,anaconda3最新版本为2018.12版,其对应的python版本为python3.7,根据自己操作系统的版本选择下载32位还是64位。

安装过程中,路径可以自己设定,另外就是在该配置处,红框部分都需要勾选:

安装完成后,在cmd(开始-运行-cmd-回车,或快捷键win+R调出运行后输入cmd回车)下输入python,查看是否安装成功。如果安装成功则应该如下图所示:

上图中显示python版本号为3.7.1,64bit表示64为机器。而MSC V.1915代表着该python版本对应的VS编译器的版本,其对应关系表如下:

MSVC++ 14.15 _MSC_VER == 1915 (Visual Studio 2017 version 15.8)
MSVC++ 14.14 _MSC_VER == 1914 (Visual Studio 2017 version 15.7)
MSVC++ 14.13 _MSC_VER == 1913 (Visual Studio 2017 version 15.6)
MSVC++ 14.12 _MSC_VER == 1912 (Visual Studio 2017 version 15.5)
MSVC++ 14.11 _MSC_VER == 1911 (Visual Studio 2017 version 15.3)
MSVC++ 14.1  _MSC_VER == 1910 (Visual Studio 2017 version 15.0)
MSVC++ 14.0  _MSC_VER == 1900 (Visual Studio 2015 version 14.0)
MSVC++ 12.0  _MSC_VER == 1800 (Visual Studio 2013 version 12.0)
MSVC++ 11.0  _MSC_VER == 1700 (Visual Studio 2012 version 11.0)
MSVC++ 10.0  _MSC_VER == 1600 (Visual Studio 2010 version 10.0)
MSVC++ 9.0   _MSC_VER == 1500 (Visual Studio 2008 version 9.0)
MSVC++ 8.0   _MSC_VER == 1400 (Visual Studio 2005 version 8.0)
MSVC++ 7.1   _MSC_VER == 1310 (Visual Studio .NET 2003 version 7.1)
MSVC++ 7.0   _MSC_VER == 1300 (Visual Studio .NET 2002 version 7.0)
MSVC++ 6.0   _MSC_VER == 1200 (Visual Studio 6.0 version 6.0)
MSVC++ 5.0   _MSC_VER == 1100 (Visual Studio 97 version 5.0)

确定VS编译器的版本有什么用处呢,当我们安装某些第三方库需要编译时,安装对应的vs编辑器后即可顺利编译,否则将会出现编译失败后安装失败。

确定安装好Anaconda后,就可以使用spder编辑器愉快的写代码了。

spyder编辑器汉化

如果需要对spyder进行汉化,可以使用我写的Spyder中文包来进行汉化,文章地址:《Python-Spyder中文包正式发布!

转载请注明:Python量化投资 » python爬虫入门教程之二——爬虫基础知识及环境搭建

喜欢 (1)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址