Python3.x+PyQt4/5学习笔记(一)各种详细备注

Python3.x+PyQt4/5学习笔记(一)各种详细备注

好久没写博客了,刚发现草稿箱里竟然留存了世纪封未写完的博文,可是,真的没有激情把他们写完,   目前,准别写2个系列的文章,一个系列是股票交易策略——多因子Alpha对冲模型或者择时对冲模型,等等,由于在设计该策略的过程中,会用到N多的数据处理,比如数据落地啊、落地后的清洗、处理、因子生成等等,以及因子...

RuntimeError: dictionary changed size during iteration错误

Python中执行dict字典键值遍历时,出现这个错误提示 :RuntimeError: dictionary changed size during iteration 它的意思是 字典在迭代的过程中,字典本身大小发生了变化。   我们来看具体的情况,假设一个字典,如下: test = {'aaaa': {'nums'...

新手教程之Python 安装模块

关键字:Python 安装模块 Windows7/8/10 Mac Linux 问题描述基本是酱紫: python如何安装模块 mac python安装模块 如何安装python模块 python 模块的安装 发现群里好多朋友不知道如何在Python下安装第三方模块,或者安装模块时,经常...

python读取大量文件数据

近来要用Python写一个国内股票的数据回测框架,其中涉及到python读取大量文件数据(2800+的股票文件)、数据清洗、排序、对齐、计算等等工作,为了提高效率,每一步骤都要进行速度测试以便提高程序的执行效率。 最初的设想是将每只个股的数据单独存放到字典(Dic...

python研究之python验证码的自动识别

python研究之python验证码的自动识别

20160603: 文中涉及到的文件,下载地址已更新。   整爬虫轮子时总会遇到需要输入验证码的尴尬时刻,而python自动识别验证码的功能和模块还是比较少并且识别能力也是有限的。如果遇到逆天的验证码——12306让你识别拖把狗和拖把——那就跪安吧。本文就讲解两种验证码的识别,验证码本身有比较强的风格,可以...

python爬虫实战:POST提交登录知乎

python爬虫实战:POST提交登录知乎

通过前几篇文章的学习,已经对爬虫有了初步的了解,接下来就要解决需要登录的内容了。这里用到的内容比如python爬虫学习计划中讲到的cookieslib、urllib2的build_opener等模块。 那么开始下一步模拟登录吧。这次我们选择知乎作为实战对象,   其实也实验了人人网的模拟登录,在分析post路径时老是找不对,只能找网上的其他朋...

python爬虫实战:每日采集申万指数之申万一级行业指数数据

python爬虫实战:每日采集申万指数之申万一级行业指数数据

什么是申万指数 说到申万指数,我想炒股的人应该都或多或少有了解,在这里重新解释一下:     申万一级行业指数是由申万研究所指定发布的股票指数。     理解什么申万一级行业指数,首先要指数什么是申万一级行业。申万研 究所是国内卖方研究机构实力最强的之一。     他们根据自己的研究方向...

python爬虫实战:抓取百度百科1000个分级基金的页面信息

python爬虫实战:抓取百度百科1000个分级基金的页面信息

在学习计划已经学习了爬虫主要的几个组成本分,接下来就要开始实战演练了。 首先要制定我们的抓取目标: - 百科标题 - 简介 - 页面内的url连接 根据抓去目标分析下百度百科的页面信息。以百科中{% link 分级基金 http://baike.baidu.com/view/2857537.htm %}页面为入口页面,   其标题位置如下: ...

python爬虫学习计划

python爬虫学习计划

学习计划 学习原因 python在web方面的相关信息都是为了用而学,没有系统的学习过。学到的东西非常零碎不系统,或者小小的需求变化都可能导致无从下手。 目标 - 能够完成在任意网站采集任意数据。 - 模拟登录。 - 模拟提交数据,如网站自动发站内信(知乎啊,微博啊)。 - 医院预约号自动完成什么的。 - 其...