python爬虫技术-python爬虫常见的那点问题-合肥千锋IT培训

发布时间：2021-08-30 11:35:40 已帮助：496人来源：合肥千锋IT培训

python技术中最为津津乐道的技术就是爬虫了，今天小千就来给大家介绍一下关于python爬虫的那点事，小白同学注意好好听，拿好小本本记笔记啦。

　　什么是python爬虫？
　　网络爬虫，英文名为Spider,又称为网页蜘蛛，网络机器人，在数据分析应用中，更多的将爬虫称为数据采集程序，是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。
　　原则上,只要是客户端(浏览器)能做的事情，爬虫都能够做
　　爬虫也只能获取客户端(浏览器)所展示出来的数据
　　网络中的数据可以是由web服务器【Nginx/Apache】，数据库服务【MySQL/Redis/MongoDB】，索引库，大数据，视频/图片库，云存储【阿里云的OSS】等提供的,最主要的来源是Web服务器
　　不过，大家一定要注意哦，可爬取的数据必须是公开的，非盈利的，如：如果侵入人家非公开的网络，人家会通过ip定位到你，属于违法行为的哦，再或者，一些理财的网站，如果爬取数据，肯定是不可以的，如果小伙伴们不听话，非要去爬取，那任何人都是保护不了你的哦，狗头保命~~~
　　有名的爬虫案件：简历大数据公司“巧达科技”被一锅端、“车来了”涉嫌偷数据被警方立案等
　　爬虫都有哪几种？
　　通用爬虫：
　　通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果
　　大家要注意哦，通用爬虫虽然简单，方便，但是缺点也是显而易见的，小助手给大家列举了几点，大家可以了解一下：
　　1.通用搜索引擎所返回的结果都是网页，而大多情况下，网页里90%的内容对用户来说都是无用的。
　　2.不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对具体某个用户的搜索结果。
　　3.万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎对这些文件无能为力，不能很好地发现和获取。
　　4.通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。
　　聚焦爬虫：
　　聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量只抓取与需求相关的网页信息,如12306抢票，或专门抓取某一个（某一类）网站数据
　　1.根据是否以获取数据为目的，可以分为：功能性爬虫，给你喜欢的明星投票、点赞。数据增量爬虫，比如招聘信息
　　2.根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为：基于url地址变化、内容也随之变化的数据增量爬虫。url地址不变、内容变化的数据增量爬虫
　　爬虫能干什么？
　　1.数据采集,比如：抓取微博评论(机器学习舆情监控)、抓取招聘网站的招聘信息(数据分析、挖掘)、新浪滚动新闻、百度新闻网站
　　2.软件测试：爬虫之自动化测试
　　自动化测试所必需的selenium.selenium是一个用于Web应用程序测试的工具,selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE,chrome和Firefox等。其实就是借助于selenium做爬虫的事情。
　　3.抢票和投票
　　4.网络安全：短信轰炸、web漏洞扫描
　　以上就是关于python爬虫的那点事了，最后欢迎对python爬虫感兴趣的同学来到千锋python培训班了解一下我们的python培训课程，全程面授，还有免费python学习资料可以领取，感兴趣就赶紧来看一看吧。

以上就是 合肥千锋IT培训 小编为您整理python爬虫技术-python爬虫常见的那点问题的全部内容,更多精彩请在线咨询
也可以拨打咨询电话： 400-888-4851 让在线老师为你详细解答

合肥千锋IT培训新闻中心 NEWS

python爬虫技术-python爬虫常见的那点问题

最新课程