百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

开源项目推荐--Photon提取网站数据

liebian365 2024-10-23 13:54 22 浏览 0 评论

Photon是一种高效率的的网络爬虫,可从目标中提取URL,文件以及各类情报。其通过多线程大大加快数据提取进程。

项目地址:

https://github.com/s0md3v/Photon

主要特点

Photon提供的各种选项可以让用户按照自己的方式抓取网页,不过,Photon最棒的功能并不是这个。

数据提取

默认情况下,Photon在抓取时会提取以下数据:

网址(范围内和范围外的)

带参数的网址(example.com/gallery.php?id=2)

情报(电子邮件,社交媒体帐户,亚马逊水桶等)

文件(pdf,png,xml等)

JavaScript等文件

基于自定义正则表达式模式的字符串

提取的信息按下图方式保存。

智能多线程

大多数浮于互联网表面的工具都没有正确使用多线程,它们要么为线程提供一个项目列表,这会导致多个线程访问同一个项目,或者只是放置一个线程锁定并最终使多线程无效。

Ninja模式

在Ninja模式中,3个在线服务器用于代表你向目标发出请求。

所以基本上,现在你有4个客户端同时向同一个服务器发出请求,如果连接速度慢,那么可以提高速度,最大限度地降低连接重置的风险以及来自单个客户端的延迟请求。

这是Quark生成的比较图,其中的线代表线程:

兼容性&依赖

兼容性

Photon目前全面兼容python2.x – 3.x,但因为这个项目正处于积极开发阶段,可能会需要python2.x不具备的功能。故开发者最终可能会放弃对python2.x的支持。

操作系统

Photon已经在Linux(Arch,Debian,Ubuntu),Termux,Windows(7&10)和Mac上进行了测试,并在所有系统上如期运行,如果你发现了任何bug,请在github上提交。

颜色

Mac和Windows不支持ANSI转义序列,因此所输出内容不会在Mac和Windows上显示颜色。

依赖

requestsurllib3
argparse


Photon所使用的其余python库是预装的python解释器的标准库。

如何使用Photon

语法: photon.py [选项]
-u --url 目标url -l --level 抓取等级 -t --threads 线程数 -d --delay 请求间的延迟 -c --cookie cookie -r --regex 正则表达式模式 -s --seeds 其他的子url -e --export 导出格式化结果 -o --output 指定输出目录 --exclude 通过正则表达式排除特定url --timeout http 请求超时 --ninja ninja 模式 --update 更新 --dns 转储dns数据 --only-urls 仅提取url --user-agent 指定 user-agent(s)

仅抓取单个网站

选项 -u 或 –url,使用示例:

python photon.py -u "http://example.com"

抓取深度

选项 -l 或 –level,默认深度为2,使用示例:

python photon.py -u "http://example.com" -l 3

通过该选项,用户可以设置抓取的递归限制,例如,深度为2意思是Photon会从主页和子页。

线程数

选项 -t 或 –threads,默认线程数为2,使用示例:

python photon.py -u "http://example.com" -t 10

该选项可以对目标进行并发请求,-t选项可用于指定要进行的并发请求数量。值得注意的是,虽然多线程可以加速抓取,但是也可能会触发安全机制,此外,线程数过多,也有可能使小型网站宕机。

每个HTTP请求间的延迟

选项 -d 或 –delay,默认为0,使用示例:

python photon.py -u "http://example.com" -d 2

该选项可以指定每个HTTP(S)请求之间间隔的秒数。有效值是int,例如1表示1秒。

超时

选项 –timeout,默认为5,使用示例:

python photon.py -u "http://example.com --timeout=4

该选项指定HTTP(S)请求等待多长时间即为超时。

Cookies

选项 -c 或 –cookies,默认为 no cookie header is sent,使用示例:

python photon.py -u "http://example.com" -c "PHPSESSID=u5423d78fqbaju9a0qke25ca87"

该选项允许你在非ninja模式下为发出的每个HTTP请求添加Cookie header,主要用于目标网站需要基于Cookie验证的情形。

指定输出目录

选项 -o 或 –output,默认为 目标域名,使用示例:

python photon.py -u "http://example.com" -o "我的目录"

Photon将结果保存在以目标域名命名的目录中,但你可以使用此选项自定义目录。

排除特定url

选项 –exclude,使用示例:

python photon.py -u "http://example.com" --exclude="/blog/20[17|18]"

匹配指定正则表达式的网址将不会被抓取及显示在结果中。

指定子url

选项 -s 或 –seeds,使用示例:

python photon.py -u "http://example.com" --seeds "http://example.com/blog/2018,http://example.com/portals.html"

你可以使用此选项添加自定义子URL,要以逗号分隔。

指定user-agent(s)

选项 –user-agent,使用示例:

python photon.py -u "http://example.com" --user-agent "curl/7.35.0,Wget/1.15 (linux-gnu)"

你可以使用此选项使用自己的用户代理,以逗号分隔。此选项仅用于帮助用户在不修改默认user-agents.txt文件的情况下使用特定用户代理。

自定义正则表达式模式

选项 -r 或 –regex,使用示例:

python photon.py -u "http://example.com" --regex "\d{10}"

通过使用此选项指定正则表达式模式,可以在抓取期间提取字符串。

导出格式化结果

选项 -e 或 –export

通过 -e 选项,你可以指定要保存文件的输出格式,使用示例:

python photon.py -u "http://example.com" --export=json

目前支持的格式:json

跳过数据提取

选项:–only-urls,使用示例:

python photon.py -u "http://example.com" --only-urls

该选项会跳过提取js文件等数据,当你只需要抓取目标时,该选项可以派上用场。

更新

选项 –update,使用示例:

python photon.py --update

如果使用此选项,Photon会检查更新。如果有新的版本,Photon会下载并将更新文件合并到当前目录中,Photon不会覆盖其他文件。

Ninja模式

选项 –ninja

此选项启用Ninja模式。在该模式下,Photon会使用以下网站代表你发出请求。

codebeautify.org

photopea.com

pixlr.com

转储DNS数据

选项 –dns,使用示例:

python photon.py -u http://example.com --dns

创建显示目标域名的DNS数据的图像。目前不支持目标是子域。

文章转载:Python编程学习圈
(版权归原作者所有,侵删)

小编有话说

?推荐服务:

向下滑动查看更多

点击【IT面试精选】查看全网最权威的一线大厂面试真题及面试经验,每天更新哦!

点击【IT路边社】查看实时更新的IT新闻资讯

点击【互联网资料存储站】获取全网最全运维流程文档、表格、脚本、架构、等保资料等

回复【加群】群满啦!~添加波哥微信拉您进群!

点击【安全加固】获取最新安全加固脚本

点击一键iptables脚本】获取iptables自动设置脚本



相关推荐

精品博文嵌入式6410中蓝牙的使用

BluetoothUSB适配器拥有一个BluetoothCSR芯片组,并使用USB传输器来传输HCI数据分组。因此,LinuxUSB层、BlueZUSB传输器驱动程序以及B...

win10跟这台计算机连接的前一个usb设备工作不正常怎么办?

前几天小编闲来无事就跑到网站底下查看粉丝朋友给小编我留言询问的问题,还真的就给小编看到一个问题,那就是win10跟这台计算机连接的一个usb设备运行不正常怎么办,其实这个问题的解决方法时十分简单的,接...

制作成本上千元的键盘,厉害在哪?

这是稚晖君亲自写的开源资料!下方超长超详细教程预警!!全文导航:项目简介、项目原理说明、硬件说明、软件说明项目简介瀚文智能键盘是一把我为自己设计的——多功能、模块化机械键盘。键盘使用模块化设计。左侧的...

E-Marker芯片,USB数据线的“性能中枢”?

根据线缆行业的研究数据,在2019年搭载Type-C接口的设备出货量已达到20亿台,其中80%的笔记本电脑和台式电脑采用Type-C接口,50%的智能手机和平板电脑也使用Type-C接口。我们都知道,...

ZQWL-USBCANFD二次开发通讯协议V1.04

修订历史:1.功能介绍1.1型号说明本文档适用以下型号:  ZQWL-CAN(FD)系列产品,USB通讯采用CDC类实现,可以在PC机上虚拟出一个串口,串口参数N,8,1格式,波特率可以根据需要设置(...

win10系统无法识别usb设备怎么办(win10不能识别usb)

从驱动入手,那么win10系统无法识别usb设备怎么办呢?今天就为大家分享win10系统无法识别usb设备的解决方法。1、右键选择设备管理器,如图:  2、点击更新驱动程序,如图:  3、选择浏览...

微软七月Win8.1可选补丁有内涵,含大量修复

IT之家(www.ithome.com):微软七月Win8.1可选补丁有内涵,含大量修复昨日,微软如期为Win7、Win8.1发布7月份安全更新,累计为6枚安全补丁,分别修复总计29枚安全漏洞,其中2...

如何从零开始做一个 USB 键盘?(怎么制作usb)

分两种情况:1、做一个真正的USB键盘,这种设计基本上不涉及大量的软件编码。2、做一个模拟的USB键盘,实际上可以没有按键功能,这种的需要考虑大量的软件编码,实际上是一个单片机。第一种设计:买现成的U...

电脑识别U盘失败?5个实用小技巧,让你轻松搞定USB识别难题

电脑识别U盘失败?5个实用小技巧,让你轻松搞定USB识别难题注意:有些方法会清除USB设备里的数据,请谨慎操作,如果不想丢失数据,可以先连接到其他电脑,看能否将数据复制出来,或者用一些数据恢复软件去扫...

未知usb设备设备描述符请求失败怎么解决

出现未知daousb设备设备描述符请求失du败解决办zhi法如下:1、按下Windows+R打开【运行】;2、在版本运行的权限输入框中输入:services.msc按下回车键打开【服务】;2、在服务...

读《飘》47章20(飘每章概括)

AndAhwouldn'tleaveMissEllen'sgrandchildrenfornotrashystep-patobringup,never.Here,Ah...

英翻中 消失的过去 37(消失的英文怎么说?)

翻译(三十七):消失的过去/茱迪o皮考特VanishingActs/JodiPicoult”我能做什么?“直到听到了狄利亚轻柔的声音,我才意识到她已经在厨房里站了好一会儿了。当她说话的时候,...

RabbitMQ 延迟消息实战(rabbitmq如何保证消息不被重复消费)

现实生活中有一些场景需要延迟或在特定时间发送消息,例如智能热水器需要30分钟后打开,未支付的订单或发送短信、电子邮件和推送通知下午2:00开始的促销活动。RabbitMQ本身没有直接支持延迟...

Java对象拷贝原理剖析及最佳实践(java对象拷贝方法)

作者:宁海翔1前言对象拷贝,是我们在开发过程中,绕不开的过程,既存在于Po、Dto、Do、Vo各个表现层数据的转换,也存在于系统交互如序列化、反序列化。Java对象拷贝分为深拷贝和浅拷贝,目前常用的...

如何将 Qt 3D 渲染与 Qt Quick 2D 元素结合创建太阳系行星元素?

Qt组件推荐:QtitanRibbon:遵循MicrosoftRibbonUIParadigmforQt技术的RibbonUI组件,致力于为Windows、Linux和MacOSX提...

取消回复欢迎 发表评论: