在线客服

微信
扫一扫联系我

教程中心

Images

如何使用 Python 绕过 CAPTCHA

2024-07-19 11:07:04

在本教程中,您将发现:

  • 什么是 CAPTCHA
  • 它们是否可以用 Python 实现自动化
  • 评估 CAPTCHA 绕过 Python 解决方案时应注意什么
  • 使用 Python 绕过 CAPTCHA 的 5 大技巧
  • 最好的 Python CAPTCHA 求解器

让我们开始吧!

CAPTCHA:定义和类型

CAPTCHA“全自动区分计算机和人类的公共图灵测试”的缩写,是一种嵌入在网页、应用或软件中的挑战,用于区分人类用户和机器人。它通常涉及人类容易解决但自动化软件难以解决的任务。 

CAPTCHA 的目的是防止自动化系统访问或与网站或服务交互。保持 CAPTCHA 的有效性变得越来越具有挑战性,尤其是随着人工智能和神经网络的最新进展。这使得反机器人挑战变得更加复杂。 

现在,让我们探索一下目前使用最流行的 CAPTCHA 类型。

文本验证码

基于文本的 CAPTCHA 是最传统的 CAPTCHA 形式。它们会显示一串扭曲的字符和数字,用户必须正确识别和输入。自动化机器人面临的挑战是,它们通常很难识别扭曲或模糊的文本。

这些类型的 CAPTCHA 现在更容易被机器人解决,因此变得不那么流行了。

图像验证码

基于图像的 CAPTCHA 要求用户识别一系列图像中的特定物体或图案。在大多数情况下,系统会向用户显示一个图像网格,并且用户必须点击包含特定物体(例如交通信号灯、自行车、公共汽车或摩托车)的所有图像。

这些 CAPTCHA 的流行提供商是reCAPTCHA

声音验证码

对于难以通过视觉 CAPTCHA 的用户,基于声音的 CAPTCHA 通常是一种辅助选项。这些 CAPTCHA 提供了一段失真语音的音频片段,用户必须听完并正确转录。

谜题验证码

谜题 CAPTCHA 要求用户解答一个简单的谜题来证明自己是人类。这些谜题的范围从拼图游戏到基于逻辑的挑战。例如,用户可能需要将图像拖到正确位置或在视觉路径的末端放置一个点。

这些创意 CAPTCHA 的知名提供商是AWS WAF CAPTCHAhCaptcha

是否可以使用 Python 自动化 CAPTCHA?

CAPTCHA 的设计使其难以自动化,而且 Python 中也没有简单的解决方案来解决它们。不过,你可以尝试通过以下两种方法之一或两种方法来实现自动化:

  • 避免 CAPTCHA:使用真实世界的指纹在受控浏览器中模仿人类行为,以避免引起反机器人的注意,从而降低 CAPTCHA 发生的可能性。
  • 依靠 CAPTCHA 解决服务:将 CAPTCHA 外包给使用 AI、高级自动化工具和/或人工解决 CAPTCHA 挑战的优质在线服务。

执行这两种方法需要什么工具?Python CAPTCHA 解算器和/或旁路解决方案!

评估 CAPTCHA 绕过 Python 解决方案时需要考虑的方面

以下是在比较市场上最好的 CAPTCHA 绕过 Python 服务时需要检查的主要元素:

  • 功能:解决方案提供的特性和功能。
  • 性质:该工具是否是开源的还是付费的。
  • 正常运行时间:提供商保证的可用性百分比。
  • 成功率:解决 CAPTCHA 挑战的能力,以百分比表示。
  • CAPTCHA 绕过策略:解决方案是否避免 CAPTCHA、解决 CAPTCHA,或者两者兼而有之。
  • 支持的 CAPTCHA 提供商:服务可以处理的所有 CAPTCHA 提供商的列表。
  • Trustpilot 分数:用户在 Trustpilot 上留下的评论的平均分数。
  • 定价:Python CAPTCHA 求解器的成本。

使用 Python 绕过 CAPTCHA:5 种最佳方法

现在是时候探索使用 Python 绕过 CAPTCHA 的 5 大解决方案列表了,这些解决方案根据上面提到的标准进行选择和排名!

1. Web Unlocker 的 CAPTCHA 求解器

CAPTCHA Solver是 Bright Data 推出的一款解决方案,可无缝绕过众多提供商的 CAPTCHA。该工具模仿人类行为和浏览器指纹来规避 CAPTCHA,并利用人工智能算法来解决这些问题。

CAPTCHA Solver 是 Web Unlocker 的一部分,Web Unlocker 是一个一体化网络解锁 API,提供以下功能:

  • IP 轮换:动态更改 IP 地址以避免检测和阻止。
  • 自动重试:通过多次重试请求来确保成功的结果。
  • JavaScript 渲染:使用 JavaScript 处理动态站点以提取数据。
  • 全球覆盖:从任何地理位置访问本地化内容。
  • 高可扩展性:支持大规模数据抓取。
  • 引荐标头:通过设置真实的引荐标头来模拟来自受信任站点的流量。
  • Cookies 处理:管理 cookies,以防止因与 cookie 相关的因素而导致的阻止。

作为 API,可以使用任何浏览器自动化或 HTTP 客户端以任何编程语言(包括 Python)访问带有 CAPTCHA Solver 的 Web Unlocker。了解如何使用 Web Unlocker 绕过 CAPTCHA

这些功能使 CAPTCHA Solver 成为绕过 Python 中 CAPTCHA 的最佳解决方案。您可以免费试用或购买其中一个可用计划,起价为 3 美元/CPM(每个 API 调用 0.003 美元)。请注意,您只需为成功的请求付费,这几乎全部归功于令人印象深刻的 99% 的成功率。

借助这些解决方案,Bright Data 可以确保高效、合乎道德的网络抓取实践,不会中断或限制。

  • 功能:CAPTCHA 解决、反机器人绕过、浏览器指纹管理、通过代理集成进行 IP 轮换、自动请求重试、自动用户代理轮换、cookie 处理、自动设置引荐标头、全球地理覆盖、JavaScript 渲染、数据完整性验证等
  • 性质:高级云网络解锁 API,可与任何编程语言的任何 HTTP 客户端集成
  • 正常运行时间:99.9%
  • 成功率:99.9%
  • CAPTCHA 绕过策略:通过用户模拟和指纹管理 + CAPTCHA 解决来避免 CAPTCHA
  • 支持的 CAPTCHA 提供商:reCAPTCHA、Click Captcha、hCaptcha、PerimeterX、SimpleCaptcha、FunCaptcha、Cloudflare Turnstile、AWS WAF Captcha、GeeTest CAPTCHA、KeyCAPTCHA、Puzzle Captcha、Yandex Captcha、Image Captcha、Text Captcha 等
  • Trustpilot 评分:4.5/5
  • 定价:免费试用,之后每千次展示费用为 3 美元

2. 带有 Stealth 插件的 Playwright Extra

Playwright Extra 是 Playwright(流行的浏览器自动化和网页抓取工具)的一个特殊版本,支持插件。具体来说,playwright-stealth是 Playwright Extra 的一个 Python 插件,它使自动浏览器更难被反机器人机制检测到。 

Puppeteer Extra Stealth 插件的启发,Playwright Stealth 会覆盖一些浏览器配置,使其看起来更真实。最终目标是避免 CAPTCHA 和其他反机器人措施。查看我们的指南,了解如何使用 Playwright Stealth 避免机器人检测

阅读我们的教程,了解如何使用 Playwright 绕过 CAPTCHA。 

  • 功能:完整的浏览器自动化 API、支持 JavaScript 和 Python、防机器人绕过、E2E 测试 API、插件支持、调试功能等
  • 性质:开源
  • 正常运行时间:不适用
  • 成功率:未知
  • CAPTCHA 绕过策略:通过用户模拟和真实世界指纹设置避免 CAPTCHA
  • 支持的 CAPTCHA 提供商:基本反机器人 CAPTCHA
  • Trustpilot 评分:不适用
  • 价格:免费

3.AntiCaptcha

AntiCaptcha 是一家知名的 CAPTCHA 绕过服务公司,自 2007 年开始营业。该公司提供各种 CAPTCHA 解决服务,所有服务都可通过 Web 端点访问。该公司提供强大的 API、无缝浏览器插件集成,并支持 Selenium 和 Puppeteer 等自动化工具。

所有 CAPTCHA 均由人工解决,可通过官方库集成到多种编程语言中。具体来说,python-anticaptcha是 Python 的 AntiCaptcha 解决方案。请注意,该库的最新版本是在 2022 年,没有免费试用版,成功率未公开。

  • 功能:CAPTCHA 解决、用于自动 CAPTCHA 解决的浏览器插件、用于获取有用统计数据和报告的 API 
  • 性质:适用于 PHP、Python、Java、C#、JavaScript、Go、Ruby 的高级 CAPTCHA 绕过 API
  • 正常运行时间:99.99%
  • 成功率:未公开
  • CAPTCHA 绕过策略:通过人工解决 CAPTCHA
  • 支持的 CAPTCHA 提供商:通用图像 CAPTCHA、reCAPTCHA v2、reCAPTCHA v3、reCAPTCHA Enterprise v2/v3、hCaptcha、GeeTest、Arkose Labs、Cloudflare Turnstile
  • Trustpilot 评分:4.8/5
  • 定价:从 0.50 美元/CPM 到 2 美元/CPM

4. 带有 Stealth 库的 Selenium

Selenium 是一款功能强大的浏览器自动化工具,广泛用于测试和网页抓取。它提供了一致且完整的 API 来自动化浏览器并模仿用户行为。然而,由于 Selenium 配置浏览器的方式,它经常被反机器人技术检测到。

selenium-stealth是一个专为使 Selenium 更加隐秘而设计的 Python 包。该库可配置 Chrome 以避免大多数检测,从而实现更顺畅的自动化并提高多项自动化任务的成功率。Selenium Stealth 的一个常见用例是绕过 Python 中的 CAPTCHA。

在我们的教程中了解更多关于如何使用 Python 中的 Selenium 绕过 CAPTCHA 的信息

  • 功能:完整的浏览器自动化 API、反机器人绕过、E2E 测试 API 等
  • 性质:开源
  • 正常运行时间:不适用
  • 成功率:未知
  • CAPTCHA 绕过策略:通过用户模拟和真实世界指纹设置避免 CAPTCHA
  • 支持的 CAPTCHA 提供商:基本反机器人 CAPTCHA
  • Trustpilot 评分:不适用
  • 价格:免费

5. 2Captcha

2Captcha 是一项以人为本的 CAPTCHA 解决服务,旨在实现 CAPTCHA 绕过流程的自动化。它支持各种挑战,并通过将 CAPTCHA 分发给实时解决的人工工作人员来运行。 

2Captcha 提供 API 集成,官方库适用于各种编程语言。具体来说,用于 Python CAPTCHA 绕过的 2Captcha 包是2captcha-python

请注意,该提供商不提供任何免费测试或试用期。因此,如果您确实想测试其服务,则必须存入至少 1 美元。此外,Trustpilot 上有一些令人担忧的评论,并且未披露成功率和正常运行时间。

  • 功能:CAPTCHA 解决
  • 性质:适用于 Python、PHP、Java、C++、C#、Go 和 Ruby 的高级 CAPTCHA 绕过 API
  • 正常运行时间:未公开
  • 成功率:未公开
  • CAPTCHA 绕过策略:通过人工解决 CAPTCHA
  • 支持的 CAPTCHA 提供商:通用 CAPTCHA、通用文本 CAPTCHA、通用点击 CAPTCHA、通用旋转 CAPTCHA、reCAPTCHA V2 回调、KeyCAPTCHA、reCAPTCHA V2 Invisible、Capy Puzzle CAPTCHA、Cloudflare Turnstile、Amazon CAPTCHA、音频 CAPTCHA、MTCaptcha、DataDome CAPTCHA、CyberSiARA CAPTCHA、Cutcaptcha、友好 CAPTCHA、俄罗斯 CAPTCHA、中文 CAPTCHA、数字 CAPTCHA、数学 CAPTCHA、滑块 CAPTCHA、腾讯 Captcha、atbCAPTCHA
  • Trustpilot 评分:4.0/5
  • 定价:0.50 美元/CPM 至 50 美元/CPM

最佳 Python CAPTCHA 求解器

下面的汇总表总结了顶级 Python CAPTCHA 求解器解决方案所提供的内容:

结论

在本文中,您了解了 CAPTCHA 为何对自动化软件构成挑战,并探讨了在 Python 中实现自动化是否可行。您还发现了顶级 Python CAPTCHA 解算器解决方案的列表。

正如这里所强调的,Web Unlocker是用于从任何网页获取无 CAPTCHA HTML 的最佳解锁 API。此抓取 API 可处理浏览器指纹识别、提供自动重试,并集成代理以在每次请求时轮换退出 IP,还可为您处理 CAPTCHA 解析。使用 Python 自动执行 CAPTCHA 从未如此简单!

想要完全省去麻烦吗?查看数据集市场并下载免费样本。立即注册并立即开始免费试用。