Auto Captcha Solver
Use this skill to solve simple captcha images in browser automation.
Supported Captcha Types
- - 4 to 6 character text captchas
- Distorted alphanumeric captchas
- Numeric captchas
- Simple rotated characters
- Arithmetic captchas (example:
3+8)
Do not use this skill for reCAPTCHA, hCaptcha, sliders, or click-object challenges.
Workflow
- 1. Detect a captcha image element from the page.
- Capture a screenshot buffer of the captcha.
- Run preprocessing (
grayscale, contrast normalization, resize, noise reduction). - Run OCR and clean output.
- Detect arithmetic patterns and evaluate if needed.
- Fill the captcha input and optionally submit.
Capture Guidance
- - Prefer screenshotting only the captcha element, not the full page.
- Accept only trusted
http or https image URLs when reading captcha image source. - Reject suspicious schemes like
javascript: or file:. - Enforce image size and pixel limits before OCR.
Return Format
Return a result object with:
- -
solved: boolean - INLINECODE10 : solved captcha text
- INLINECODE11 :
alphanumeric, numeric, arithmetic, or INLINECODE15 - INLINECODE16 : OCR confidence score
- INLINECODE17 : SHA1 image hash (cache key)
- INLINECODE18 : optional boolean when a cached answer is used
Module Map
- -
solve.js: main entry for solving an image buffer - INLINECODE20 : image normalization pipeline
- INLINECODE21 : OCR and text cleanup with multiple passes
- INLINECODE22 : SHA1 captcha cache
- INLINECODE23 : automation helpers for Playwright, Puppeteer, and Selenium
自动验证码破解器
使用此技能在浏览器自动化中破解简单的验证码图片。
支持的验证码类型
- - 4至6位字符文本验证码
- 扭曲的字母数字验证码
- 数字验证码
- 简单旋转字符验证码
- 算术验证码(例如:3+8)
请勿将此技能用于reCAPTCHA、hCaptcha、滑块或点击对象类挑战。
工作流程
- 1. 从页面中检测验证码图片元素。
- 截取验证码的屏幕截图缓冲区。
- 运行预处理(灰度化、对比度归一化、调整大小、降噪)。
- 运行OCR并清理输出结果。
- 检测算术模式并在需要时进行计算。
- 填写验证码输入框,并可选择提交。
截取指引
- - 优先仅截取验证码元素,而非整个页面。
- 读取验证码图片源时,仅接受可信的http或https图片URL。
- 拒绝可疑协议,如javascript:或file:。
- 在OCR之前强制执行图片尺寸和像素限制。
返回格式
返回包含以下内容的结果对象:
- - solved:布尔值
- value:破解后的验证码文本
- type:alphanumeric(字母数字)、numeric(数字)、arithmetic(算术)或unknown(未知)
- confidence:OCR置信度分数
- hash:SHA1图片哈希值(缓存键)
- fromCache:可选布尔值,表示是否使用了缓存答案
模块映射
- - solve.js:破解图片缓冲区的主入口
- preprocess.js:图片归一化处理管道
- ocr.js:OCR及多轮文本清理
- cache.js:SHA1验证码缓存
- browser.js:适用于Playwright、Puppeteer和Selenium的自动化辅助工具