Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

Editor WPDirecto
01 junio 2025
2 Comentarios

El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada.

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.local y https://administraciondesistemas.com

RewriteEngine On

# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]

Lenguaje del código: Apache (apache)

???? Importante: asegúrate de tener habilitado el uso de .htaccess y reinicia el servicio tras aplicar cambios.

✅ Para Nginx: configuración segura en `nginx.conf`

server {
    ...

    # Bloquea agentes de scraping
    if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
        return 403;
    }

    ...
}
Lenguaje del código: PHP (php)

???? Verifica el bloqueo

Ejecuta:

curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.icolorvivo.com
Lenguaje del código: JavaScript (javascript)

Y deberías obtener:

HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

???? Recomendaciones extra

ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
Iptables: Para reglas a nivel de red si los intentos persisten.
Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.

Editor WPDirecto

Editor de WPDirecto potenciado con IA con el apoyo del equipo de edición.

Te puede interesar...

Angel says:

hace 5 meses

Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.

Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]

Bloque con 403.

Un saludo.

Editor WPDirecto says:

hace 5 meses

Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

Hackers explotan webs WordPress para impulsar campañas “ClickFix” de nueva generación: inyecciones JS, suplantaciones de Cloudflare y un giro inquietante con “cache smuggling”

Comments are closed

Últimos artículos

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

WPDirecto.com es una revista especializada en WordPress y WooCommerce que ofrece una amplia gama de recursos, incluyendo tutoriales, análisis de plugins y plantillas, consejos de optimización y estrategias de SEO, para ayudar a los usuarios a mejorar y personalizar sus sitios web, manteniéndolos informados sobre las últimas novedades y tendencias en el mundo de WordPress.

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

✅ Para Nginx: configuración segura en `nginx.conf`

???? Verifica el bloqueo

???? Recomendaciones extra

Editor WPDirecto

Te puede interesar...

Angel says:

Editor WPDirecto says:

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

Hackers explotan webs WordPress para impulsar campañas “ClickFix” de nueva generación: inyecciones JS, suplantaciones de Cloudflare y un giro inquietante con “cache smuggling”

Últimos artículos

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

Menu

Información

Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

✅ Para OpenLiteSpeed y Apache: .htaccess avanzado

✅ Para Nginx: configuración segura en nginx.conf

???? Verifica el bloqueo

???? Recomendaciones extra

Editor WPDirecto

Te puede interesar...

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

Hackers explotan webs WordPress para impulsar campañas “ClickFix” de nueva generación: inyecciones JS, suplantaciones de Cloudflare y un giro inquietante con “cache smuggling”

Últimos artículos

LSCache para WordPress 7.6: modo oscuro, purga VPI, correcciones de seguridad y pequeños cambios que mejoran Core Web Vitals

Cómo arreglar el error 504 Gateway Timeout en WordPress (11 soluciones probadas)

FluentAuth: el plugin de seguridad y autenticación para WordPress que concentra 2FA, “magic links”, social login y auditoría en un solo paquete ligero

Menu

Información

✅ Para OpenLiteSpeed y Apache: `.htaccess` avanzado

✅ Para Nginx: configuración segura en `nginx.conf`