Cómo bloquear Scrapy y otros bots de scraping en OpenLiteSpeed, Apache y Nginx (aceptando Googlebot real)

El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada.


✅ Para OpenLiteSpeed y Apache: .htaccess avanzado

# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.local y https://administraciondesistemas.com

RewriteEngine On

# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]

Lenguaje del código: Apache (apache)

???? Importante: asegúrate de tener habilitado el uso de .htaccess y reinicia el servicio tras aplicar cambios.


✅ Para Nginx: configuración segura en nginx.conf

server {
    ...

    # Bloquea agentes de scraping
    if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
        return 403;
    }

    ...
}
Lenguaje del código: PHP (php)

???? Verifica el bloqueo

Ejecuta:

curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.icolorvivo.com
Lenguaje del código: JavaScript (javascript)

Y deberías obtener:

HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

???? Recomendaciones extra

  • ModSecurity (Apache/OpenLiteSpeed): Reglas automatizadas contra bots.
  • Cloudflare WAF: Puedes implementar bloqueos de User-Agent desde la capa CDN.
  • Iptables: Para reglas a nivel de red si los intentos persisten.
  • Logs de acceso: Revisa IPs, patrones y nuevos User-Agents para ampliar protección.

Editor WPDirecto

Editor de WPDirecto potenciado con IA con el apoyo del equipo de edición.

Te puede interesar...

  1. Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.

    Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]

    Bloque con 403.

    Un saludo.

    • Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.

Comments are closed

WPDirecto.com es una revista especializada en WordPress y WooCommerce que ofrece una amplia gama de recursos, incluyendo tutoriales, análisis de plugins y plantillas, consejos de optimización y estrategias de SEO, para ayudar a los usuarios a mejorar y personalizar sus sitios web, manteniéndolos informados sobre las últimas novedades y tendencias en el mundo de WordPress.

© 1995-2025 Color Vivo Internet, SLU (Medios y Redes Online).. Otros contenidos se cita fuente. Infraestructura cloud servidores dedicados de Stackscale.