El scraping masivo puede poner en jaque el rendimiento y la seguridad de tu servidor web. Herramientas automatizadas como Scrapy, curl, o python-requests suelen utilizarse para recolectar contenido de forma no autorizada.
.htaccess avanzado# Recomendaciones para bloquear bots que saturan tu web
# Cortesía de https://wpdirecto.local y https://administraciondesistemas.com
RewriteEngine On
# Bloquear agentes de scraping conocidos
RewriteCond %{HTTP_USER_AGENT} (scrapy|python-requests|curl|wget|libwww|httpunit|nutch) [NC]
RewriteRule ^.* - [F,L]
Lenguaje del código: Apache (apache)
???? Importante: asegúrate de tener habilitado el uso de
.htaccessy reinicia el servicio tras aplicar cambios.
nginx.confserver {
...
# Bloquea agentes de scraping
if ($http_user_agent ~* (scrapy|python-requests|curl|wget|libwww|httpunit|nutch)) {
return 403;
}
...
}
Lenguaje del código: PHP (php)
Ejecuta:
curl -A "Scrapy/2.9.0 (+https://scrapy.org)" -I https://wpdirecto.icolorvivo.com
Lenguaje del código: JavaScript (javascript)
Y deberías obtener:
HTTP/1.1 403 Forbidden
Lenguaje del código: HTTP (http)

Angel says:
Ese código lo que hace tambien, es bloquear las respuestas de los pedidos de redsys.
Lo habia aplicado en 3 ecommerce y lo he tenido que modificar, por esta linea requests|curl|wget|libwww|httpunit|nutch|java) [NC]
Bloque con 403.
Un saludo.
Editor WPDirecto says:
Gracias por el apunte Ángel, hemos quitado en el ejemplo la referencia a Java para evitar ese problema para futuros usuarios que lo copien.