Bright Data Brightbot Crawler
¿Qué es Brightbot?
Brightbot es el rastreador de recopilación de datos de Bright Data. Su objetivo es ser el principal canal de recopilación de datos para todos los productos y servicios de Bright Data. Cuenta con una capa de caché integrada que evita la descarga repetitiva de los mismos datos durante un periodo de 24 horas, a menos que exista una justificación comercial única para una excepción. Utiliza amplias medidas tecnológicas para garantizar el uso justo de los recursos disponibles del sitio web y evitar abusos. La actividad de Brightbot es completamente transparente, ya que utiliza su propio agente de usuario y subred IP de origen únicos. Por lo tanto, su tráfico y sus actividades pueden separarse completamente del tráfico de los usuarios, y pueden rastrearse e incluso controlarse mediante la consola Web Master y el archivo collectors.txt de Bright Data.
¿Cómo se puede identificar el tráfico de Brightbot?
Brightbot se puede identificar fácilmente por dos parámetros:
- User-Agent: «Brightbot 1.0»
- Subred IP de origen 82.97.199.0/24
El uso de ambos garantizará una identificación precisa.
¿Por qué los sitios web deberían incluir a Brightbot en su lista blanca?
- Filtra el tráfico de recopilación de los datos de análisis de uso y del motor de recomendaciones.
- Protección del 99,99 % contra el abuso: una vez que Brightbot está en la lista blanca del sitio web, Bright Data está listo para obligar a todos los clientes a trabajar solo a través de Brightbot, a riesgo de perder a algunos de ellos, con el fin de obtener un control del 100 % sobre el tráfico.
- Reducir los reintentos y las solicitudes de recursos duplicadas.
- Separar el tráfico y limitar los recursos que lo gestionan.
- Obtenga transparencia sobre lo que otros ven en su sitio web: se proporcionan estadísticas y paneles de control.
- Tome decisiones mucho más informadas sobre qué (si es que hay algo) se traslada a páginas protegidas por un inicio de sesión, en lugar de datos públicos.
¿Qué es la consola Web Master?
La consola para webmasters es la forma que tiene Bright Data de comunicarse con los propietarios de sitios web. Permite a los propietarios de sitios web registrar la propiedad de su dominio en la consola y obtener transparencia y control sobre el tráfico de recopilación dirigido a esos dominios.
El método de autenticación es sencillo, ya que solo hay que añadir un token generado en la entrada DNS del dominio.
En la página de estadísticas de cada dominio, el propietario puede obtener estadísticas sobre el estado del dominio, medidas por Bright Data, y estadísticas de tráfico.

Alertas
En la consola, el webmaster puede añadir reglas de alerta que permiten al usuario realizar un seguimiento y recibir alertas cuando se accede a determinados tipos de información, por ejemplo, al escanear los datos en busca de información de identificación personal, al acceder a puntos finales específicos de sitios web, etc.


¿Qué es collectors.txt?
El archivo collectors.txt es un recurso configurable proporcionado por Web MasterConsole de Bright Data, que permite al administrador web definir directrices para la recopilación ética y eficiente de datos de sus sitios web. Su objetivo principal es mejorar la transparencia y el control mediante la comunicación de reglas y limitaciones de acceso específicas a Brightbott, el rastreador web de Bright Data. El administrador web puede utilizar collectors.txt para especificar puntos finales que contengan información de identificación personal (PII), denegar el acceso a elementos interactivos como enlaces publicitarios o reseñas, informar sobre las cargas de tráfico orgánico, actualizar el estado de los derechos de autor de los datos y definir los periodos de mayor tráfico para evitar la sobrecarga de recursos. Este archivo garantiza que la recopilación de datos se ajuste a las leyes de privacidad y a las restricciones de recursos, promoviendo una interacción responsable con el sitio web. Una vez configurado, Bright Data revisa el archivo collectors.txt y Brightbot aplica las directrices aprobadas durante sus operaciones.
Tecnología de protección
A lo largo de los años, Bright Data ha añadido muchas funciones y capas de tecnología para ayudar a identificar, prevenir y mitigar el abuso intencionado o accidental de su red. Las herramientas de cumplimiento, como Verificación KYC, se detallarán en la sección de cumplimiento. Aquí nos centramos en la tecnología automática desplegada para este fin.
Monitores de estado (protección contra DDoS)
Para cada dominio al que se dirigen los productos de Bright Data, el sistema abre un monitor de estado. El monitor de estado realiza un seguimiento de la capacidad de respuesta del dominio las 24 horas del día, los 7 días de la semana, en todas las ubicaciones geográficas y franjas horarias. Cada monitor de estado también recibe un feed del tráfico agregado de Bright Data dirigido al dominio que está supervisando en tiempo real. Si el monitor encuentra una correlación entre el tráfico de Bright Data y una degradación en la capacidad de respuesta del dominio, aplicará un límite de velocidad correspondiente a la última velocidad de tráfico que no tuvo un impacto adverso en el dominio. Este límite de velocidad se almacena en caché y no se elimina.
A continuación se muestra un ejemplo de un caso de este tipo: el impacto se identificó y se aplicó un límite de velocidad en 2 minutos. El marcador rojo muestra el tráfico que fue bloqueado posteriormente por Bright Data y el RTT del sitio web volviendo a la normalidad.

Clasificaciones de dominios
Bright Data clasifica todos los dominios a los que se dirigen sus clientes en cada producto. Cada día se clasifican más de 300 000 dominios nuevos. Algunas clasificaciones se incluyen en una lista negra permanente, como el malware y el phishing, y algunas categorías se bloquean de forma predeterminada, pero se permite dirigirse a ellas con una revisión y aprobación especiales por parte del departamento de cumplimiento, como en el caso de las agencias gubernamentales y las ONG.

Bloqueos de autenticación y cookies
Por defecto, Bright Data considera que todos los datos detrás del inicio de sesión son privados. Por lo tanto, en todo el tráfico visible, Bright Data bloquea el uso de cookies de autenticación y, cuando se utilizan navegadores, Bright Data también bloquea la posibilidad de escribir contraseñas.
Se puede obtener un permiso especial enviando una solicitud a compliancDCe; el permiso se concederá en casos muy excepcionales en los que el propietario de los datos haya consentido específicamente el acceso del cliente.
Seguimiento de casos de uso
Durante la Verificación KYC, se registran los dominios y verticales objetivo declarados por el cliente al solicitar el acceso a la red de Proxies residenciales.
Tras la aprobación, Bright Data realiza un seguimiento del uso del cliente y, si se desvía de los casos de uso declarados, se envía una notificación al equipo de cumplimiento, que lo investigará con el cliente.
Cumplimiento y ética
- Política de uso aceptable -
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Proceso de Verificación KYC (Conozca a su cliente) de Bright Data -
https://brightdata.com/trustcenter/kyc - Supervisión del uso -
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - Clasificación de dominios -
https://brightdata.com/trustcenter/ethical-network-use-classification - Prevención y gestión del abuso -
https://brightdata.com/trustcenter/abuse - Protección de la WWW -
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - Supervisión web -
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - Infosec -
https://brightdata.com/trustcenter/data-security-overview-protection-measures