«Los 10 mandamientos de la recopilación ética de datos» (desde un punto de vista técnico)

La recopilación ética de datos tiene manifestaciones muy concretas en cuanto al funcionamiento diario de una red. Esto es lo que debe tener en cuenta
8 min de lectura
Ethical Data Collection Ten Commandments

En este artículo trataremos:

¿Qué hace que una red de recopilación de datos sea ética desde un punto de vista técnico?

[1] Realizar procedimientos de Verificación KYC.

  • Todos los usuarios potenciales de la red deben someterse a un estricto proceso de selección llevado a cabo por un empleado de alto rango y/o un responsable de cumplimiento normativo.
  • Si un cliente potencial es una empresa, se deben revisar los siguientes elementos: (i) el registro de la empresa para garantizar que es real, (ii) el sitio web de la empresa, (ii) el dominio de correo electrónico de la empresa (iv) los perfiles de la empresa en las redes sociales.
  • En el caso de los clientes autónomos potenciales, las entrevistas en vídeo y la prueba física de identificación deben ser un requisito previo. Las redes de recopilación de datos también deben confirmar que la dirección física es legítima y que la dirección IP y las direcciones de facturación de la tarjeta de crédito coinciden.

[2] Bloqueo de puntos finales API susceptibles de ser objeto de acciones legales

Las redes de recopilación de datos éticas deben bloquear los puntos finales de API que puedan ser objeto de uso indebido y abuso, entre los que se incluyen:

Creación de cuentas falsas (en redes sociales, sitios de reseñas, instituciones financieras, etc.)

Fraude publicitario (por ejemplo, fraude de clics)

Reseñas ficticias (incluidas valoraciones falsas de productos, reseñas de servicios y votaciones masivas)

[3] Supervisar el uso de la red global

Se debe supervisar el uso de la red global para garantizar que no se acerque ni remotamente a las tasas de ataques de denegación de servicio (DDoS). En caso de que las tasas de tráfico empiecen a aumentar, se reducirán automáticamente.

El monitor de tráfico no solo supervisa el tráfico de un cliente específico hacia un dominio de destino específico, sino también el tráfico agregado de todos los clientes de todos los productos hacia ese dominio de destino, de modo que se produzca una situación de DDoS involuntario.

Mapping out how a DDOS attack works, with attacker setting up zombie computer to then enter the proxy network and attack a victim computer

Fuente de la imagen: Bright Data

Además, los gerentes de cuenta deben realizar un control minucioso de los Registros de eventos de los clientes una vez que se han concedido los permisos de red. Si se encuentra una discrepancia entre el caso de uso de Verificación KYC de dicho cliente y la actividad práctica de su cuenta, esta debe cancelarse de forma permanente.

Por ejemplo, un cliente que afirma estar realizando pruebas en un sitio web, pero que en realidad intenta utilizar la red para llevar a cabo un fraude publicitario. Mediante la supervisión, los equipos de cumplimiento pueden identificar este tipo de abusos de la red y detenerlos de inmediato.

[4] La regla del límite de tráfico por sitio: no causar daños

Las redes de recopilación de datos deben garantizar que su actividad no interfiera en la calidad habitual del servicio del sitio. Incluso si la tarea de recopilación consume el 10 % de los recursos del sitio y no se acerca a las proporciones de un DDoS, puede afectar al rendimiento y a la recopilación de estadísticas operativas, lo que provocará que el equipo de producto del sitio web llegue a conclusiones erróneas sobre el comportamiento de sus usuarios.

Por lo tanto, las redes de recopilación de datos deben estudiar sus objetivos y establecer límites por dominio de acuerdo con los niveles de tráfico operativos estándar del sitio. Esto garantiza que no se perjudique a los niveles de servicio, al tiempo que ayuda a mantener las estadísticas de uso del sitio.

[5] Inclusión en la lista negra de dominios no públicos

Los proveedores de datos éticos deben incluir en la lista negra los dominios que no contengan información pública y de código abierto que pueda ser objeto de actividades abusivas. Esto puede incluir:

Ataques a servidores de pago: esto puede incluir desde compras ilegales con credenciales falsas o robadas hasta piratería informática y ataques DDoS.

Interrupción del servidor API: puede tratarse de un ataque directo a los servidores web, a las aplicaciones o a ambos.

[6] Consentimiento de los pares

Las redes de recopilación de datos legítimas solo dirigirán el tráfico a través de dispositivos pares una vez que se haya dado el consentimiento activo a una descripción detallada de los términos de uso. Por defecto, el usuario no está inscrito. Esto debería ser un intercambio justo, lo que significa que las redes de recopilación de datos pueden dirigir el tráfico a través de dispositivos pares y, por otro lado, los pares reciben una compensación por dichos recursos. Esto puede incluir una suscripción gratuita mejorada, una versión sin anuncios de la aplicación o cualquier otra cosa que influya positivamente en la experiencia del usuario.

[7] Recursos inactivos

Las redes de recopilación de datos éticas se comprometen a utilizar los recursos de los pares (es decir, a redirigir el tráfico) solo bajo condiciones estrictas, garantizando que la experiencia del usuario no se vea afectada o se vea afectada mínimamente. Estas condiciones deben garantizar, como mínimo, que los dispositivos de los usuarios:

  • Estén inactivos (sin uso) cuando se enruta el tráfico.
  • Estén conectados a WiFi utilizando cantidades muy limitadas de datos 3G/LTE
  • Tengan suficiente batería

El ancho de banda medio por par debe variar según la geolocalización. El promedio global recomendado en la práctica debe ser de 8 MB por par y día, es decir, la mitad del tamaño de cualquier página de producto de Amazon.

conditions for using opt-in device - when device is not in use, connected to WIFI connection and has enough batter powerFuente de la imagen: Bright Data

[8] Limitaciones de red establecidas

Las plataformas de recopilación de datos éticas supervisan y limitan el tráfico a través de los dispositivos de los pares individuales con el fin de consumir recursos insignificantes en comparación con el uso propio del usuario. Por ejemplo, si un usuario medio visita varios sitios web durante el día, escucha música y ve algunos vídeos cortos, el uso de una plataforma de recopilación de datos ética, en comparación, equivaldría a cargar una sola página de productos de Amazon en un navegador normal.

[9] Optar por participar/Optar por no participar

Las redes de recopilación de datos deben basarse en una red democrática entre pares. Las personas que componen esta red deben tener la libertad de optar por participar o no en cualquier momento. Este es un principio básico de la transparencia en Internet que debe respetarse para garantizar un flujo descentralizado y libre de datos e información.

[10] Cumplimiento del RGPD (seguridad, almacenamiento e información de identificación personal)

Las redes de recopilación de datos éticas deben cumplir las normas del RGPD, entre las que se incluyen, entre otras, las siguientes:

  • Recopilar solo direcciones IP como información de identificación personal con el pleno consentimiento del usuario, protegiendo la privacidad de los usuarios y sin recopilar ninguna otra información privada o estadísticas de comportamiento. No se recopila absolutamente ningún dato del usuario ni sobre él.
  • Cumplimiento total de las normas del RGPD y la CCPA en materia de seguridad y almacenamiento de los datos recopilados, como los IDE de Scrapers de web del RGPD y los procesadores de datos del RGPD.

Conclusión

Bright Data cumple los 10 mandamientos éticos de la recopilación de datos. Se recomienda actuar con la debida diligencia al seleccionar una plataforma de recopilación de datos, con el fin de garantizar:

  • El valor a largo plazo de la información.
  • La viabilidad legal de los datos y los análisis, productos y servicios derivados.
  • La seguridad de sus redes, sistemas y software

Y, por último, el ingrediente que destaca por encima de todo es la transparencia: debe mostrar transparencia y demostrar fiabilidad, por lo que, como pauta, esté abierto a cambios frecuentes y a comprobar y probar con frecuencia sus directrices, ya que se trata de un ámbito en rápida evolución y no es fácil hacerlo bien.