En este artículo trataremos:
- ¿Qué conjuntos de datos pueden ser problemáticos de recopilar?
- Las mejores formas de garantizar que la recopilación de datos siga las mejores prácticas
¿Qué datos de sitios web pueden ser problemáticos de recopilar?
Debe evitar recopilar:
- Datos protegidos con contraseña
- Información protegida por derechos de autor
- Información de identificación personal (PII), por ejemplo, nombre, dirección de correo electrónico, fecha de nacimiento, número de teléfono, información de facturación, etc.
La recopilación de este tipo de datos puede tener importantes implicaciones legales y financieras para su empresa. Esto se debe al Reglamento General de Protección de Datos (RGPD) y a la Ley de Privacidad del Consumidor de California (CCPA), que estipulan que las empresas pueden ser multadas por incumplimiento.
**Ningún contenido de esta publicación constituye asesoramiento jurídico. Antes de realizar cualquier cambio o tomar cualquier decisión que afecte a la forma en que recopila datos o al tipo de datos que recopila, consulte con un asesor jurídico.**
Las mejores formas de garantizar que la recopilación de datos se realiza correctamente
N.º 1: Realice una recopilación de datos específica
En lugar de limitarse a recopilar grandes volúmenes de datos o sitios web completos que pueden contener datos privados, identifique qué datos son esenciales para los proyectos para los que los recopila y recopile solo esos. Por ejemplo, en lugar de recopilar perfiles completos de redes sociales, recopile solo publicaciones/comentarios relacionados con su producto o sector para evaluar la opinión del público objetivo.
N.º 2: Recopile solo datos disponibles públicamente
La recopilación de datos puede ser complicada. Muchos puntos de datos de código abierto pueden ser técnicamente difíciles de recopilar debido a la compleja arquitectura del sitio de destino, pero estos datos son públicos y su rastreo es completamente legal. Sin embargo, si los datos están protegidos por contraseña o definidos por la ley como PII, es decir, indicativos de la identidad personal de un individuo, entonces deben evitarse. Asegúrese de contar con políticas y procedimientos de recopilación de datos que garanticen que los recopiladores solo supervisen datos de código abierto.
N.º 3: Revise los archivos Robots.txt del sitio web de destino
Estos archivos existen en todos los sitios web y, básicamente, definen lo que los robots/arañas/rastreadores pueden y no pueden hacer en el sitio. Se trata de un directorio raíz que se puede encontrar añadiendo «/robots.txt» al final de cualquier dominio público. Asegúrese de comprobarlos y de que sus rastreadores web siguen estas directrices cuando rastrean los sitios de destino.
N.º 4: Utilice una herramienta sofisticada de recopilación de datos
Herramientas como la API Web Scraper de Bright Data le permiten especificar exactamente qué campos de datos recopilar, evitando así los datos personales y cualquier otro Conjunto de datos no deseado.
El compromiso de Bright Data de mantener la privacidad de los datos privados es de suma importancia, por lo que hemos lanzado una herramienta que le permite saber si sus datos disponibles públicamente han sido recopilados por las plataformas de recopilación de datos de Bright Data. A continuación, puede solicitar que se elimine esta información, lo cual forma parte de nuestro compromiso con la total transparencia y el cumplimiento de la ley.
Conclusión
Asegurarse de que solo recopila conjuntos de datos que sean 100 % éticos y cumplan con la normativa es extremadamente importante para el valor a largo plazo de su negocio. Evite riesgos implementando hoy mismo una o todas las sugerencias mencionadas anteriormente. ¿Le interesa saber más sobre los productos? ¡Regístrese ahora y comience su prueba gratuita de Proxy o descargue muestras gratuitas de conjuntos de datos!