Conjuntos de datos de GitHub

Los conjuntos de datos de GitHub ofrecen una fuente dinámica de datos que impulsa la innovación y permite a las empresas y a los investigadores extraer información valiosa

Obtener conjunto de datos
  • Cientos de miles de registros disponibles
  • Accede a los principales puntos de datos de Github
  • Muestras de datos gratuitas de Github para descargar
GitHub dataset hero image

Muestra del conjunto de datos de GitHub

El conjunto de datos del repositorio de GitHub proporciona información esencial sobre el mundo del «software» de código abierto. Con información completa sobre los lenguajes de codificación, los tamaños de los repositorios y las contribuciones de los usuarios, este conjunto de datos permite a los usuarios profundizar en las complejidades del desarrollo de «software».

Conjuntos de datos populares de Github

Repositorio de Github

El conjunto de datos del repositorio de Github incluye los puntos de datos principales, como URL, ID, lenguaje del código, número de líneas, nombre de usuario, URL de usuario, tamaño, unidad de tamaño, número de incidencias y mucho más.

Código Rust del repositorio de Github

El subconjunto de código Rust del repositorio de Github incluye los puntos de datos principales como URL, ID, lenguaje del código, número de líneas, nombre de usuario, URL de usuario, tamaño, unidad de tamaño, número de incidencias y mucho más.

Repositorio de Github con más de 100 líneas

El subconjunto de más de 100 líneas del repositorio de Github incluye los puntos de datos principales como URL, ID, lenguaje del código, número de líneas, nombre de usuario, URL de usuario, tamaño, unidad de tamaño, número de problemas y mucho más.

Precios de conjuntos de datos

Refresh rate
200K
500K
1M
5M
20M
Complete Dataset
3TB
  • Libres y validados
  • Se actualiza cada mes
  • JSON/CSV/Parquet

Conjuntos de datos de Github adaptados a tus necesidades

Obtén conjuntos de datos que sean fáciles de usar y que estén estructurados para cualquier tipo de caso práctico

Suscripción a datos

Suscríbete para acceder a conjuntos de datos por un precio mucho más bajo.

Formatos de exportación de los archivos

JSON, NDJSON, JSON Lines, CSV, Parquet. Compresión opcional en .gz.

Entrega flexible

Snowflake, almacenamiento de Amazon S3, Google Cloud, Azure y SFTP.

Datos ajustables a escala

Ajusta la escala sin preocuparte por la infraestructura, por los servidores proxy o por los bloqueos.

Ahorro de costes

Personaliza cualquier conjunto de datos con filtros y con opciones de formato.

Mantenimiento de código

Los conjuntos de datos se mantienen en función de los cambios que se realicen en la estructura del sitio web.

Integraciones simplificadas

Saca partido de las integraciones con Snowflake y AWS.

Servicio de asistencia disponible las 24 horas del día

Un equipo exclusivo de expertos en datos está aquí para ayudarte.

Líderes en cumplimiento

Los datos se obtienen de forma ética y cumplen con todas las leyes de privacidad.

Consigue datos de Github estructurados y fiables

Te facilitamos los datos mientras tú te centras en lo demás

Datos web de gran volumen

Con nuestras funciones de desbloqueo y de rotación de las direcciones IP las 24 horas del día, garantizamos el acceso a todos los puntos de datos de un sitio web.

Datos para uso inmediato

Todos los aspectos del proceso de recopilación de datos se validan a fondo como parte de nuestro potente proceso de validación de datos.

Flujo de datos automatizado

Crea cronogramas personalizados para automatizar la entrega de datos y comprueba cómo los datos fluyen sin problemas hacia su almacenamiento.

Cómo utilizan las empresas los conjuntos de datos de GitHub

Actividad de desarrolladores

Usa los conjuntos de datos de GitHub para hacer un seguimiento del progreso y el estado de los proyectos de código abierto. Puntos de datos como los historiales de confirmaciones, las solicitudes de incorporación de cambios y las conversaciones sobre incidencias brindan información sobre el impulso del proyecto y la participación de los desarrolladores. Las empresas pueden usar los datos para identificar posibles colaboraciones o estar al día de las tendencias tecnológicas.
Obtener conjunto de datos
Developer activity

Participación de la comunidad

Evalúa la popularidad y el apoyo de la comunidad a los proyectos de código abierto analizando los conjuntos de datos de GitHub que incluyen recuentos de estrellas y bifurcaciones. Estas métricas ayudan a las empresas a evaluar el interés y la fiabilidad potencial de los proyectos, lo que les permite decidir qué tecnologías adoptar o a cuáles contribuir.
Obtener conjunto de datos
Community involvement

Mejora la participación

Aprovecha los datos del perfil de usuario de GitHub de acceso público para fomentar la promoción y el compromiso dentro de la comunidad de código abierto. Al identificar a los usuarios que participan activamente en los repositorios de tu dominio y conectar con ellos, puedes crear una red de defensores que amplifiquen tus proyectos e impulsen el desarrollo colaborativo.
Obtener conjunto de datos
Improve engagement

Preguntas frecuentes sobre el conjunto de datos de GitHub

El conjunto de datos de GitHub incluye diferentes puntos de datos que se adaptan a tus necesidades. Algunos de los puntos de datos incluyen: URL, ID, código, lenguaje de código, número de líneas, nombre de usuario, URL de usuario, tamaño, unidad de tamaño, número de tamaño, número de proyectos, número de bifurcaciones, número de estrellas y mucho más.

Sí, puedes obtener actualizaciones diarias, semanales, mensuales o personalizadas de tu conjunto de datos de GitHub.

Sí, puedes comprar un subconjunto de GitHub que incluirá solo los puntos de datos que necesites. Al comprar un subconjunto de datos, el precio se reduce de forma notable.

Los formatos de los conjuntos de datos son JSON, NDJSON, JSON Lines, CSV o Parquet. Si lo prefieres, los archivos se pueden comprimir en formato .gz.

Si no quieres comprar un conjunto de datos, puedes empezar a raspar datos de GitHub utilizando nuestra API de raspado para GitHub.

Sí, puedes solicitar datos de muestra para evaluar la calidad y la relevancia de la información facilitada. Es una buena forma de asegurarte de que satisface tus necesidades antes de decidirte por un conjunto de datos completo.

Sí, puedes solicitar puntos de datos específicos del conjunto de datos de GitHub adaptados a tus necesidades únicas, asegurándote de que recibes exactamente la información que necesitas para tus proyectos.

Por supuesto, el conjunto de datos de GitHub ofrece una integración API sin fisuras, lo que te permite integrar sin esfuerzo los datos en tu CRM, herramientas de análisis o cualquier otro sistema que utilices, agilizando tus operaciones.

Consigue hoy mismo tu conjunto de datos de Github.