Conjuntos de datos de GitHub
Los conjuntos de datos de GitHub ofrecen una fuente dinámica de datos que impulsa la innovación y permite a las empresas y a los investigadores extraer información valiosa
- Cientos de miles de registros disponibles
- Accede a los principales puntos de datos de Github
- Muestras de datos gratuitas de Github para descargar
Confiado por 20,000+ clientes
Available datasets
Access fresh validated GitHub datasets. Ensure hassle-free data access by using ready-made scrapers.
- Demo data in JSON/CSV
- Fresh records
- Customize, enrich, and format the data
LinkedIn people profiles
Amazon products
LinkedIn company information
Instagram - Profiles
Crunchbase companies information
Linkedin job listings information
Zillow properties listing information
Instagram - Posts
LinkedIn posts
X (formerly Twitter) - Posts
TikTok - Profiles
Facebook - Pages Posts by Profile URL
Shopee - products
Amazon Reviews
Youtube - Videos posts
TikTok - Posts
Indeed job listings information
Walmart - products
Employees business enriched dataset
Companies information enriched dataset
Google Maps full information
TikTok Shop
YouTube - Profiles
IMDB media
X (formerly Twitter) - Profiles
Glassdoor companies overview information
Airbnb Properties Information
Google News
Yahoo Finance business information
Google maps reviews
Instagram - Reels
Booking Hotel Listings
Shein- Products
Reddit- Posts
Facebook - Comments
Instagram - Comments
Yelp businesses overview
LinkedIn profiles Jobs Listings
Zoominfo companies information
Glassdoor companies reviews
Otodom Poland
pitchbook companies information
Glassdoor job listings information
eBay
Amazon sellers info
Amazon products global dataset
G2 software product overview
Google Shopping
Github repository
Amazon best seller products
Australia real estate properties
Facebook - Posts by group URL
TikTok - Comments
Facebook Marketplace
Google Play Store
Home Depot US
Facebook - Posts by post URL
G2 software - product reviews
Etsy
Booking Listings Search
Amazon products search
Trustpilot business reviews
Goodreads books
Amazon Walmart
Yelp businesses reviews
Zara - Products
Reddit - Comments
World population
Zillow price history
Indeed companies info
Zoopla properties listing information
Lazada - Products
Target
Wikipedia articles
NBA players' stats
Pinterest - Posts
Best Buy products
Youtube - Comments
Ikea - Products
Realtor international properties listings
Ozon.ru products
Sephora products
OLX Brazil - marketplace ads
BBC news
Facebook Events
Google Play Store reviews
Myntra products
Walmart sellers info
Facebook - Reels by profile URL
Facebook Company Reviews
Lowes.com
Xing social network
Owler companies information
Creative Commons Images
Google Shopping products search US
H&M - Products
US lawyers directory
Apple App Store reviews
Tokopedia Products
Webmotors Brasil - Cars Listings
Digikey - Products
Slintel 6sense company information
CNN news
Mouser - Products
Manta businesses
Naver products
Wildberries.ru products
Wayfair products
Agoda Properties Listings
Zonaprop Argentina - Properties Listing
Chileautos Chile - Cars Listings
Pinterest - Profiles
Carsales Cars Listings search page information
Quora posts
Inmuebles24 Mexico - Properties Listings
Zalando products
carsales.com.au - Cars Listings
VentureRadar company information
Yapo Chile - marketplace ads
Lazada - Reviews
Asos - Products
Bluesky - Posts
Lego - Products
Hermes- Products
Trustradius product reviews
Vimeo - Videos posts
World zipcodes
Metrocuadrado - Properties Listings
Home Depot CA
Chanel Products
Top 500 Bluesky Profiles
Lazada products search (GMV)
Toctoc - Properties Listings
Dior - Products
Apple App Store
Creative Commons 3D Models
Ashleyfurniture - Products
AE.com - Complete Products
Properati Argentina and Colombia - Properties Listings
Infocasas Uruguay - Properties Listings
Mango Products
Mediamarkt.de products
Balenciaga.com - Products
Fanatics.com - Products
Toysrus - Products
Twitch - streams dataset
Carters.com - Products
Zara Home Products
Prada.com - Products
Crateandbarrel - Products
Loewe.com - Products
Ysl.com - Products
Delvaux - Products
Fendi Products
Massimo Dutti - Products
Mattressfirm - Products
Bottegaveneta.com - Products
ChatGPT Search
Sleepnumber.com - Products
Mybobs.com - Products
Celine.com - Products
Facebook - Profiles
Raymourflanigan.com - Products
Berluti.com - Products
La-z-boy.com - Products
Montblanc - Products
Walmart - products zipcodes
llbean.com - Products
Moynat.com - Products
Rona.ca products
Threads - Posts
Google AI Mode Search
Zillow Full Properties Information
Agoda Listings Search
Threads - Profiles
Grok Search
Zillow properties search page
Perplexity Search
LinkedIn people search
Walmart products search
mercadolivre.com.br products
Gemini Search
Bing Copilot Search
Snapchat posts
Google SERP - 100 Results
TikTok - Posts by URL Fast API
Snapchat profile
Agoda Properties Listings with Pricing
TikTok - Posts by Search URL Fast API
TikTok - Posts by Profile Fast API
Coupang products
TikTok Shop Category Products
Booking Hotel Listings with Pricing
Muestra del conjunto de datos de GitHub
El conjunto de datos del repositorio de GitHub proporciona información esencial sobre el mundo del «software» de código abierto. Con información completa sobre los lenguajes de codificación, los tamaños de los repositorios y las contribuciones de los usuarios, este conjunto de datos permite a los usuarios profundizar en las complejidades del desarrollo de «software».
Precios de Conjuntos de Datos
- Limpio y validado
- Actualización mensual
- JSON/CSV/Parquet
Potencie los agentes de IA al instante
Nuestros conjuntos de datos Github están optimizados para AI/LLM: claramente estructurados, bien documentados, con código y recetas para una fácil integración LLM/chatbot. recetas para una fácil integración LLM/chatbot.
Estructurado y limpio
Datos preprocesados con esquemas coherentes, perfectos para el entrenamiento y la inferencia de modelos de IA.
Ejemplos de códigos
Fragmentos de Python, Node.js, cURL, PHP, Go, Java y Ruby listos para usar que se integran fácilmente en los flujos de trabajo de IA.
Documentación
curl --request GET
--url https://api.brightdata.com/datasets/snapshots/{id}/download
--header 'Autorización: Portador '
importar solicitudes
url = "https://api.brightdata.com/datasets/snapshots/{id}/download"
headers = {"Authorization": "Bearer "}
response = requests.get(url, headers=headers)
print(respuesta.json())
const url = 'https://api.brightdata.com/datasets/snapshots/{id}/download';
const options = {method: 'GET', headers: {Authorization: 'Bearer '}, body: undefined};
try {
const response = await fetch(url, options);
const data = await response.json();
console.log(datos);
} catch (error) {
console.error(error);
}
HttpResponse response = Unirest.get("https://api.brightdata.com/datasets/snapshots/{id}/download")
.header("Authorization", "Portador ")
.asString();
requerir "uri
requiere "net/http
url = URI("https://api.brightdata.com/datasets/snapshots/{id}/download")
http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true
request = Net::HTTP::Get.new(url)
request["Authorization"] = 'Portador '
response = http.request(request)
puts respuesta.leer_cuerpo
Suscripción de datos
Suscríbase para acceder a los conjuntos de datos a un coste significativamente reducido.
Formatos de archivo
JSON, NDJSON, JSON Lines, CSV, Parquet. Compresión .gz opcional.
Entrega flexible
Snowflake, Amazon S3 bucket, Google Cloud, Azure y SFTP.
Datos escalables
Amplíe sin preocuparse por la infraestructura, los servidores proxy o los bloqueos.
Ahorro de costes
Personaliza cualquier conjunto de datos mediante filtros y opciones de formato.
Mantenimiento del código
Los conjuntos de datos se actualizan en función de los cambios en la estructura del sitio web.
Integraciones simplificadas
Benefíciese de las integraciones con Snowflake y AWS.
Asistencia 24/7
Un equipo especializado de profesionales de datos está aquí para ayudarte.
Líderes en cumplimiento
Los datos se obtienen de forma ética y cumplen todas las leyes de privacidad.
Consigue datos de Github estructurados y fiables
Te facilitamos los datos mientras tú te centras en lo demás
Datos web de gran volumen
Con nuestras funciones de desbloqueo y de rotación de las direcciones IP las 24 horas del día, garantizamos el acceso a todos los puntos de datos de un sitio web.
Datos para uso inmediato
Todos los aspectos del proceso de recopilación de datos se validan a fondo como parte de nuestro potente proceso de validación de datos.
Flujo de datos automatizado
Crea cronogramas personalizados para automatizar la entrega de datos y comprueba cómo los datos fluyen sin problemas hacia su almacenamiento.
Cómo utilizan las empresas los conjuntos de datos de GitHub
Actividad de desarrolladores
Participación de la comunidad
Mejora la participación
Preguntas frecuentes sobre el conjunto de datos de GitHub
¿Qué datos se incluyen en el conjunto de datos de GitHub?
El conjunto de datos de GitHub incluye diferentes puntos de datos que se adaptan a tus necesidades. Algunos de los puntos de datos incluyen: URL, ID, código, lenguaje de código, número de líneas, nombre de usuario, URL de usuario, tamaño, unidad de tamaño, número de tamaño, número de proyectos, número de bifurcaciones, número de estrellas y mucho más.
¿Puedo obtener actualizaciones para el conjunto de datos de GitHub que he comprado?
Sí, puedes obtener actualizaciones diarias, semanales, mensuales o personalizadas de tu conjunto de datos de GitHub.
¿Puedo comprar un subconjunto del conjunto de datos de GitHub?
Sí, puedes comprar un subconjunto de GitHub que incluirá solo los puntos de datos que necesites. Al comprar un subconjunto de datos, el precio se reduce de forma notable.
¿En qué formato recibiré el conjunto de datos de GitHub?
Los formatos de los conjuntos de datos son JSON, NDJSON, JSON Lines, CSV o Parquet. Si lo prefieres, los archivos se pueden comprimir en formato .gz.
¿Puedo raspar por mi cuenta datos públicos de GitHub?
Si no quieres comprar un conjunto de datos, puedes empezar a raspar datos de GitHub utilizando nuestra API de raspado para GitHub.
¿Puedo obtener una muestra de datos?
Sí, puedes solicitar datos de muestra para evaluar la calidad y la relevancia de la información facilitada. Es una buena forma de asegurarte de que satisface tus necesidades antes de decidirte por un conjunto de datos completo.
¿Puedo solicitar puntos de datos específicos del conjunto de datos de GitHub?
Sí, puedes solicitar puntos de datos específicos del conjunto de datos de GitHub adaptados a tus necesidades únicas, asegurándote de que recibes exactamente la información que necesitas para tus proyectos.
¿Es posible integrar el conjunto de datos de GitHub directamente en mis sistemas actuales?
Por supuesto, el conjunto de datos de GitHub ofrece una integración API sin fisuras, lo que te permite integrar sin esfuerzo los datos en tu CRM, herramientas de análisis o cualquier otro sistema que utilices, agilizando tus operaciones.