rag.art
ProductPricingUse casesDocs
Log inStart free

Getting started

  • ¿Qué es rag.art?
  • Quickstart — tu primer bot en 3 minutos
  • Conceptos básicos — fuentes, chunks, embeddings, citas

Integrations

  • Widget embebido (v2)
  • WhatsApp Business
  • Slack — handoff a humano
  • Email — bot en tu dirección de soporte
  • API REST

Data sources

  • Fuente URL — crawl recursivo de tu web
  • Fuente GitHub — documentar tu código
  • Fuente Notion — indexa tus wikis internas
  • Fuente Google Drive — indexa tus Docs

Billing & plans

  • Planes y facturación

Security & compliance

  • Seguridad y compliance

Troubleshooting

  • Troubleshooting
Docs/Data sources

Fuente URL — crawl recursivo de tu web

Cómo funciona el crawler, qué respeta, cómo limitar el alcance.

Última actualización: 2026-04-23

Fuente URL

La fuente URL es la forma más rápida de arrancar: le das la URL raíz de tu web y rag.art rastrea recursivamente las páginas enlazadas, extrae texto limpio (sin menús ni footers), lo trocea en chunks y genera embeddings.

Parámetros

  • URL raíz: obligatorio.
  • Max pages: tope por plan (50 Free / 500 Pro / 5 000 Ultra). Puedes bajar aún más si sólo quieres indexar, p. ej., /precios.
  • Max depth: cuántos clics desde la raíz. Por defecto 3. Sube a 5–6 si tu sitio es muy plano.
  • Include subdomains: por defecto NO. Actívalo si tu contenido está en blog.acme.com, docs.acme.com, etc.
  • URL filter (regex): opcional, por ejemplo ^https://acme\\.com/blog/.*$ para indexar solo blog.

Qué se respeta

  • robots.txt: rag.art respeta las directivas. Si tu robots.txt bloquea /admin, /account, no se rastrean.
  • <meta name="robots" content="noindex">: las páginas con ese meta se saltan.
  • Rate: respeta Crawl-delay de robots.txt o cae a 2 req/s por dominio.

Qué se ignora

  • Páginas que requieren login (respuestas 401/403 se descartan).
  • Recursos no-HTML: PDF, imágenes, JS-only SPAs sin HTML servidor.
  • Duplicados: misma URL ya indexada en la sesión.
  • Páginas vacías (menos de 200 caracteres tras limpiar HTML).

Re-crawl

Cada fuente URL se marca next_crawl_at = now + 7d al completar. Un cron interno (E15) re-ejecuta la ingesta en segundo plano, reemplazando los chunks viejos. Si tu contenido cambia a diario, ping a support para ajustar la frecuencia.

Tiempos esperados

PáginasTiempo
12–5 s
5030–90 s
5004–8 min
5 00030–60 min

(Depende del peso de las páginas y del rate-limit del servidor de origen.)

Crédito

Cada página ingestada consume ~2 microcréditos (equivalente a 0.002 créditos). Un crawl de 500 páginas cuesta aprox. 1 crédito del wallet.

Ver el progreso

  • Desde /documents: aparece una fila nueva con estado processing. Actualiza a ready o failed cuando acaba.
  • Desde la API: GET /api/documents/sources/<id>/status devuelve { pagesCrawled, pagesSucceeded, pagesFailed, errors }.

Problemas comunes

  • 0 páginas indexadas → Tu web es un SPA servida 100% en JS y no tiene HTML renderizado en el servidor. Solución: ingestar el sitemap.xml (si existe) o exportar a PDF manualmente.
  • Muchas 403 → Tu web detecta crawlers. Añade Firecrawl a la allowlist de tu WAF/Cloudflare.
  • Contenido desactualizado → Fuerza un re-crawl desde /documents → menú → "Re-ingest now".
¿Algo mal en esta página? Escríbenos.
rag.art

RAG chatbots, your brand. Made in the EU, GDPR-ready, transparent pricing.

Product

  • Features
  • Pricing
  • Use cases
  • Widget playground

Verticals

  • Real estate
  • Insurance brokers
  • Franchises
  • Dental clinics
  • Law firms
  • Ecommerce

Resources

  • Docs
  • Blog
  • Compare
  • Trust & Security

Legal

  • Terms
  • Privacy
  • Cookies
  • DPA
  • AI disclosure

© 2026 rag.art — Made in the EU · GDPR-ready

PrivacyTerms