Fuente URL

La fuente URL es la forma más rápida de arrancar: le das la URL raíz de tu web y rag.art rastrea recursivamente las páginas enlazadas, extrae texto limpio (sin menús ni footers), lo trocea en chunks y genera embeddings.

Parámetros

URL raíz: obligatorio.
Max pages: tope por plan (50 Free / 500 Pro / 5 000 Ultra). Puedes bajar aún más si sólo quieres indexar, p. ej., /precios.
Max depth: cuántos clics desde la raíz. Por defecto 3. Sube a 5–6 si tu sitio es muy plano.
Include subdomains: por defecto NO. Actívalo si tu contenido está en blog.acme.com, docs.acme.com, etc.
URL filter (regex): opcional, por ejemplo ^https://acme\\.com/blog/.*$ para indexar solo blog.

Qué se respeta

robots.txt: rag.art respeta las directivas. Si tu robots.txt bloquea /admin, /account, no se rastrean.
<meta name="robots" content="noindex">: las páginas con ese meta se saltan.
Rate: respeta Crawl-delay de robots.txt o cae a 2 req/s por dominio.

Qué se ignora

Páginas que requieren login (respuestas 401/403 se descartan).
Recursos no-HTML: PDF, imágenes, JS-only SPAs sin HTML servidor.
Duplicados: misma URL ya indexada en la sesión.
Páginas vacías (menos de 200 caracteres tras limpiar HTML).

Re-crawl

Cada fuente URL se marca next_crawl_at = now + 7d al completar. Un cron interno (E15) re-ejecuta la ingesta en segundo plano, reemplazando los chunks viejos. Si tu contenido cambia a diario, ping a support para ajustar la frecuencia.

Tiempos esperados

Páginas	Tiempo
1	2–5 s
50	30–90 s
500	4–8 min
5 000	30–60 min

(Depende del peso de las páginas y del rate-limit del servidor de origen.)

Crédito

Cada página ingestada consume ~2 microcréditos (equivalente a 0.002 créditos). Un crawl de 500 páginas cuesta aprox. 1 crédito del wallet.

Ver el progreso

Desde /documents: aparece una fila nueva con estado processing. Actualiza a ready o failed cuando acaba.
Desde la API: GET /api/documents/sources/<id>/status devuelve { pagesCrawled, pagesSucceeded, pagesFailed, errors }.

Problemas comunes

0 páginas indexadas → Tu web es un SPA servida 100% en JS y no tiene HTML renderizado en el servidor. Solución: ingestar el sitemap.xml (si existe) o exportar a PDF manualmente.
Muchas 403 → Tu web detecta crawlers. Añade Firecrawl a la allowlist de tu WAF/Cloudflare.
Contenido desactualizado → Fuerza un re-crawl desde /documents → menú → "Re-ingest now".