Fuente URL
La fuente URL es la forma más rápida de arrancar: le das la URL raíz de tu web y rag.art rastrea recursivamente las páginas enlazadas, extrae texto limpio (sin menús ni footers), lo trocea en chunks y genera embeddings.
Parámetros
- URL raíz: obligatorio.
- Max pages: tope por plan (50 Free / 500 Pro / 5 000 Ultra). Puedes bajar aún más si sólo quieres indexar, p. ej.,
/precios. - Max depth: cuántos clics desde la raíz. Por defecto 3. Sube a 5–6 si tu sitio es muy plano.
- Include subdomains: por defecto NO. Actívalo si tu contenido está en
blog.acme.com,docs.acme.com, etc. - URL filter (regex): opcional, por ejemplo
^https://acme\\.com/blog/.*$para indexar solo blog.
Qué se respeta
robots.txt: rag.art respeta las directivas. Si turobots.txtbloquea/admin,/account, no se rastrean.<meta name="robots" content="noindex">: las páginas con ese meta se saltan.- Rate: respeta
Crawl-delayderobots.txto cae a 2 req/s por dominio.
Qué se ignora
- Páginas que requieren login (respuestas 401/403 se descartan).
- Recursos no-HTML: PDF, imágenes, JS-only SPAs sin HTML servidor.
- Duplicados: misma URL ya indexada en la sesión.
- Páginas vacías (menos de 200 caracteres tras limpiar HTML).
Re-crawl
Cada fuente URL se marca next_crawl_at = now + 7d al completar. Un cron interno (E15) re-ejecuta la ingesta en segundo plano, reemplazando los chunks viejos. Si tu contenido cambia a diario, ping a support para ajustar la frecuencia.
Tiempos esperados
| Páginas | Tiempo |
|---|---|
| 1 | 2–5 s |
| 50 | 30–90 s |
| 500 | 4–8 min |
| 5 000 | 30–60 min |
(Depende del peso de las páginas y del rate-limit del servidor de origen.)
Crédito
Cada página ingestada consume ~2 microcréditos (equivalente a 0.002 créditos). Un crawl de 500 páginas cuesta aprox. 1 crédito del wallet.
Ver el progreso
- Desde
/documents: aparece una fila nueva con estadoprocessing. Actualiza areadyofailedcuando acaba. - Desde la API:
GET /api/documents/sources/<id>/statusdevuelve{ pagesCrawled, pagesSucceeded, pagesFailed, errors }.
Problemas comunes
- 0 páginas indexadas → Tu web es un SPA servida 100% en JS y no tiene HTML renderizado en el servidor. Solución: ingestar el sitemap.xml (si existe) o exportar a PDF manualmente.
- Muchas 403 → Tu web detecta crawlers. Añade
Firecrawla la allowlist de tu WAF/Cloudflare. - Contenido desactualizado → Fuerza un re-crawl desde
/documents→ menú → "Re-ingest now".