Documentation Technique
Temps de lecture : 15 min

Optimisation RAG Interne

CiteMe n'est pas une boîte noire. Pour générer des suggestions pertinentes, nous construisons une base de connaissance vectorielle de votre site. Apprenez comment optimiser cet index pour des résultats d'IA supérieurs.

Comment CiteMe "Ingère" votre site

Dès que vous ajoutez un projet, notre crawler parcourt vos pages. Mais nous ne stockons pas le HTML. Nous effectuons un processus complexe de <strong>Pipeline RAG</strong> :

1
Nettoyage (Sanitization)

Nous supprimons le Javascript, les menus, le footer et les pubs pour ne garder que le contenu "utile" (Main Content).

2
Découpage (Chunking)

Votre texte est découpé en segments de ~300 mots. Nous utilisons un algorithme de "découpe intelligente" qui respecte la structure de vos titres Hn.

3
Vectorisation (Embeddings)
docs.ragOptimization.ingestion.step3.desc

Optimiser votre "Ingestibilité"

Plus votre site est propre techniquement, plus l'IA de CiteMe sera "intelligente" dans ses suggestions.

Crawlability

Assurez-vous que votre sitemap.xml est à jour. CiteMe l'utilise comme source de vérité pour découvrir vos nouvelles pages.
User-Agent: CiteMeBot
Allow: /

Metadata Enrichment

Utilisez les balises de données structurées. CiteMe les extrait en priorité pour définir le contexte de chaque chunk.

Mise à jour de l'Index

Par défaut, CiteMe synchronise votre index vectoriel <strong>une fois par semaine</strong>. Si vous publiez beaucoup de contenu, vous pouvez déclencher une synchronisation manuelle.

Paramètres d'Indexation
Dernier CrawlIl y a 2 jours
Nombre de Chunks1,420 segments

Confidentially First

Votre index vectoriel est <strong>strictement privé</strong>. Contrairement aux LLMs publics, les données ingérées par CiteMe ne servent jamais à entraîner des modèles tiers. Elles sont isolées dans votre tenant de base de données et ne sont utilisées que pour le calcul de votre propre GEO Score.