babylon.rag.pre_embeddings.preprocessor

Content preprocessing for the RAG system.

This module provides functionality for normalizing and preprocessing content before it is chunked and embedded.

Classes

`ContentPreprocessor`([config, metrics])	Preprocesses content before chunking and embedding.
`PreprocessingConfig`(**data)	Configuration for content preprocessing.

class babylon.rag.pre_embeddings.preprocessor.PreprocessingConfig(**data)[source]

Configuration for content preprocessing.

Parameters:

model_config: ClassVar[ConfigDict] = {'frozen': True}: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

class babylon.rag.pre_embeddings.preprocessor.ContentPreprocessor(config=None, metrics=None)[source]

Preprocesses content before chunking and embedding.

This class handles text normalization, validation, and preparation for the chunking and embedding processes.

Parameters:

__init__(config=None, metrics=None)[source]

Initialize with configuration options.

Parameters:

config (PreprocessingConfig | None) – Configuration for preprocessing behavior
metrics (MetricsCollectorProtocol | None) – Optional metrics collector for DI (default: creates new MetricsCollector)

preprocess(content)[source]

Process raw content into normalized form.

preprocess_batch(contents)[source]

Process multiple content items efficiently.

Parameters:: contents (list[str]) – List of content items to preprocess
Return type:: list[str]
Returns:: List of preprocessed content items