babylon.rag.pre_embeddings.chunking

Content chunking for the RAG system.

This module provides functionality for dividing content into appropriate chunks before embedding generation.

Classes

`ChunkingConfig`(**data)	Configuration for content chunking.
`ChunkingStrategy`([config, metrics])	Divides content into appropriate chunks for embedding.

class babylon.rag.pre_embeddings.chunking.ChunkingConfig(**data)[source]

Configuration for content chunking.

Parameters:

overlap: Number of characters to overlap between chunks (for fixed strategy)

model_config: ClassVar[ConfigDict] = {'frozen': True}: Configuration for the model, should be a dictionary conforming to [ConfigDict][pydantic.config.ConfigDict].

class babylon.rag.pre_embeddings.chunking.ChunkingStrategy(config=None, metrics=None)[source]

Divides content into appropriate chunks for embedding.

This class handles different chunking strategies including fixed-size chunking and semantic chunking based on content structure.

Parameters:

__init__(config=None, metrics=None)[source]

Initialize with configuration options.

Parameters:

config (ChunkingConfig | None) – Configuration for chunking behavior
metrics (MetricsCollectorProtocol | None) – Optional metrics collector for DI (default: creates new MetricsCollector)

chunk(content)[source]

Divide content into chunks based on configured strategy.

chunk_batch(contents)[source]

Process multiple content items efficiently.