Ë
    %<çis  ã                   ó$  — d Z ddlZddlZ	 	 ddedededeeeeez  f      fd„Zdedej                  defd	„Z	d
ededej                  dee   fd„Z
dededej                  dee   fd„Zdee   dededej                  deeeeez  f      f
d„Zy)a‚  
chunker.py - Text chunking utility using tiktoken for token-aware splitting.

Chunking strategy:
1. Split on paragraph boundaries (\n\n)
2. If a paragraph exceeds max_tokens, split on sentence boundaries (. ! ?)
3. If a sentence exceeds max_tokens, force-split by token limit
4. Apply overlap: prepend the last `overlap` tokens of the previous chunk
   to the start of the next chunk.
é    NÚtextÚ
max_tokensÚoverlapÚreturnc                 óP  — | r| j                  «       sg S t        j                  d«      }t        j                  d| «      }|D cg c]#  }|j                  «       sŒ|j                  «       ‘Œ% }}g }|D ]  }|j                  t        |||«      «       Œ  t        ||||«      }	|	S c c}w )a  Split text into token-aware chunks.

    Args:
        text: The input text to be chunked.
        max_tokens: Maximum number of tokens allowed per chunk.
        overlap: Number of tokens from the end of the previous chunk
                 to prepend to the start of the next chunk.

    Returns:
        A list of dicts with keys:
            - "content"     (str): The chunk text.
            - "chunk_index" (int): Zero-based index of the chunk.
            - "token_count" (int): Actual token count of the chunk content.
    Úcl100k_basez\n\n+)ÚstripÚtiktokenÚget_encodingÚreÚsplitÚextendÚ_split_paragraphÚ_merge_segments)
r   r   r   ÚencoderÚraw_paragraphsÚpÚ
paragraphsÚsegmentsÚparaÚchunkss
             ú=/home/jay/workspace/.worktrees/task-2057-dev2/libs/chunker.pyÚ
chunk_textr      s£   € ñ& t—z‘z”|Øˆ	ä!)×!6Ñ!6°}Ó!E€Gô !#§¡¨°4Ó 8€NØ0>ÖL¨1À!Ç'Á'Å)˜QŸW™WYÐL€JÐLð €HØò EˆØ‰Ô(¨¨z¸7ÓCÕDðEô *9¸À:ÈwÐX_Ó)`€Fà€Mùò Ms   ÁB#ÁB#r   c                 ó6   — t        |j                  | «      «      S )z&Return the number of tokens in *text*.)ÚlenÚencode)r   r   s     r   Ú_token_countr   =   s   € äˆw~‰~˜dÓ#Ó$Ð$ó    Ú	paragraphc                 ó’  — t        | |«      |k  r| gS t        j                  d| «      }|D cg c]#  }|j                  «       sŒ|j                  «       ‘Œ% }}g }g }d}|D ]¹  }	t        |	|«      }
|
|kD  rC|r$|j	                  dj                  |«      «       g }d}|j                  t        |	||«      «       ŒW|rdnd}||z   |
z   |kD  r&|r$|j	                  dj                  |«      «       g }d}|j	                  |	«       t        dj                  |«      |«      }Œ» |r |j	                  dj                  |«      «       |r|S | gS c c}w )zêReturn a list of segments from a single paragraph.

    If the paragraph fits within max_tokens it is returned as-is.
    Otherwise it is split on sentence boundaries, and each sentence group
    is further force-split if needed.
    z(?<=[.!?])\s+r   ú é   )r   r   r   r	   ÚappendÚjoinr   Ú_force_split)r   r   r   Úraw_sentencesÚsÚ	sentencesr   Úcurrent_partsÚcurrent_tokensÚsentenceÚsentence_tokensÚ
sep_tokenss               r   r   r   B   sO  € ô I˜wÓ'¨:Ò5Øˆ{Ðô  "Ÿx™xÐ(8¸)ÓD€MØ/<ÖJ¨!ÀÇÁÅ	˜AŸG™GIÐJ€IÐJà€HØ!€MØ€Nàò HˆÜ& x°Ó9ˆà˜ZÒ'áØ—‘ §¡¨Ó 7Ô8Ø "Ø!"àO‰OœL¨°:¸wÓGÔHØñ (‘Q¨Qˆ
Ø˜JÑ&¨Ñ8¸:ÒEÙØ—‘ §¡¨Ó 7Ô8Ø "Ø!"à×Ñ˜XÔ&Ü% c§h¡h¨}Ó&=¸wÓG‰ð/Hñ2 Ø‰˜Ÿ™ Ó/Ô0áˆ8Ð0 i [Ð0ùòE Ks   ­EÁEc                 ó²   — |j                  | «      }g }t        dt        |«      |«      D ]*  }||||z    }|j                  |j	                  |«      «       Œ, |S )z)Force-split *text* purely by token count.r   )r   Úranger   r#   Údecode)r   r   r   ÚtokensÚresultÚstartÚchunk_tokenss          r   r%   r%   w   s`   € ð  Ÿ™ tÓ,€FØ€FÜqœ#˜f›+ zÓ2ò 4ˆØ˜e e¨jÑ&8Ð9ˆØ‰g—n‘n \Ó2Õ3ð4ð €Mr   r   c           
      óV  — | sg S g }g }d}| D ]q  }t        ||«      }|rdnd}	||	z   |z   |kD  r&|r$|j                  dj                  |«      «       g }d}|j                  |«       t        dj                  |«      |«      }Œs |r |j                  dj                  |«      «       |dk  st        |«      dk  r,t	        |«      D 
cg c]  \  }
}||
t        ||«      dœ‘Œ c}}
S g }t	        |«      D ]±  \  }
}|
dk(  r|}n…|j                  ||
dz
     «      }|j                  |«      }t        |t        |«      «      }|t        |«      z
  }t        dt        ||«      «      }|dkD  r|| d }|j                  |«      }||z   }n|}|j                  ||
t        ||«      dœ«       Œ³ |S c c}}
w )z?Merge small segments together and apply overlap between chunks.r   r"   z

)ÚcontentÚchunk_indexÚtoken_countN)	r   r#   r$   r   Ú	enumerater   ÚminÚmaxr0   )r   r   r   r   Ú
raw_chunksr)   r*   ÚsegmentÚ
seg_tokensr-   ÚidxÚchunkr2   Úchunk_text_valr6   Úprev_tokensÚcurr_tokensÚdesired_overlapÚ	availableÚactual_overlapÚoverlap_tokensÚoverlap_texts                         r   r   r   …   sî  € ñ Øˆ	ð €JØ!€MØ€Nàò KˆÜ! '¨7Ó3ˆ
á'‘Q¨Qˆ
Ø˜JÑ&¨Ñ3°jÒ@ÙØ×!Ñ! &§+¡+¨mÓ"<Ô=Ø "Ø!"à×Ñ˜WÔ%Ü% f§k¡k°-Ó&@À'ÓJ‰ðKñ Ø×Ñ˜&Ÿ+™+ mÓ4Ô5ð !‚|”s˜:“¨!Ò+ô (¨
Ó3÷
ñ Uð	 !Ø"Ü+¨E°7Ó;óó
ð 	
ð *,€FÜ(¨Ó4ò 
Ñˆˆ^Ø!Š8Ø$‰Gà%,§^¡^°J¸sÀQ¹wÑ4GÓ%HˆKØ%,§^¡^°NÓ%CˆKô " '¬3¨{Ó+;Ó<ˆOØ"¤S¨Ó%5Ñ5ˆIÜ  ¤C¨¸Ó$CÓDˆNà Ò!Ø!,¨n¨_Ð-=Ð!>Ø$+§N¡N°>Ó$BØ&¨Ñ7‘à(à‰à"Ø"Ü+¨G°WÓ=ñõ	
ð)
ð8 €MùóM
s   ÃF%)iô  é2   )Ú__doc__r   r
   ÚstrÚintÚlistÚdictr   ÚEncodingr   r   r%   r   © r   r   ú<module>rQ      s2  ðñ	ó 
ã ð
 Øñ$Ø
ð$àð$ð ð$ð 
ˆ$ˆsC˜#‘Iˆ~Ñ
Ñó	$ðX%sð % X×%6Ñ%6ð %¸3ó %ð
21Øð21àð21ð ×Ñð21ð 
ˆ#Yó	21ðjØ
ðàðð ×Ñðð 
ˆ#Yó	ðGØ3‰iðGàðGð ðGð ×Ñð	Gð
 
ˆ$ˆsC˜#‘Iˆ~Ñ
ÑôGr   