Ë
    ‡Kàiä  ã                  ó²   — U d Z ddlmZ ddlZddlZddlmZmZ  ej                  e	«      Z
dd„Zddd„Zdd„Zdd„Zdd	„Zddd
„ZeeeeedœZded<   ddd„Zy)zJMeasures total tokens consumed by agent workflows against benchmark repos.é    )ÚannotationsN)ÚAnyÚCallablec                óP   — t        t        j                  | t        ¬«      «      dz  S )zƒEstimate token count from JSON-serializable object.

    Uses character count / 4 as a rough approximation for English + code.
    )Údefaulté   )ÚlenÚjsonÚdumpsÚstr)Úobjs    úr/home/jay/workspace/scripts/.codegraph-venv/lib/python3.12/site-packages/code_review_graph/eval/token_benchmark.pyÚestimate_tokensr      s   € ô
 Œtz‰z˜#¤sÔ+Ó,°Ñ1Ð1ó    c                óþ   — ddl m} ddlm} d}g } |d| |¬«      }t	        |«      }||z  }|j                  d|dœ«        ||| d	¬
«      }t	        |«      }||z  }|j                  d|dœ«       d|t        |«      |dœS )z=Simulate a review workflow and measure total tokens consumed.é   ©Úget_minimal_context©Údetect_changes_funcr   zreview changes©ÚtaskÚ	repo_rootÚbaser   ©ÚtoolÚtokensÚminimal©r   r   Údetail_levelÚdetect_changes_minimalÚreview©ÚworkflowÚtotal_tokensÚ
tool_callsÚcalls©Útools.contextr   Útools.reviewr   r   Úappendr	   ©r   r   r   r   r%   r'   Úresultr   s           r   Úbenchmark_review_workflowr.      sœ   € å3Ý2à€LØ€Eñ !Ð&6À)ÐRVÔW€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ/¸6ÑBÔCñ ! d°iÈiÔX€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ2¸fÑEÔFð Ø$Ü˜%“jØñ	ð r   c                ób  — ddl m} ddlm} ddlm} d}g } |d| ¬«      }t        |«      }||z  }|j                  d|d	œ«        || d
¬«      }t        |«      }||z  }|j                  d|d	œ«        || d
¬«      }t        |«      }||z  }|j                  d|d	œ«       d|t        |«      |dœS )z.Simulate an architecture exploration workflow.r   )Úlist_communities_funcr   )Ú
list_flowsr   zmap architecture©r   r   r   r   r   )r   r    Úlist_communities_minimalÚlist_flows_minimalÚarchitecturer#   )	Útools.community_toolsr0   r)   r   Útools.flows_toolsr1   r   r+   r	   )r   r0   r   r1   r%   r'   r-   r   s           r   Úbenchmark_architecture_workflowr8   0   sÈ   € å=Ý3Ý.à€LØ€Eá Ð&8ÀIÔN€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ/¸6ÑBÔCá"¨YÀYÔO€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ4ÀÑGÔHá )¸)ÔD€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ.¸&ÑAÔBð #Ø$Ü˜%“jØñ	ð r   c                óü   — ddl m} ddlm} d}g } |d| ¬«      }t	        |«      }||z  }|j                  d|dœ«        |d	| d
¬«      }t	        |«      }||z  }|j                  d|dœ«       d|t        |«      |dœS )zSimulate a debug workflow.r   r   )Úsemantic_search_nodesr   zdebug login bugr2   r   r   Úloginr   )Úqueryr   r    Úsemantic_search_minimalÚdebugr#   )r)   r   Útools.queryr:   r   r+   r	   )r   r   r:   r%   r'   r-   r   s          r   Úbenchmark_debug_workflowr@   P   sš   € å3Ý3à€LØ€Eá Ð&7À9ÔM€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ/¸6ÑBÔCá"Ø ¸ô€Fô ˜VÓ$€FØFÑ€LØ	‡LLÐ3¸vÑFÔGð Ø$Ü˜%“jØñ	ð r   c                óø   — ddl m} ddlm} d}g } |d| ¬«      }t	        |«      }||z  }|j                  d|dœ«        || ¬	«      }t	        |«      }||z  }|j                  d
|dœ«       d|t        |«      |dœS )z Simulate an onboarding workflow.r   r   )Úlist_graph_statsr   zonboard developerr2   r   r   ©r   rB   Úonboardr#   )r)   r   r?   rB   r   r+   r	   )r   r   rB   r%   r'   r-   r   s          r   Úbenchmark_onboard_workflowrE   l   s‘   € å3Ý.à€LØ€Eá Ð&9ÀYÔO€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ/¸6ÑBÔCá¨	Ô2€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ,¸Ñ?Ô@ð Ø$Ü˜%“jØñ	ð r   c                óþ   — ddl m} ddlm} d}g } |d| |¬«      }t	        |«      }||z  }|j                  d|dœ«        ||| d	¬
«      }t	        |«      }||z  }|j                  d|dœ«       d|t        |«      |dœS )z$Simulate a pre-merge check workflow.r   r   r   r   zpre-merge checkr   r   r   r   r   r!   Ú	pre_merger#   r(   r,   s           r   Úbenchmark_pre_merge_workflowrH   †   s˜   € å3Ý2à€LØ€Eá Ð&7À9ÐSWÔX€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ/¸6ÑBÔCá  d°iÈiÔX€FÜ˜VÓ$€FØFÑ€LØ	‡LLÐ2¸fÑEÔFð  Ø$Ü˜%“jØñ	ð r   )r"   r5   r>   rD   rG   zdict[str, Callable[..., dict]]ÚALL_WORKFLOWSc                óR  — g }t         j                  «       D ]C  \  }}	 d|j                  j                  v r || |¬«      }n	 || ¬«      }|j	                  |«       ŒE |S # t
        $ r>}t        j                  d||«       |j	                  |t        |«      dœ«       Y d}~ŒŠd}~ww xY w)z/Run all workflow benchmarks and return results.r   )r   r   rC   zBenchmark %s failed: %s)r$   ÚerrorN)	rI   ÚitemsÚ__code__Úco_varnamesr+   Ú	ExceptionÚloggerÚwarningr   )r   r   ÚresultsÚnameÚfnr-   Úes          r   Úrun_all_benchmarksrV   ©   s£   € à€GÜ!×'Ñ'Ó)ò 	@‰ˆˆbð	@Ø˜Ÿ™×0Ñ0Ñ0Ù i°dÔ;‘á iÔ0ØN‰N˜6Õ"ð	@ð €Nøô ò 	@ÜN‰NÐ4°d¸AÔ>ØN‰N¨´s¸1³vÑ>×?Ñ?ûð	@ús   ž=AÁ	B&Á(4B!Â!B&)r   r   ÚreturnÚint)zHEAD~1)r   r   r   r   rW   Údict)r   r   rW   rY   )r   r   r   r   rW   z
list[dict])Ú__doc__Ú
__future__r   r
   ÚloggingÚtypingr   r   Ú	getLoggerÚ__name__rP   r   r.   r8   r@   rE   rH   rI   Ú__annotations__rV   © r   r   ú<module>rb      sj   ðÚ På "ã Û ß  à	ˆ×	Ñ	˜8Ó	$€ó2ôó8ó@ó8ô4ð6 (Ø3Ø%Ø)Ø-ñ1€Ð-ó õr   