
    % i                        d Z ddlmZ ddlZddlZddlmZ ej                  j                  dd       ddl	m
Z
mZ ddlmZ d
dZed	k(  r e        yy)uF   스레드 분리 및 덤프 스크립트 — wiki 정제 전처리용.    )annotationsN)Pathz#/home/jay/projects/insuwiki/scripts)_split_into_threads_mask_phone)ChatMessagec                 ^   t        d      } t        j                  | j                  d            }|j	                  dg       D cg c]  }t        di | }}|j	                  di       j	                  dd      }t        |      }t        dt        |              t        d	|        g }t        |      D ]  \  }}g }	|j                  D ]I  }|	j                  |j                  t        |j                        |j                  |j                   d
       K |j                  |t        |j                        |j"                  |j$                  |	d        t        d      }
|
j'                  t        j(                  |dd      d       t        d|
        t+        d |D              }t        d| d       t        dt        |      |z
   d       |D cg c]  }|d   	 }}t        dt-        |       dt/        |       dt+        |      t        |      z  d       y c c}w c c}w )Nz/tmp/parsed.jsonzutf-8)encodingmessagesheader	chat_name u   총 스레드 수: u   채팅방: )usercontentdatetime)index	msg_counthas_question_tag
start_timer
   z/tmp/threads.jsonF   )ensure_asciiindentu   스레드 데이터 저장: c              3  ,   K   | ]  }|d    s	d  yw)r      N ).0ts     ,/home/jay/workspace/scripts/thread_dumper.py	<genexpr>zmain.<locals>.<genexpr>6   s     Aq1-?+@As   
u   #궁금증 태그 스레드: u   개u   태그 없는 스레드: r   u#   스레드당 메시지 수 — min:z, max:z, avg:z.1fr   )r   jsonloads	read_textgetr   r   printlen	enumerater
   appendr   r   r   r   r   r   r   
write_textdumpssumminmax)parsed_pathrawmr
   source_chatthreadsthread_dataithreadmsgsoutput_pathtaggedr   
msg_countss                 r   mainr9      s3   )*K
**[**G*<
=C*-''*b*ABQ a BHB''(B'++K<K!(+G	G~
./	K}
%& Kw' 	6 	AKK&qyy1	 	 	V__- & 7 7 ++
 	" *+K

;U1=   
(
67 AKAAF	)&
56	%c+&6&?%@
DE +66Q!K.6J6	/J/@s:FWW]^abl^mnqr|n}^}  B  ^C  D  ES CP 7s   H%H*__main__)returnNone)__doc__
__future__r   r    syspathlibr   pathinsert#kakao_knowledge.knowledge_extractorr   r   kakao_knowledge.modelsr   r9   __name__r       r   <module>rG      sJ    L "  
  8 9 P .-E` zF rF   