프로그래밍 51

마르코프 체인을 활용한 문장 생성 - KPOP 버전

지난번(링크)에 마르코프 체인을 활용한 문장 자동 생성을 해 봤었다. 그때는 예전 일제시대 시인들의 시를 통해 모델을 훈련시켜서 결과로 나오는 문장을 봤었는데, 이번에는 KPOP 가사를 통해서 다시 한 번 해봤다. 근데 중간 중간 영어가 너무 많은거 아닌가 생각이 든다. 그렇게 많은 가사를 가지고 훈련을 시키지는 않았기 때문에 딱 보면 어느 아이돌 그룹의 노래로 훈련시켰는지 바로 알 수 있는 수준이다. 재미로 보는 거니까, 바로 결과를 보자.환호소리 같은 너의 맘 길들일래Lion heart 난 빠져버렸죠 I call it chocolate love summer 바쁘게 뛰어 봐도 손바닥 안인걸 You know what time Go on 넌 길들여져 버렸니? 괜찮니?그냥 볼 수가 없어 계속 Party ti..

마르코프 체인을 활용한 문장 생성

러시아의 수학자 안드레이 마르코프의 이름을 딴 마르코프 체인(Markov Chain)이라는 바로 이전 상태에서만 영향을 받는 확률 과정이 있는데요. 각 시행의 결과가 바로 앞의 시행 결과에만 영향을 받는 일련의 확률적 시행을 의미합니다. 쓰고 있는 저도 사실 무슨 얘기인지 잘 모릅니다. 머, 그냥 일종의 상태 예측을 위한 방법론 중의 하나라고 생각하면 될 것 같습니다. 응용 분야로는 마르코프 성질에 기반하여 이미 관측된 자료를 조건부 확률에 적용하여, 자료가 관측되지 않는 시점(미래의)의 값을 시뮬레이션 하는데 사용된다고 합니다. 이러한 마르코프 체인을 자동 문장 생성에 적용하게 되면 주어진 전체 텍스트를 검사하여 각 단어의 다음에 나타나는 단어의 확률을 구하는 것이 가능해집니다. 1. 참조 소스 파일-..

특정 키워드(중고) 트위터로 워드클라우드 만들기

R Studio를 통해서 특정 단어를 언급한 트위터 데이터를 가져오는 내용을 지난 번 글(링크)에서 다뤘었는데요. 이번에는 가져온 데이터를 이용해서 워드클라우드를 만드는 내용을 해보죠. 사실 별 거 아닌데 뭔가 분석할 만한 키워드를 찾는 게 조금 시간이 걸렸네요. 광고글이 너무 많이 검색되거나 다 똑같은 트윗들만 있거나 한 경우가 많더라구요. 검색을 한 키워드는 [중고], 검색한 숫자는 10000개입니다. tweets라는 변수에 10000개가 할당된 거 보이시죠. 이런식으로 데이터가 로딩된 상태라면 분석이 가능합니다. 1. 필요 패키지 설치 : KoNLP, wordcloud> install.packages("KoNLP")> install.packages("wordcloud")- 위 두 문장을 Consol..

특정단어 언급한 트위터 데이터 가져오기

R Studio를 통해서 특정 단어를 언급한 트위터 데이터를 가져와서 워드클라우드를 만드는 걸 한 번 해볼 건데요. 이러한 작업을 R 스튜디오에서 하기 위해서는 몇 가지 사전 작업을 해줘야 합니다.(파이썬이나 다른 언어로 해도 마찬가지예요. 다만 방법 달라질 뿐이지.) 사전 작업에 대한 내용은 이전 글(링크1, 링크 2)에서 했었기 때문에 여기에서는 간략하게 진행 순서만 얘기할게요. 내용이 좀 길어질 것 같으니까 일단 이번 글에서는 트위터에서 특정 단어를 언급한 내용을 가져오는 것만 먼저 해보죠. 1. Twitter 데이터를 분석하기 위한 사전 설정가. Twitter App 설정 - Twitter apps 페이지를 통해 APP을 생성(핸드폰 인증 필요) - Twitter apps 페이지를 통해 생성된 앱..