-
Notifications
You must be signed in to change notification settings - Fork 5
/
회의록
148 lines (126 loc) · 7.86 KB
/
회의록
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
<2018.09.06>
1. 다큐멘터리의 기준?
ebs - 거의 대부분이 교양으로 이루어져 있음 cf. 세계태마여행도 다큐?
-> 그럼 지식특강도 다큐인가?
-> 강연 프로그램은 다큐가 아니라고 대부분 생각...
지식 특강중에 다큐로 분류되어 있는 것들이 있음
고증된 이야기를 (기승전결) 깊이있는 이야기를 다큐로 선정
방송국에서 다큐 카테고리로 되어있으면 다큐라고 정의하기
만약 추가적인 방송이 필요하다고 나중에 추가하기
2. 데이터 세트(금요일날 함께 크롤링)
프로그램 이름이랑 회차 맞춰서 정보 넣기
방영일자만 넣기 (가장 많은 형식의 일자로 정리하기)
- 오늘 해야할일
담당 방송사 목록 다시 확인하기(홈페이지, google,naver 서치)
부담당 방송국 목록도 함께 확인하기, 담당자와 확인하기
키워드) 특집다큐, 특선다큐, 특별기획, 신년기획, 등등.. 방송국 홈페이지, 구글, 네이버 등에 검색해보기
- 데이터는 많으면 많을수록 좋은 것!
ex)
EB
특집 프로그램 (다시보기 무료유료)
http://home.ebs.co.kr/sdocu/main
소프트웨어 관련 다큐멘터리(소분류 자연과학으로 되어있지만 다큐임)
새싹단계, 꽃단계 (드랍다운 확인)
<2018.09.07>
**목표 : 사용자가 원하는 다큐멘터리를 추천해주는 알고리즘을 만들어서 웹으로 만들기**
1. EBS, KBS, MBC, SBS에서 방영한 다큐멘터리들을 모은다.
1-1. 다큐멘터리에 적절한 방송인지 확인하는 작업을 거친다.
2. tyde 데이터로 구현한다. (방송사, 제목, 회차, 방송날짜(20000101), 태그)
2.1- 각 방송국마다 or 웹 페이지 마다 **크롤링**한다.
3. 완성된 tyde데이터를 EDA.
3.1- 방송사 별 다큐 **막대그래프로 보기**
3.2- 제목에서 조사를 빼고 단어만으로 **Word2back**
3.2.1- 제목에서 뽑은 단어가 다큐 전체를 표현할 수 있는가?
3.3- 3.2에서 한 단어들을 뽑아 **그룹화하기**(가능해?)
3.3.1- 통계적으로 **군집분석** 이용해보기(송이)
3.4- 방송국별 많이 다루는 다큐는 무엇일까?
3.4.1- EBS의 다큐 비율이 가장 높은데 이 질문이 의미가 있을까? EBS는 다양하지 않을까? 다른 방송국도 그럴까?
3.5- 연도별로(월별은 의미 없을 듯) 어떤 다큐를 방송했을까?
3.5.1- 위의 질문에 대한 반문/ 다큐로 사회를 볼 수 있을까?
<2018.09.13>
프로젝트와 일정과 작업방식?
- 아직 완벽하게 크롤링을 다 끝난 사람 없음 -> 시간 효율을 위해 어떻게 할까?
- robots 와 별개로 시놉시스는 200자까지만 올리기,
- 한세트만 완료되면 먼저 EDA? -> 정제할 시간이 필요하기 때문에
- 우선 각 방송국별 스페셜 data 20개만 가지고 와서 EDA 하기
1. 파일을 올리는 곳이 총 4군데임 ->통일필요
카톡을 통한 빠른 feed back 은 필요
notebook은 github에 올리기.
csv, excel , 은 슬랙으로 공유 방송정보가 github에 올라가면 문제가 될수도 있음
완성된 notebook 파일은 github 에 올리기
inprogress 에 진행중인 ipython notebook 올리기?
회의록도 github 에 올리기 (날짜_요일_번호)
Crawling_prname_sb_jieun.ipynb(파일 이름)
파일 이름 바꿀때는 카톡으로 알리기
column 명 (제작사:tv , 프로그램 제목: title , 회차제목: epi , 날짜:dates, 링크:links시놉시스:synop , 태그:tag) ->순서대로 정리하기
2. 전체 파일 관리(csv)
전체파일을 계속 업데이트 (방새롬)
3. 홈페이지
검색 기능?
case base 알고리즘 사용? ex) 여행 , 휴양지를 좋아하나요? -> 네 -> 캄보디아
추천을 하기 힘들수도 있기 때문에 검색으로 하자는 이야기가 많이 나옴
intro page 를 만들기 (개요, 탐색, 추천)
개요 page 는 어떻게 할 것인가? -> 연도별로 잘나오는 단어 분석하여 EDA page 만들기?
5. EDA
개요 page를 어떻게 할것인가? -> 연도별로 정리,
방송사 별 프로그램 수
제목 or 시놉시스 word 2 vec ->단어로 그 다큐멘터리를 표현할 수 있는가?
명사만 추출해서 태그 만들기
스페셜 별로 wordcloud 만들기
방송사별로 많이 다루는 다큐멘터리가 무엇인가?
년도별 다큐 주제 , 다큐수 분류하기
<2018.09.19>
1. 현재 까지 진행상황
모든 방송국의 시놉시스
상위 soynlp 어디가지 뽑아볼까?
쓸수 없는 불용어 제거하고
2. ebs 다큐프라임 분류별 보기를 표준으로 대분류 기준을 잡기
의견:word2 vec 을 통해 시나리오를 예측하자
상위 10개만 뽑아서 태그로 만들자
ebs랑 MBc 맞추는 것을 해보자 - 태그를 뽑자
ebs 대분류를 통해서 ->소분류
소분류는 worldcloud로 중요한 키워드로 나누어보자
3. 홈페이지 - 지킬로 search 창 넣어보고 찾아볼수 있는 search 칸 놓고, 밑에 태그 넣고, 주소랑, 섬네일 넣기
추천 시스템?
1. user base - 내가 어떤 다큐멘터리를 좋아하느냐 에 따라서 다른 비슷한 유저의 좋아하는 선정도 보고 추천해주기
2. item base - item 별로 비슷한점을 확인해보고 contents 별로 선정하기
3. 태그를 활용하여 - 똑같은 태그가 있으면 비슷한 컨텐츠라고 생각하여 추천해주기
4. dead line
9월 15일까지 tag 뽑기
10월 2일 까지 dead line
plan b (대분류:태그뽑기가 안될때)
대분류가 안되면 소분류로 만들기
추천 시스템 - 추천 다큐멘터리 행만 나오게
9월 26일까지 추천 시스템 완성
<2018.09.28>
- 추천 시스템 (유사도 점수)
- 유사도 점수를 어떻게 할 것인가?
- count vecter으로 추천 알고리즘 짜봄.. 계속 다영님이 시동하기로 했음
- 현재 다영님이 진행하신 방향:
- konlp 로 단어뽑고 -> 문장으로 만듬
- 문장을 -> list 를 해서 추천
- tfidf 로 (tfidf )
- countvecter
- 질문: 같은 대분류 있는 에피소드 끼리 추천? -> 굳이 할필요 없음
- 일정
- 10월 1일 : 추천 시스템 완료
- 10월 4일 : 중간 발표
- 발표시간은 12분
- 9월 30일까지 영웅님께 사진, 발표준비 자료 주기
- 새롬 : 유사도 word2vec 으로 돌려보고(학교라는 단어를 치면 유사도 기준으로 dictionary 에 담아놓기) + eda
- 송이님: 대분류 + 추천
- 지혜 : 웹사이트 + eda(약간)
- 지은 : 추천알고리즘
- 추가 다큐멘터리를 넣을 것인가?
- 추가 다큐멘터리를 설명할 수 있는 기준으로 정하기
- 날짜로? 1990년대랑 ....
- 시놉시스 길이로? 기준을 잡을까?
- 회차별로?
- 주제별로? (산업, 기술, 자연)- 분류별로 뽑을까? 선호 카테고리별로 뽑았다.... 각방송사별로 카테고리로 뽑을까?
- 시청률로 상위 50만 가지고 올까? 아니면 방송사 별로?
- 웹사이트-웹사이트 안에 어떤 이미지를 넣을 것인가? 안에 정확한 기능을 정리하기
- eda (계획) -필요한 질문들 , 계속 추가하기,
- word2vec - 다영님 알고리즘 점수화와 확인하기
- 추천 다큐멘터리의 index 를 id로 만들어 column에 넣기.. 회차별로 id 가 필요함 (추천 다큐 1,2,3)->column 으로 만들기
- 웹 상으로 구현했을때 추천 다큐만 넣을 것인가? 아니면 추천 다큐와 시즌 다큐도 같이 넣을 것인가?
- 이미지는 어떻게 할것인가? ( 이미지 데이터 크롤링하기, 아니면 각 방송국 로고만 가지고 오기)