remagine

2016 GDG 참석 중 본문

IT잡담

2016 GDG 참석 중

remagine 2016. 11. 5. 14:20

1. 인트로는 구글 툴에 대한 소개


FireBase를 소개. Analitics 


모바일 퍼스트의 구글의 캐치 프레이즈가

AI 퍼스트로 바뀌었다.


Tensor Flow - 오픈 소스화


 빅데이터의 패러다임이 바뀌었다.



2. 첫번째 세션 - FireBase Analytic + Big Query


 이번 주소 API를 만들면서 대용량 데이터 처리와 분석에 관심이 많이 생겼다. 


 파이어베이스 애널러틱스


 책을 선물로 호응잘하면 주셨다. 


 

3. 목차


 모바일 빅데이터 분석의 개념


 


4. 모바일 데이터 분석의 기본 개념


 기술 통게학 - 엑셀, 

 

 추론 통계학 - 과거의 데이터로 미래 예측


 

      5. 기본모델


     사용자 획득 , 사용자 유지 , 사용자 활동, 수익화


6. 


- Acquisition 


 다운로드, new user, 사용자 기본정보, 인스톨 tracking

 데이터 분석의 중요점은 ㄲ

 어려운 수학이 아니다

 어떤 지표를 선택하고, 그 지표를 눈으로 볼 수 있어야 한다.

 

- Retention 단계


신규 사용자의 재 방문율을 이요하여 측정


- 앱 설치 후 1일차에 68%이탈, 2일차에 58%이탈


- Engagement


userpath

사용자가 어느경로로 앱을 사용하는지 경로별 비중 측정


active user

단위시간동안 서비스 사용자 DAU / MAU


session

시스템에접속해서 사용하고 있는 사용자 수


session length

한번 접속 했을 때 사용하는기간


remote config



viral 

sns, 매체를 통해 들어오는 트래픽 수


bounce rate

이탈율 (Uninstall 수)


loyalty

충성도를 측정하는 지표, 하루에 일주일에 앱을 재 사용 했는가


매출을 일으키는유저는 3~5%이다. 그 유저를 잘 관리하는 것이 중요


분석방법


코호트 분석

특정 지표에 대한그룹별 분석( 나이/성별)


퍼넬 분석

특정 목표 를 달성 할 때 까지 사용자의 잔존비율을 단계별로 분석

- 결제를 하기 까지 잔존 사용자




게임데이타 분석


지리 정보 분석


1. chat log analytics

주요 채팅어를 지역별로 분석


2. dead zone 분석

플레이어가 주로 죽는 부분의 플레이어와 npc레벨 분석 (난이도조절)




모바일 터치 히트맵


실질적으로 앱의 터치부분이 어딘지 

-유저데이터 어그리먼트를 꼭 받아야 한다.


추가적 유용지표


앱 크래쉬 비율

-앱 고장 관련


앱스토어 평가

-앱스토어 평점관리

 잘빼먹는 부분




2.구현전략


정보 모델 설계


- 비지니스 성장 동력을 기준으로 한 관련 지표를 선택

 스타트업은 처음에 돈을 버는게 중요하지 않다. 오히려 사용자 획득 그러므로 new user지표가 중요

 이 지표를 위주로 전략을 수립

 이 지표와 관련된 지표를 4-7개 설정하고 구조화 하면 된다. (지표는 적을 수록 좋다)


 빅데이터 분석에서 중요한 것은 유효한 지표를 뽑는것


무료솔루션의 단점

원본데이터 X, But Firebase는 제공


빅데이터의 수학공식을 사용하는 건어렵지 않다(물론 그 내부로직을 직접구현하는 건 어렵지)


다 때려박아서 데이터를 모아야 한다.


데이터를 할 때 중요한 것은 Labeling

- 이사용자는 책을 산 사용자, 이 사용자는 영화를 본 사용자....


이 데이터로 머신을 트레이닝하면

- 이 사용자는 책을 살 것 같다. 라는 추측이 가능


3.빅데이터 분석 아키덱쳐


트위터 Nathan marzㅇ 소개 람다 아키텍쳐


 - 배치로 통계 결과를 내서 저장


 람다

-- 오늘 데이터는 실시간으로 복,

-- 어제까지 데이터를 배치처리해서 배치뷰


배치레이어

스피드레이어 


데이터 저장소  

- 모든 데이터가 다 저장됨. 데이터 Lake


데이타 인사이트 분석


-데이터를 샘플링하여, 의미를 찾아냄

-데이터들 간의 상관관계를 찾아낸다.


     오픈 소스 기반의 솔루션 아키텍쳐


 데이터 분석 자체보다 데이터 분석 인프라를 설치, 운영하는데 많은 리소스가 소요됨

 왜나면 시스템이 오픈소스로 나눠져있기 때문이다.


구글 클라우드 기반 빅데이터 분석


1000억개 레코드를 Like검색 할 수 있다 (4TB)

- 30초동안 8600개의 CPU, 3600개의 디스크

- 1000억 레코드 4TB 분석에 30초



빅데이터 민주화 시대. 

-아무나 할 수 있는.

- 유지보수는 안하고 데이터 분석만 할 수 있는


파이어 베이스


Develop , Grow , Earn


개요 

모바일 앱 로그 수집 및 분석 무료 플랫폼 (모바일 온리)

단점

실시간 분석 제공 X  -Google Analitics와 연동



appu / arppu

-수익/사용자수 , 수익 / 돈쓴 사용자수


LTV지표

광고 캠페인 후 

어딜 통해서 몇명이 들어왔느냐

그리고 그 들어온 사람들이 얼마를 썼느냐


많이이 들어왔지만 돈을 안씀

조금 들어와도 돈을 씀

 


사용자 활동 지수 

Row Data를 가지고 정규분포를 그려 각 지표에 속하는 그룹에 대해 분석


인앱 구매


앱에서 어떤 것을 구매했는가

연령,성별에 따라 매출 확인

- 데이팅앱에서 누가 구매를 하는가, 


파이어 베이스

뷰를 기본으로 만들어줌


빅쿼리 

- 데이터 수집이 1시간정도 걸림

- 평균데이터가 아니라 유형 데이터 수집 (평균의 오류에서 탈출)

파이어 베이스 가격 정책

사용량 만큼 가격 책정

0.02$/GB (저장)

5$/TB (쿼리) (스캔데이타 기준)


자료구조


user_dim // event__dim


빅쿼리 사용은 매우쉬움난이도 (연동포함)


Google BigQuery


SQL 문과 동일, SQL 처럼 쓰면됨 (ANSI SQL 지원예정)


- 구글 데이터 센터의 데이터 대역폭

-1페타


구조적 특징

인덱스 키 가 없다

항상 풀스캔 

- 빅쿼리는 컬럼DB속성이 있다.

RDB는 한 테이블에 여러컬럼

컬럼dB는 컬럼단위로 테이블이 저장됨

--> 데이터 Access양이 줄어들고 속도 증가


파티션을 이용해 스캔 범위 조정 가능하다.


JSON 데이터 스트럭쳐가 그대로 들어간다.


사용자 권한 관리

구글 클라우드 프로젝트 계정을 사용

다른 사용자에게 데이터 공유가능

 - 사용자 단위 , 구글 그룹단위, ROLE단위

데이터 셋 권한

READER




데이터 로딩(배치)

멀티 쓰레딩 가능


한 디렉토리에 이쓴ㄴ 모든 파일을 동시에 업로드 가능


1GB데이터 (600만레코드) 30-40초


UDF=프로시져 비슷


쥬피터 노트북?



빅데이터 분석 해보는데 1일 걸림

기존 팀을 만들어 3-6개월 걸림

파이어베이스가 코딩 400줄 6시간으로해결






'IT잡담' 카테고리의 다른 글

GDG 참석 후기 ,  (0) 2016.11.07
Comments