본문 바로가기

직장인 문서 활용기

[구글스프레드시트] 엑셀 두 데이터의 유사성을 보고 싶을 때 쓰는 피어슨 함수

반응형

전형적인 문돌이인 저. 간혹 두 데이터 집간의 유사성을 보고 싶은데 어떻게 볼 수 있을까 끙끙할 때가 있습니다.

그래서 구글링을 하다보니 피어슨 상관 계수를 통해 두 변수 간의 관련성을 구할 수 있다고 합니다.

 

 

피어슨 상관 계수?

피어슨 상관 계수는 두 변수 x y 사이의 선형 상관관계를 계량하는 수치로.

+-1 사이에 값이 있습니다.

각 수치에 대한 의미는

+1의 의미: +1은 완벽한 양의 선형 관계를 의미합니다.

-1의 의미: -1은 완벽한 음의 선형 관계를 의미합니다.

0의 의미: 0은 두 값이 선형 상관관계가 없다는 의미입니다.

 

 

피어슨 상관 계수 구하는 법

위키백과에 나와 있는 수식이에요. 가장 베이직한 방식이지만 계산하기도 어렵고 저같은 문돌이는 시도조차 할 수가 없죠. 할 수 있다고해도  엄청 오랜만에 보는데 저걸 언제 계산하고 있을까요..라는 생각이 들 때쯤 엑셀 또는 스프레드시트를 켜봅니다. 다행히 스프레드시트에는 저 복잡한 수식을 한번에 계산해주는 함수가 있습니다.

 

먼저 상관관계를 알고싶은 데이터를 확인해볼게요.

 

제가 보고 싶었던 건 결제 비용과 쇼핑몰 유입수의 상관관계였습니다. 그래서 두 행을 각각 비교하고 싶었죠. 그래프로 미리 봐볼까요?

음 그래프상으로도 크게 상관관계를 찾기 어려워 보였어요. 하지만 이렇게 눈대중으로 말하지 않고 실제 상관관계를 구할 때 우리는 피어슨 상관계수를 활용합니다.

 

엑셀 스프레드의 피어슨 상관 함수

엑셀에

=PEARSON(비고 하고 싶은 열 또는 행, 비교하고 싶은 대조 열 또는 행)

으로 입력해줍니다. 그러면 위에 있는 복잡한 수식을 대신 스프레드시트 또는 엑셀이 계산해줍니다. 저는 위  결제비용과 쇼핑몰 유입수를 비교하기 위해 아래처럼 입력했습니다.

=PEARSON(D5:N5, D6:N6)

그리고 결과는

-0.11을 얻었습니다. -0.11이라면 거의 0에 가까운 수입니다. 즉 결제비용과 쇼핑몰 유입수는 큰 상관이 없다는 것을 알 수 있습니다. 주로 유입된 페이지나 pv 또는 체류시간 등 다른 지표와 비교할 필요가 있다는 걸 여기서 생각할 수 있습니다. 이렇게 실무에서 사용할 수 있는 피어슨 함수에 대해서 오늘은 배워봤습니다.

감사합니다!

반응형