통계

통계 상관계수 해석과 공식, 계산법까지 총정리 (feat. 결정계수)

글쓴이:Issac Lee 마지막 수정일:12/22/2025

통계 분석이나 데이터를 다룰 때 가장 빈번하게 마주치는 용어, 바로 상관계수(Correlation Coefficient)입니다. 하지만 막상 $r$값이 나왔을 때 이 수치를 어떻게 해석해야 할지, 복잡해 보이는 상관계수 공식은 어떤 원리로 만들어졌는지, 그리고 공분산이나 결정계수와는 어떻게 다른지 헷갈리는 경우가 많습니다.

오늘은 기초 통계의 핵심인 상관계수란 무엇인지 그 뜻을 명확히 짚어보고, 실무에서 바로 쓸 수 있는 계산법과 올바른 분석 기준까지 완벽하게 정리해 드리겠습니다.

블로그 글을 작성함에 있어서 최대한 정확한 정보를 제공하고자 노력하고 있습니다만, 간혹 오류가 있을 수 있습니다. 발견시 댓글 달아주시면 정정하겠습니다. 블로그의 링크들을 통하여 구매하시면 소정의 커미션이 슬통에 들어옵니다.

상관계수 (Correlation coefficient) 란?

상관계수(Correlation Coefficient)는 통계학에서 가장 자주 등장하는 핵심 개념으로, 두 변수 간의 선형적인 관계의 강도와 방향을 나타내는 지표입니다. 쉽게 말해, “키가 크면 몸무게도 많이 나가는가?”처럼 한 변수가 변할 때 다른 변수가 어떻게 움직이는지를 숫자로 요약해 주는 값입니다.

보통 모집단의 상관계수는 그리스 문자 $ ho$ (로, rho)를 사용하고, 우리가 실제 다루는 표본상관계수는 $r$을 사용합니다.

상관계수의 특징

관계 없음 (0): $0$에 가까울수록 두 변수 간에 선형적인 관계가 거의 없습니다.
범위: $-1 \le r \le 1$ 사이의 값을 가집니다.
양의 상관관계 (+): $1$에 가까울수록 한 변수가 증가할 때 다른 변수도 같이 증가합니다.
음의 상관관계 (-): $-1$에 가까울수록 한 변수가 증가할 때 다른 변수는 감소합니다.

상관계수의 정의 (공분산과의 관계)

상관계수에는 여러 종류가 있지만, 가장 일반적으로 사용되는 것은 피어슨(Pearson) 상관계수입니다. 이를 이해하기 위해서는 먼저 ‘공분산’을 알아야 합니다. 공분산은 두 변수의 방향은 알려주지만, 단위(cm, kg 등)에 따라 값이 달라져 크기를 비교하기 어렵다는 단점이 있습니다.

그래서 공분산을 각 변수의 표준편차로 나누어 단위를 없애고 표준화(-1 ~ 1)시킨 것이 바로 상관계수입니다.

모상관계수

전체 집단(모집단)의 상관계수로, 정의는 다음과 같습니다.

\begin{align*} ho_{X,Y} & = \text{corr}(X,Y) \ & = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} \ & = \frac{\text{E}[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y} \end{align*}

$\text{corr}(X,Y)$: 두 변수 사이의 상관계수
$\text{cov}(X,Y)$: 두 변수의 공분산
$\sigma_X, \sigma_Y$: 각 변수의 표준편차
$\mu_X$ 와 $\mu_Y$: 각 두 변수의 평균
$E$는 기대값(평균)을 의미합니다.

즉, 상관계수라고 하는 것은 기초 통계 시간에 배우는 모평균, 모분산과 같이 굳이 붙이자면, 모상관계수라고 부를 수 있겠습니다. 이 값은 현실적으로 알기 어렵기 때문에, 우리는 표본을 통해 추정합니다.

표본상관계수 공식 – 데이터를 사용한 계산 공식

우리가 엑셀이나 통계 툴에서 구하는 값은 바로 이 표본 상관계수입니다. $n$개의 표본 데이터 쌍 $(x_1, y_1), …, (x_n, y_n)$이 있을 때, 상관계수 $ ho_{X,Y}$를 추정할 때 사용되는 표본 상관계수 공식은 다음과 같습니다.

\begin{align*} r_{xy} &= \frac{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{s_{x}s_{y}} \ &= \frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}} \end{align*}

위 식의 각 기호는 다음과 같은 의미를 가지고 있습니다.

$x_i$와 $y_i$는 각각의 관측값입니다.
$\bar{x}$와 $\bar{y}$는 각 변수의 평균값입니다.
$s_x$와 $s_y$는 각각 $x$와 $y$의 표준편차입니다.
$n$은 관측값의 총 수입니다.

첫번째 줄 수식에서 분자는 두 변수의 표본 공분산을 나타내며, 분모는 두 변수의 표본 표준편차의 곱을 나타내고 있습니다.

공분산과 상관계수의 관계

앞에서 살펴본 식에서도 알 수 있듯, 공분산과 상관계수는 밀접한 관계가 있습니다. 고려대학교 통계학과 송성주 교수님이 쓴 수리통계학 책에 두 통계량 사이의 관계가 잘 나와있습니다.

공분산은 변수의 측정단위에 의존하게 되는 단점이 있다. 즉, X와 Y의 측정단위를 바꾸면 변수 사이의 관계가 변하는 것이 아닌 데도 공분산의 값은 바뀐다는 것이다. 그렇기 때문에 공분산의 값만으로 관계의 정도를 가늠하는 것이 어려워 진다. 그래서 단위에 의존하지 않도록, 공분산을 두 변수의 표준편차의 곱으로 나누어 이를 상관계수라고 정의하고, 이것을 두 변수 사이의 선형관계를 측정하는 단위로 주로 사용한다.
수리통계학 5판, 송성주, 전명식

즉, 상관계수는 공분산의 단점을 보완한 두 확률변수의 퍼짐 관계를 측정하는 지표인 것이죠.

피어슨 상관계수 해석과 의미

상관계수는 -1에서 1 사이의 값을 가집니다. -1과 1사이의 값을 사용해서 두 변수의 퍼짐에 대한 선형적인 강도와 뱡향을 나타내죠. 선형성을 나타내는 선형적인 강도와 뱡향은 상관계수의 절대값과 부호를 사용해서 알아낼 수 있습니다.

강도: 상관계수 절대값
방향: 상관계수 부호

다음의 그림은 두 변수에서 관찰된 순서쌍 표본들의 분포와 이것들을 사용하여 계산한 표본 상관계수 값을 나타낸 그림입니다.

기초 통계 상관계수 값에 따른 피어슨 상관계수 해석 방법 설명 — 상관계수 값에 따른 두 변수의 선형관계 변화

두 변수 X와 Y가 상관계수 값이 -0.99에서 0.99로 변해감에 따라서 선형적인 관계가 강해졌다가 약해졌다가 다시 강해집니다. 상관계수 r 값에 따라서 다음과 같은 패턴을 보입니다.

r이 0에 가까우면: 두 변수 사이에는 거의 선형 발생 패턴이 없습니다. 즉, 한 변수의 값이 큰 값이 나오거나 작은 값이 나와도, 다른 변수의 값에는 영향을 주지 않습니다.
양의 r 값: 두 변수가 함께 큰 값이 나오는 경향이 있습니다. 예를 들어, r이 0.7이면 한 변수의 값이 크게 나온다면 다른 변수의 값도 크게나오는 경향이 있다는 것을 의미합니다.
음의 r 값: 한 변수의 값이 크게 나왔을 때 다른 변수의 값은 작게 나오는 경향이 있습니다. 예를 들어, r이 -0.7이면 한 변수가 큰 값을 가진다면 다른 변수의 값은 작은 값을 경향이 있습니다.
r 값이 1 또는 -1일 때: 이는 “완벽한” 상관관계를 의미합니다. 두 변수는 일정한 비율로 함께 증가하거나 감소합니다. 그래프에 그렸을 때 모든 데이터 포인트가 직선 위에 위치하게 됩니다.

정리하면, 상관계수의 절대값이 나타내는 상관정도는 ‘두 변수의 관계가 얼마나 직선에 가까운가?’를 나타냅니다. 또한, 상관계수의 부호가 나타내는 방향은 상관된 방향이 우하향 (부호 음수)인지, 우상향 (부호 양수)인지를 나타내는 것이죠. 이러한 것은 다음의 그림을 보면 좀 더 명확하게 이해가 될 것입니다.

correlation2 e1698796896301 — 표본의 분포 모양와 대응하는 표본 상관계수 값

피어슨 상관계수 계산 예제

예제 데이터 다운받기

먼저 examscore.csv 파일을 다운로드합니다. 주어진 데이터에는 다음과 같은 30명 학생의 중간고사 기말고사 점수가 들어있습니다.

examscre — examscore.csv 파일에 들어있는 중간고사, 기말고사 점수

이 데이터를 사용해서 R과 파이썬에서 각각 피어슨 상관계수 구하는 방법에 대하여 알아보도록 하겠습니다.

상관계수 R에서 계산하기

다음의 코드를 통하여 데이터를 불러옵니다.

library(tidyverse)
mydata <- read_csv("examscore.csv")

위 코드를 실행하면 mydata라는 데이터 프레임이 생성되고, head() 함수를 통해 데이터의 첫 부분을 확인할 수 있습니다.

head(mydata)

>> # A tibble: 6 × 4
>>   student_id gender midterm final
>>        <dbl> <chr>    <dbl> <dbl>
>> 1          1 F           38    46
>> 2          2 M           42    67
>> 3          3 F           53    56
>> 4          4 M           48    54
>> 5          5 M           46    39
>> 6          6 M           51    74

R에서 상관계수는 cor() 함수를 사용하면 쉽게 계산 할 수 있습니다. 두 변수 midterm과 final 벡터를 선택하여 cor() 함수에 넣어줍니다.

cor(mydata$midterm, mydata$final)

>> [1] 0.6770075

상관계수 파이썬에서 계산하기

파이썬에서 피어슨 상관계수를 구하기 위해 pandas와 scipy.stats 라이브러리를 활용할 수 있습니다.

import pandas as pd
from scipy.stats import pearsonr
# 데이터 불러오기
mydata = pd.read_csv("examscore.csv")
# 피어슨 상관계수 구하기
correlation_coefficient, _ = pearsonr(mydata['midterm'], mydata['final'])
print(correlation_coefficient)

>> 0.6770074859224257

pearsonr 함수는 피어슨 상관계수와 이에 대한 p-값 두 가지 결과값을 반환합니다. 예를 들어,

correlation_coefficient, p_value = pearsonr(mydata['midterm'], mydata['final'])

같이 사용하면, 첫 번째 변수에는 상관계수가, 두 번째 변수에는 p-값이 할당됩니다.

피어슨 상관계수의 직관적 이해

피어슨 상관계수 손으로 직접 계산하기

표본 상관계수를 직접 손으로 계산하기!

표본 상관계수 수식을 직관적으로 이해하기 위해서 앞에서 배운 공식을 살짝 다르게 써보도록 하겠습니다.

r_{xy}= \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i – \bar{x}}{s_x} ight) \left( \frac{y_i – \bar{y}}{s_y} ight)

앞에서 다운받은 중간고사 기말고사 데이터를 사용해서 위의 수식을 그대로 계산해보면 다음과 같이 동일한 상관계수 값이 나오는 것을 확인 할 수 있습니다.

n <- length(mydata$midterm)
x_bar <- mean(mydata$midterm)
y_bar <- mean(mydata$final)
s_x <- sd(mydata$midterm)
s_y <- sd(mydata$final)
z_x <- (mydata$midterm - x_bar) / s_x
z_y <- (mydata$final - y_bar) / s_y
my_corr <- sum(z_x * z_y) / (n - 1)
my_corr

>> [1] 0.6770075

피어슨 상관계수 기여도 시각화

표본 상관계수 의미 시각화하기!

각 표본의 피어슨 상관계수 기여도를 시각화 해보도록 하겠습니다. 여러분의 상관계수 공식을 바라보는 눈이 한층 깊어질 것이라 생각합니다. 먼저, 기본 plot 함수를 사용해서 다음과 같이 중간고사, 기말고사 점수의 산점도를 그려보도록 하겠습니다.

plot(mydata$midterm, mydata$final, asp = 1,
     xlab = "중간고사", 
     ylab = "기말고사",
     main = "시험점수 산점도")
title(sub = paste("상관계수: ", round(my_corr, 4)), adj = 1, col.sub = "red")
abline(v = x_bar)
abline(h = y_bar)

midterm scatter

위에서 살펴본 상관계수 식을 뜯어보면, 상관계수는 두 표준화된 점수를 곱한 값을 더해서 나줘주는 것을 알 수 있습니다. 1, 2, 3, 4 사분면에 위치한 점들의 x, y 값을 곱한 값을 생각했을 경우, 1, 3 사분면에 위치한 점들은 양수가, 2, 4 사분면에 위치한 점들은 음수가 나오게 됩니다.

z_x * z_y

>>  [1]  0.055356131  0.049164984  0.224095213  0.079635135 -0.207706885
>>  [6]  0.830827538 -0.368312500  0.048072429  1.237136681 -0.094566723
>> [11] -0.347432556  0.301302447  1.331096429  0.429010012  0.168374897
>> [16]  0.307979174 -0.139240092  0.619600198  0.274595542  2.085202312
>> [21]  3.577389937  3.697449615  2.083259992 -0.201394343  0.205400379
>> [26]  0.003641851 -0.137540561  0.599691414  2.360890410  0.560238032

sign 함수를 이용하여 이 수들의 부호만 따로 정리를 해보도록 하겠습니다.

sign(z_x * z_y)

>>  [1]  1  1  1  1 -1  1 -1  1  1 -1 -1  1  1  1  1  1 -1  1  1  1  1  1  1 -1  1
>> [26]  1 -1  1  1  1

이 부호를 이용하면 다음과 같은 그래프가 완성됩니다.

plot(z_x, z_y, asp = 1,
     xlab = "표준 중간고사 점수", 
     ylab = "표준 기말고사 점수",
     main = "중간, 기말고사 표준점수 분포",
     col = c("blue", "red")[as.factor(sign(z_x * z_y))])
title(sub = paste("상관계수: ", round(my_corr, 4)), adj = 1, col.sub = "red")
abline(v = 0)
abline(h = 0)

corr midterm2 — 각 순서쌍 곱이 반영된 중간 기말 점수 그래프

즉, 위의 그래프에서 빨간 점들은 양의 상관관계가 나오는데 기여하는 데이터들이고, 파란 점들은 음의 상관관계가 나오도록 기여하는 점들이라고 생각할 수 있습니다. 하지만, 부호만이 이렇게 상관관계에 영향을 미칠까요? 아닙니다. 한가지 요소가 더 있습니다. 바로 표준 점수들의 곱의 절대값 크기죠!

abs(z_x * z_y)

>>  [1] 0.055356131 0.049164984 0.224095213 0.079635135 0.207706885 0.830827538
>>  [7] 0.368312500 0.048072429 1.237136681 0.094566723 0.347432556 0.301302447
>> [13] 1.331096429 0.429010012 0.168374897 0.307979174 0.139240092 0.619600198
>> [19] 0.274595542 2.085202312 3.577389937 3.697449615 2.083259992 0.201394343
>> [25] 0.205400379 0.003641851 0.137540561 0.599691414 2.360890410 0.560238032

이 값을 점의 크기로 대체하여 봅시다.

plot(z_x, z_y, asp = 1,
     xlab = "표준 중간고사 점수", 
     ylab = "표준 기말고사 점수",
     main = "중간, 기말고사 표준점수 분포",
     col = c("blue", "red")[as.factor(sign(z_x * z_y))],
     cex = abs(z_x * z_y))
title(sub = paste("상관계수: ", round(my_corr, 4)), adj = 1, col.sub = "red")
abline(v = 0)
abline(h = 0)

위의 그래프는 상관계수의 계산 과정을 시각화 한 그래프라고 생각 할 수 있겠죠? 상관계수는 그래프의 모든 점들을 더 한 후 n-1로 나눠준 값이 됩니다. 값을 보면, 빨간 큰 점들이 많이 보이니, 당연히 작은 파란색 점들의 상관계수에 대한 영향력은 줄어들 것이고, 상관계수는 양의 값인 0.677 값이 나오는 게 되는 것이죠.

당신이 좋아할 만한 콘텐츠

by Google Adsense

슬기로운통계생활 이삭

Issac Lee

안녕하세요! 슬기로운 통계생활을 운영하는 이삭 입니다. 통계와 데이터 분석 공부는 힘든 공부입니다. 제가 먼저 걸어간 길이 여러분에게 도움이 되었으면 좋겠습니다.

U Of Iowa, Department of Actuarial Science and Statistics (ABD)
성균관대학교 보험계리학과 석사
성균관대학교 통계학과/산업공학과 학사

더 알아보기