이론적 기초부터 고급분석까지: LPA 설계·추정·해석·보고까지 연구 전 과정을 한눈에!
이론적 기초부터 실제 활용 및 고급 분석까지
LPA 연구 설계부터 모형 추정, 결과 해석, 보고서 작성까지 전 과정을 실무 수준으로 마스터합니다.
연속형 지표(Continuous Indicators)를 활용해 이질적인 모집단 내에서 동질의 하위집단(Latent Profiles)을 식별하는 혼합모형
각 프로파일이 모집단에서 차지하는 비율 (크기)
각 프로파일별 지표들의 평균 수준 및 패턴
프로파일 내 지표들의 변동성(분산) 구조
LPA 구조 개념도
연속 잠재변수 | 연속 지표
범주 잠재변수 | 연속 지표
범주 잠재변수 | 범주 지표
초점: 변수 간의 관계 및 상호작용
목표: 모집단의 평균적 파라미터 추정
예시: 회귀분석, 경로분석, 요인분석(FA)
초점: 개체(Person) 간의 유사성
목표: 이질적인 하위집단(Subgroups) 식별
예시: 군집분석, LPA, LCA
잠재프로파일분석의 통계적 기반
관측된 분포 f(y)는 K개 하위집단 분포의 가중 합으로 표현됨
LPA는 연속형 지표의 평균 패턴을, LCA는 범주형 지표의 응답 확률 패턴을 중심으로 잠재집단을 식별합니다. 연구 데이터의 척도 특성에 따라 적절한 방법론을 선택해야 합니다.
사람중심 접근이질성 존재 여부
탐색 vs 확인지표 변수 선정
모형 사양 설정최적 K 결정
적합도 지수 평가해석 타당성 확인
프로파일 특성화맞춤형 개입 설계
변수중심 분석과 달리 개인들의 내집단 동질성과 집단 간 이질성을 동시에 고려하여 모델링
단일 분포로 설명되지 않는 복잡한 데이터 구조를 여러 개의 잠재 하위분포의 혼합으로 설명
이론 없이 패턴을 발굴하는 탐색적 접근과 사전 가설을 검증하는 확인적 접근 모두 가능
정보량 > 추정모수 수 (자유도 ≥ 0 확보)
관측변수 수 ≥ 3 (최소 식별 조건)
프로파일 수 상한: K < n / 지표수 (충분한 표본)
대각구조(Diagonal): 지표 간 독립 가정 (단순성)
동일분산(Equal): 프로파일 간 분산 동일 (식별 용이)
완전/가변(Full/Varying): 유연하지만 과적합 위험
국소극값(Local Maxima) 문제 방지 필수
다중 시작값(Random Starts): 50~500회 이상 반복
최종 최우도(Max Likelihood) 해의 재현성 확인
프로파일 순서가 바뀌어도 우도(Likelihood)는 동일
문제: 해석 및 베이지안 추정 시 혼란 유발
해결: 사전 제약(Constraints) 또는 사후 정렬(Relabeling)
프로파일 내 다변량 정규성(Within-class Normality) 가정의 이해
사후확률 추정
τ_ik = P(z_i=k|y_i,θ_t)
파라미터 갱신
가중 평균 & 분산 계산
Expectation-Maximization의 핵심 메커니즘
관측되지 않은 잠재변수 Z에 대한 완전데이터 로그우도의 조건부 기대값
사후확률(Posterior Probability) 계산
현재 파라미터(θ_t)를 기반으로 각 관측치 i가 프로파일 k에 속할 확률(τ_ik)을 추정합니다.
파라미터(Parameter) 최적화 및 갱신
계산된 사후확률(τ_ik)을 가중치로 사용하여 모형의 파라미터를 갱신합니다.
우도함수(Log-Likelihood)가 더 이상 증가하지 않을 때까지 반복
모형 적합도의 핵심 척도와 최적화
관측 데이터의 로그 우도 합: 모수 벡터 θ = (π, μ, Σ)에 대해 최대화
닫힌 해(Closed Form) 부재: 미분값 0인 해를 직접 구할 수 없음
반복적 방법 사용: EM 알고리즘, Newton-Raphson 활용
구배(Gradient)와 헤시안(Hessian): ∇log L(기울기)과 ∇²log L(곡률)로 극대값 탐색
알고리즘 BFGS, L-BFGS-B 등 준-뉴턴(Quasi-Newton) 기법 적용
모형 비교의 난점: K개를 K+1개와 비교 시 일반적 χ² 검정 불가
이유: 귀무가설 하에서 파라미터가 경계값(비율=0)에 위치함
결과: -2LL 차이가 카이제곱 분포를 따르지 않음
해결책 표준 LRT 대신 LMR-LRT 또는 BLRT 사용 필수
개체를 잠재 프로파일에 할당하는 방법론
각 개체(i)를 사후확률이 가장 높은 잠재 프로파일(k)에 할당하는 결정론적 방식
0~1 범위, 1에 가까울수록 명확한 분류 (권장 ≥ 0.80)
할당된 클래스에 대한 평균 사후확률 (권장 ≥ 0.70)
표본: 대학생 n=1,000명
지표: 학업동기 6개 하위요인(자기효능감, 내재동기 등, 7점 리커트)
모형 추정: 1~6개 프로파일 순차 비교
결정 기준: BIC 최저값, LMR/BLRT 유의성(p<.05) 및 이론적 해석 가능성 종합 고려
프로파일 명명: 고동기형, 무동기형, 회피형, 불균형형
성취도 비교(BCH): F=12.34***고동기형 > 불균형형 > 회피형 > 무동기형 순으로 학업성취도 유의한 차이 확인
표본: 성인 남녀 1,200명
지표: 신체활동, 식습관, 수면, 스트레스 (4요인)
척도: 모든 지표를 Z-score로 표준화하여 패턴 비교
'고스트레스-저활동' 집단을 위험군으로 식별
맞춤형 건강 증진 프로그램의 우선 대상자로 선정하여 효율적 자원 배분 가능
남성: '고활동-저스트레스' 비율 높음 (32.1%)
여성: '평균 균형형' 비율 높음 (28.4%)
성별에 따른 프로파일 분포의 유의한 차이 확인
잠재집단은 몇 개가 존재하는가?(최적 프로파일 수 결정)
프로파일들은 어떤 변수 패턴으로 구분되는가?
각 프로파일은 실무적·이론적으로 해석 가능한가?
기존 이론적 배경과 일치하는가?(확인적 접근 시 필수)
프로파일 예측 변수 (Covariates)
프로파일 결과 변수 (Distal Outcomes)
적절한 분석 방법 선정
기본 가정 검토 수행
대안적 공분산 구조 비교
민감도 분석 수행
교차 타당화 (재현성 확인)
정규 혼합 기반의 사람중심(Person-centered) 접근법
연속형 지표를 활용하여 이질적인 잠재프로파일 식별
각 프로파일 내 다변량 정규분포 가정 (독립성)
주요 모수: 사전확률(π), 평균(μ), 공분산(Σ)
EM 알고리즘: E-step(확률 추정)과 M-step(모수 갱신) 반복
국소극값(Local Maxima) 문제 발생 가능성 주의
해결책: 충분한 수의 Random Starts 설정 필수
모형 식별성(Identification) 확보를 위한 공분산 제약
지표 유형: LPA는 연속형(Continuous), LCA는 범주형
모델링 대상: 평균/분산 패턴(LPA) vs 응답 확률(LCA)
적용 예시: 심리 척도 프로파일(LPA) vs 증상 유무(LCA)
LPA 분석의 핵심 단계와 필수 산출물 개요
FIML: 모든 관측치 정보 활용 (편향 최소화)
MLR: 로버스트 표준오차로 비정규성 보정
MAR(Missing at Random) 가정 필수
단순 제거(Listwise Deletion)보다 FIML 사용 권장 (Mplus 기본값)
Z-score 변환: 평균 0, 표준편차 1로 통일
서로 다른 척도(Scale) 간 비교 가능성 확보
프로파일 패턴의 직관적 해석 지원
분석 전 표준화는 수렴성(Convergence) 향상에도 기여함
마할라노비스 거리(Mahalanobis) 활용
다변량 이상치: χ² 분포 기준 상위 1% 검토
극단치는 별도 집단일 수 있으므로 신중 처리
무조건 제거하기보다 민감도 분석(Sensitivity Analysis) 수행 권장
신뢰도: Cronbach's α ≥ 0.7, 항목-총점 상관 r ≥ 0.3
정규성: 왜도 |sk| ≤ 2, 첨도 |ku| ≤ 7 이내 권장
변별력: 문항 간 상관 r ≤ 0.85 (과도한 중복 배제)
진단: VIF > 10 또는 조건수(CN) > 30 시 문제 발생
원인: 매우 높은 상관(r ≥ 0.90)을 가진 지표 존재
해결: 단순 제거보다는 이론적 근거에 따른 변수 합성
Z-score 표준화: 평균 0, 표준편차 1로 변환하여 비교
역채점(Reverse): 부정 문항의 부호를 반전시켜 통일
목적: 프로파일 패턴의 직관적 해석과 수렴성 향상
모든 지표의 해석 방향이 동일한지 확인했는가?
신뢰도와 변별력을 동시에 만족하는 지표만 선택했는가?
이상치(Outlier)를 사전에 제거하거나 Windsorizing 했는가?
QQ plot: 이론적 정규분포선과 비교하여 비선형 패턴(S자형 등) 탐지
왜도/첨도: 절대값 기준 |skew| > 2, |kurt| > 7 시 비정규성 의심 (West et al., 1995)
대처: 정규분포 가정 위반 시 MLR 추정 사용하거나 변수 변환 고려
# R 예시 (descriptive stats)
psych::describe(data) # skew, kurtosis 확인
독립성 가정: 관측치 간 상호 독립 전제. 위반 시(예: 학교/병원 데이터) 다층(Multilevel) LPA 적용 필요
ICC 확인: 급내상관계수(ICC) > 0.05이면 집락 효과 존재 가능성
표본 크기(Sample Size): 경험적으로 지표 수 × 프로파일 수 × 10 이상 권장. 소표본(N<500) 시 단순 구조 사용
Tip: 표본이 작으면 복잡한 모형(가변 분산 등)은 수렴 실패 가능성 높음
대부분의 연구에서는 '군집별 대각(Class-varying diagonal)' 구조가 균형 잡힌 선택입니다. 분산의 이질성을 허용하면서도 공분산 제약으로 모형의 복잡도를 관리할 수 있어 안정적인 해를 제공합니다.
AIC & BIC: 낮을수록 모델 적합도 우수
SABIC: 표본크기 보정, 중간 규모에 적합
Entropy: 분류 정확도 0.80 이상 권장
Tip: BIC 최저점과 엘보우(Elbow) 확인
LMR-LRT: K-1 vs K 모델 비교 (p < .05)
BLRT: 부트스트랩 기반, 검정력 가장 우수
비유의(ns): p > .05 시 더 적은 K 선택
주의: 단순 p값 의존보다 종합 판단 필요
이론적 해석: 프로파일 패턴의 타당성
집단 크기: 최소 5% 이상 (너무 작으면 제외)
활용성: 개입 및 정책 적용 가능 여부
결론: 통계적 지표 + 해석 가능성 종합
• 일반적 기준: BIC가 AIC보다 더 엄격하여, 복잡한 모델보다 간단한 모델을 선호합니다.
• 표본 크기 고려: N<200 → AIC, N>1000 → BIC, 중간 규모 → SABIC 권장
• 실무적 접근: 여러 지수를 함께 고려하고, 해석 가능성과 최소집단 크기를 종합적으로 판단합니다.
정의: 분류 불확실성을 요약하는 지표 (0~1)
의미: 사후확률(Posterior)의 분리 정도 측정
1에 가까울수록 완벽한 분류 (Clear Separation)
0에 가까울수록 분류 모호함 (High Uncertainty)
Good 0.80 이상이면 양호한 분류로 간주
절대적 기준 아님 (지표 특성/연구 목적 고려)
주의: 독립적 지표로 사용 금지 (보조 지표)
AIC, BIC, LMR-LRT와 종합적으로 판단 필수
모형 간 적합도 비교를 위한 통계적 검정 절차
K-1개 프로파일 모형이 데이터 설명에 충분함
K개 프로파일 모형이 유의한 설명력을 추가함 (채택 목표)
K-1 모형의 파라미터 분포를 이용해 K 모형의 우도비 통계량 분포를 근사 추정. p < .05 시 K-1 모형 기각 → K 모형이 더 우수함을 시사.
• 표본 크기: 소표본(n<200)에서 정확도 저하 • 초기값: 국소 해(Local Maxima)에 매우 민감 • 충분한 Random Starts (최소 500회) 설정 필수
• 단독 지표로 사용하지 말고 BIC, Entropy와 종합 판단 • 유의하더라도 최소 집단 크기(<5%)나 해석 가능성이 낮으면 기각 • 최근 연구에서는 BLRT와 병행 보고를 권장함
모형 비교를 위한 부트스트랩 우도비 검정
최적 모델 선택: K=4
BIC 최저, Entropy 양호(0.86), BLRT 유의(p<.01)
기각 사유 (K=5, 6)
LMR/BLRT 비유의(p>.05), 과적합(Overfitting) 가능성
참고 지표
SABIC, LMR-LRT 등 추가 지표는 부록 참조
단일 지표에 의존하지 않고 통계적 적합도와 이론적 해석 가능성을 종합하여 결정합니다. "가장 적합한 모형은 해석이 명확하고 실용적인 모형입니다."
표준화 평균(z-score)으로 패턴 비교
고-중-저 수준(높고-낮음)으로 해석
교차 패턴(Cross-over) 식별
변수별 기여도와 중요도 파악
기술적·중립적 명명 사용(예: "고효능군", "중간수준군")
가치 판단/감정적 표현 배제
이론적 배경에 근거한 명명
프로파일 특성을 간결하게 표현
각 집단의 크기와 비율(%) 명시
95% 신뢰구간(CI) 함께 제시
효과 크기(Effect Size) 보고
통계적 유의성 vs 실질적 중요도 구분
표준화된 평균을 활용한 패턴 식별 및 해석 전략
MIXTURE 모형을 지정하고, 국소해(Local Maxima) 방지를 위해 충분한 STARTS(랜덤 시작값)를 설정합니다.
부트스트랩 기반의 LRTBOOTSTRAP 옵션을 사용하여 BLRT 검정을 수행, 최적의 K를 결정합니다.
TECH11(LMR-LRT), TECH14(BLRT), ENTROPY 등 핵심 적합도 지수를 요청합니다.
estimate_profiles(1:6, variances = "varying", covariances = "zero")
get_fit(res) %>% select(AIC, BIC, Entropy)
plot_profiles(res, ci = TRUE, add_line = TRUE)
데이터 로드부터 추정까지 한 번에 연결하는 tidyverse 스타일 구문입니다.
df %>%
select(y1, y2, y3, y4) %>%
estimate_profiles(1:4) %>%
plot_profiles()
일반화 구조방정식 모형(GSEM)을 활용한 잠재프로파일분석 절차
표본: n=1,000명, 6개 연속형 지표
전처리: 경도 왜도 존재, FIML 결측 처리(<3%)
설정: 대각 공분산, 500 Random Starts
정보기준: K 증가 시 BIC/SABIC 지속 감소
검정: BLRT(p<.001), LMR(p<.01) 모두 유의
결정: K=5부터 해석 난해 → K=4 채택
*분류 정확도와 집단 크기 모두 양호
유형 명명: 고/중/저/불균형 4개 패턴
효과크기: Cohen's d = 0.85~1.23 (Large)
LPA 모형의 확장과 심화 분석을 위한 핵심 방법론
측정모형(LPA)과 구조모형을 분리하여 분류 편향을 최소화하고 독립변수의 영향을 검증
프로파일 간 결과변수의 평균 차이(BCH)나 분포 차이(DCAT)를 통계적으로 검정
성별, 국가 등 집단 간 프로파일 구조의 형성, 평균, 분산의 동일성(불변성)을 확인
시간 흐름에 따른 잠재 프로파일의 변화 양상(전이)과 시점 간 전이확률을 추정
사전분포(Prior)를 활용하여 소표본이나 복잡한 모형에서 추정의 안정성을 확보
초기값, 공분산 구조 등 모형 설정 변화에 따라 결과가 얼마나 견고한지 검증
Step 1측정모형
순수 측정모형 추정
공변인(x) 제외
최적 프로파일 수 결정
Step 2오분류 계산
최대사후확률(MAP) 분류
오분류행렬(E) 산출
Entropy 확인
Step 3보정 회귀
분류오차 보정
공변인 효과 추정
R3STEP / Auxiliary
Advanced Analysis
프로파일 간 결과변수의 평균과 분포 차이를 통계적으로 검증
단순 평균 비교를 넘어, 분류 오차(Classification Error)를 보정한 상태에서 각 잠재 프로파일이 외부 결과변수(성취도, 만족도 등)에 미치는 영향을 파악합니다.
연속형 결과변수에 최적화된 방법으로, 각 개체별 BCH 가중치를 산출하여 가중 회귀분석/ANOVA를 수행합니다. 평균 비교의 통계적 검정력이 우수합니다.
범주형 결과변수(예: 합격/불합격) 분석에 사용됩니다. 오분류 확률을 반영한 보정된 카이제곱 검정을 통해 프로파일 간 비율 차이를 검증합니다.
독립성 유지: 결과변수는 프로파일 형성(LPA 지표)에 직접 참여하지 않아야 합니다.
순서 준수: 반드시 최적의 프로파일 수(K)가 확정된 후, 결과변수를 투입해야 합니다 (3-step).
단순 비교 지양: 분류된 집단(Class)을 고정된 변수처럼 취급하여 일반 ANOVA를 돌리면 편향(Bias)이 발생합니다.
정규 혼합모형 적합 및 최적 프로파일 수(K) 결정
분류 오차(Classification Error) 역가중치(Inverse Weight) 생성
가중 ANOVA 및 회귀분석 원위결과(Distal Outcome) 비교
사후확률과 클래스 비율 활용
LPA 결과가 결과변수에 의해 왜곡되지 않고 독립성 유지
분류 오류를 보정하여 더 정확한 평균 차이 검증
연속형 지표를 사용하여최적의 프로파일 식별
각 클래스별 범주 결과의기대빈도(Expected Freq) 산출
사후확률 가중치를 적용해분류 오차 보정 후 검정
진단 여부(유/무), 프로그램 참여(참여/미참여), 합격 여부 등 이항 또는 다항 범주형 결과변수
단순 교차분석(Crosstab)보다 분류 불확실성을 고려하여 더 정확한 연관성 검정(카이제곱) 가능
집단(성별/국가 등) 간 프로파일 구조 비교 및 잠재 특성의 불변성 검증
집단 간 프로파일 개수(K)와 기본 구조 동일
프로파일의 형태(평균)와 산포(분산) 동일
각 집단 내 프로파일 구성 비율(Probability) 동일
BIC 비교: 불변성 제약 모델 vs 비제약 모델 비교BIC가 더 낮거나 차이가 미미하면 불변성 성립
ΔLL 검정: -2 LogLikelihood 차이 검정(χ² 분포)유의하지 않으면(p > .05) 불변성 가정 유지
사후확률(Posterior) 안정성:집단별 분류 품질이 유사하게 유지되는지 확인
불변성이 성립하면 전체 통합 모형으로 분석 가능하며, 성립하지 않으면 집단별 개별 모형이나 부분 불변성 모형을 적용해야 합니다.
T1 데이터 기준최적 프로파일 도출
T2 데이터 기준프로파일 구조 확인
시점 간 이동 확률(안정성 vs 변화)
잠재클래스 비율에 대한 사전분포. α는 대칭적 hyperparameter로, 정보가 없을 땐 작은 값 사용.
각 프로파일별 지표 평균에 대한 정규분포. μ₀는 사전 평균, Σ₀는 불확실성을 나타내는 사전 공분산.
공분산 행렬에 대한 역위샤트 분포. Ψ는 scale matrix, ν은 자유도로 분산 추정의 정보를 제공.
NUTS (No-U-Turn Sampler): HMC 기반의 효율적 샘플링, 복잡한 모형에 적합.
Gibbs Sampling: 조건부 분포가 명확할 때 사용되는 전통적 방법.
MCMC 반복 중 클래스 라벨(1, 2, 3...)이 무작위로 뒤바뀌는 현상.
→ 해결: 사후 처리(Post-processing) 또는 식별 제약(예: μ₁ < μ₂ < μ₃) 적용 필수.
LPA 결과의 신뢰도를 평가하고 보정하는 핵심 전략
• 정의: 개체가 특정 프로파일에 속할 확률의 명확성 요약 (0~1) • 기준: 일반적으로 0.80 이상이면 양호하나 절대적 기준은 아님
평균 사후확률 ≥ 0.70 권장
• 해석: 대각선 값이 높을수록 분류가 명확함 • 보고: Entropy와 함께 오분류 행렬을 부록에 제시
1. 3-Step Approach (R3STEP)
측정모형 고정 후 오분류 행렬을 반영하여 공변인 효과 추정
2. BCH / DCAT 방법
원위결과변수(Distal) 분석 시 가중치(Weights)로 분류오차 조정
3. Post-Prob Weighting
단순 할당 대신 사후확률 자체를 가중치로 사용하여 분석
• 가장 높은 확률의 집단으로 단순히 할당(Assign) 후 분석하면 편향 발생 • 특히 Entropy가 낮거나 집단 크기가 불균형할 때 결과 왜곡 심화됨 • 반드시 보정된 방법(3-step 등)을 사용하여 2차 분석 수행할 것
초기값/시작값 개수 변화 확인
공분산 구조 대안 비교
지표 구성 변화에 따른 안정성
결측값 처리 방식 비교
표준화 방식 변경
이상치 포함/제거 효과 비교
부트스트랩 안정성 확인
K±1 모델 재검토
표본 분할 교차 타당화
모형: 4개 프로파일 + 공변인(3-step) + 원위결과(BCH) + 다집단(성별)
데이터: 표본 N=1,200 (남 52.3%, 여 47.7%), 지표 6개, 공변인 3개
※ 4개 집단 간 성취도 차이가 남녀 모두에서 유의함
비율 차이: 성별에 따른 프로파일 분포 유의차 (χ²=15.67***)
특징: 고성과군 비율 여(31.2%) > 남(28.5%), 중간군 남(35.2%) > 여(33.8%)
분류 정확도: 3-step 보정으로 분류오차 최소화 확인
시사점: 성별에 따른 맞춤형 개입 필요성 지지, 고성과군 타겟팅 전략 수립
LPA 연구를 위한 핵심 학술 자원 및 소프트웨어 가이드