research

데이터 사이언스 도시구조 & 모빌리티 지역 & 상권

상권 변화 탐지를 위한 시계열 이상 감지 기법 분석 (FLSA)

유동현, Johan Lim, Won Son

소상공인의 매출, 방문자 수, 상권 내 업종 변화 등은 시계열적으로 급격한 전환점을 겪는 경우가 많으며, 이를 조기에 탐지하는 것은 정책 대응과 경영 전략 수립에 매우 중요하다. 본 연구는 이러한 변화 탐지를 위한 기초 방법론으로서 Fused Lasso Signal Approximator(FLSA) 기법의 수학적 특성을 분석하였다. 기존 연구에 따르면, FLSA는 계단형 구조를 가진 데이터에서 변화점 탐지 성능이 떨어질 수 있으나, 본 연구는 잡음이 낮고 파라미터 선택이 적절할 경우, 잘못 탐지된 변화점조차도 실제 변화구간 내부에 위치함을 증명하였다. 또한 이 변화점들이 확률모형인 이산 브라운 브리지의 구조와 밀접하게 관련됨을 보였으며, 잘못된 변화점의 개수에 대한 분포를 유도하였다. 본 연구는 소상공인 관련 데이터를 활용한 상권 변화 조기 경보 시스템이나 정책 타이밍 분석 등에 활용 가능한 이론적 기반을 제공한다.

Yu, D., Lim, J. & Son, W. Asymptotic of the number of false change points of the fused lasso signal approximator. J. Korean Stat. Soc. 53, 381–397 (2024). https://doi.org/10.1007/s42952-023-00250-3

데이터 사이언스

상권 변화 감지를 위한 데이터 분석 설정 방법 (FLSA)

Won Son, Johan Lim, 유동현

소상공인의 경영지표는 외부 충격에 따라 불연속적이고 국지적인 변화 양상을 보이는 경우가 많으며, 이러한 변화 시점을 정밀하게 포착하는 것은 현장 기반 정책 설계에 필수적이다. 본 연구는 변화점 탐지에 유용한 Fused Lasso Signal Approximator(FLSA)의 블록 구조 추정 및 신호 선택 성능을 향상시키는 방법을 제안한다. 먼저 BIC(Bayesian Information Criterion) 기반의 기준이 과도한 블록 분할을 방지하며 최소한의 과적합 추정을 보장함을 수학적으로 입증하였다. 이어서, 사전 검정 통계량(preliminary test statistics)을 바탕으로 설정한 임계값을 통해 거짓 발견률(FDR)을 제어하는 새로운 소프트-스레숄딩 선택 절차를 고안하였다. 제안된 절차는 기존보다 신뢰도 높은 신호 탐지가 가능하며, 한국의 COVID-19 시계열 데이터를 활용한 사례 분석을 통해 그 유용성이 확인되었다. 이 방법은 소상공인 상권 변화나 소비 패턴 변화 탐지 등에 효과적으로 활용될 수 있다.

Son, W., Lim, J., & Yu, D. (2023). Tuning parameter selection in fused lasso signal approximator with false discovery rate control. Brazilian Journal of Probability and Statistics, 37(3), 463–492. https://doi.org/10.1214/23-BJPS577

데이터 사이언스

시계열 변화 패턴 분석을 위한 경로 탐색 기법 연구 (FLSA 활용)

손원, 임요한, 유동현

소상공인의 매출, 고객 유입, 상권 내 경쟁 환경 등은 점진적인 구조적 변화를 보일 수 있으며, 이러한 변화의 흐름을 민감하게 포착하는 것이 정책 대응과 경영전략 수립에 중요하다. 본 연구는 시계열 데이터에서 중요한 구조적 전환점을 탐지할 수 있는 Fused Lasso Signal Approximator(FLSA)의 경로 알고리즘을 체계적으로 검토하고, 신호가 계단식(staircase) 구조를 가질 경우 발생할 수 있는 모델 선택 오류를 분석하였다. 특히 기존 기법의 비단조성 문제를 해결하기 위해 제안된 적응형 경로 알고리즘(pathwise adaptive FLSA)은 일정한 변화 감지 성능을 유지하면서 더 해석 가능한 결과를 제공한다. 제안된 기법은 COVID-19 확산 데이터에 적용되어 감염 추이의 변화점을 정확히 파악하였으며, 이는 상권 내 수요 변화나 정책 효과 분석 등 소상공인 데이터를 다루는 실제 상황에도 효과적으로 활용될 수 있다.

Son, W., Lim, J., & Yu, D. (2023). Path algorithms for fused lasso signal approximator with application to COVID‐19 spread in Korea. International Statistical Review, 91(2), 218–242.

데이터 사이언스

소상공인 데이터의 이상 패턴 감지를 위한 비지도 학습 기법 비교 분석

고건우, 조보현, 변영주, 유동현

소상공인의 매출, 결제 트렌드, 방문객 수 등 다양한 운영 지표에서 갑작스럽고 비정상적인 패턴을 조기에 감지하는 것은 경영 리스크 대응과 정책 개입 시점 파악에 중요한 단서가 된다. 본 연구는 정상 데이터만 존재하는 상황에서 비지도 학습 기반으로 이상 징후를 탐지하는 기법들을 비교하고, 그중 최적의 방법을 제안한다. AI-Hub의 누수 감지 센서 데이터를 활용하여 다양한 모델의 성능을 실증 분석하였으며, 특히 정상 데이터만으로 가상의 이상치 데이터를 만들어주는 **자가 적응형 데이터 이동 기법(Self-Adaptive Data Shifting)**을 통해 모델 튜닝을 수행했다. 분석 결과, 오토인코더와 Deep SVDD를 결합한 DASVDD 모델이 가장 뛰어난 이상 탐지 성능을 보였다. 이 방법은 실제 소상공인 POS 데이터나 상권 흐름 데이터에 적용할 경우, 급변하는 상권 이상 징후를 조기에 포착하는 데 활용 가능하다.

Ko, G., Cho, B., Byun, Y., & Yu, D. (2023). Comparative study of unsupervised anomaly detection in sensor data. Journal of the Korean Data & Information Science Society, 34(4), 619–634.

데이터 사이언스 지역 & 상권

불완전한 상권 데이터를 활용한 변수 간 관계 분석 방법

조승훈, 유동현, 임요한

소상공인의 생존 기간, 계약 종료 시점, 누적 매출 등의 데이터는 종종 일부 값이 관측되지 않는 검열 데이터(censored data) 형태로 수집된다. 이 연구는 이러한 검열된 이변량 데이터에서 두 변수 간의 상관관계 또는 독립성 여부를 정밀하게 평가할 수 있는 새로운 통계적 절차를 제안한다. 기존 방법들이 특정한 검열 구조에만 적용 가능했던 반면, 본 연구는 다양한 검열 유형에 범용적으로 적용 가능한 절차를 제공한다. 핵심은 Kendall’s tau 통계량을 활용하되, 검열로 인해 제한된 순열 공간 내에서 가능한 순위 조합들의 평균 통계량을 계산하고, 이를 MCMC 기법을 통해 근사 분포로부터 평가하는 것이다. 제안된 방법은 실제 데이터 사례에도 적용되어 기존 방법보다 더 높은 검정력과 유연성을 보였으며, 이는 소상공인의 다양한 비정형 데이터 분석에도 효과적으로 활용될 수 있다.

Cho, S., Yu, D., & Lim, J. (2023). Testing independence of bivariate censored data using random walk on restricted permutation graph. Journal of the Korean Statistical Society, 52(2), 395–419.

데이터 사이언스

소상공인 데이터를 활용한 이상 징후 탐지를 위한 AI 모델 비교

이재호,조승훈, 유동현

소상공인의 매장 운영, 기기 상태, 고객 흐름 등에서 나타나는 갑작스럽고 비정상적인 변화는 경영 위험이나 손실로 이어질 수 있으며, 이를 사전에 탐지하는 기술은 점점 더 중요해지고 있다. 본 연구는 제조업 센서 데이터를 대상으로 다양한 딥러닝 기반 이상 탐지 모델을 비교하였다. 그 결과는 소상공인의 매출·방문 데이터나 IoT 기반 설비 운영 데이터에도 확장 적용이 가능하다. 특히 시계열 기반 이상 탐지에서 우수한 성능을 보인 TadGAN 모델은 비정상적인 매장 활동, POS 거래 이상, 혹은 IoT 기반 기기 고장을 조기에 감지하는 데 유용할 수 있다. 이 연구는 소상공인 맞춤형 데이터 기반 조기경보 시스템 개발에 중요한 이론적 기반을 제공한다.

Lee, J., Cho, S., & Yu, D. (2023). Comparative study of time series anomaly detection based on generative deep learning models. Journal of the Korean Data & Information Science Society, 34(3), 377–394.

데이터 사이언스 도시구조 & 모빌리티 지역 & 상권

상권 이미지 분석을 위한 인공지능 기반 시각 정보 분류 모델 비교

조보현, 전보강, 이지호, 홍석환, 유동현

소상공인의 위치 기반 서비스나 상권 분석, 매장 외부 이미지 자동 해석 등에 있어, 의미 기반 이미지 분할(Semantic Segmentation) 기술은 상권의 시각적 특징을 정량화하는 데 중요한 역할을 한다. 본 연구는 이미지 내 도로, 건물, 차량 등의 객체를 픽셀 단위로 분류할 수 있는 네 가지 최신 딥러닝 모델을 비교하였다. Cityscapes 데이터셋으로 학습된 모델을 네이버 거리뷰 이미지에 적용한 결과, InternImage와 ConvNeXt 모델이 거리 환경 인식과 객체 구분에서 우수한 성능을 보였다. 이는 거리 기반 매장 입지 평가, 시각적 상권 특성 분석, 소상공인 주변 환경 모니터링 등에 활용 가능하다.

Cho, B., Jun, B., Lee, J., Hong, S. H., & Yu, D. (2024). Comparative study of artificial neural network models for semantic image segmentation. Journal of the Korean Data & Information Science Society, 35(6), 769–789.

데이터 사이언스

유동인구를 활용한 ConvLSTM AutoEncoder 기반 핫플레이스 탐지

이주영, 박헌진

AI와 빅데이터 기술 발전이 다양한 산업에 기회를 제공하는 반면, 소상공인은 이러한 변화의 혜택에서 상대적으로 배제될 수 있다. 본 연구는 소상공인의 창업 입지 결정 지원을 목표로, 유동인구 데이터를 기반으로 한 핫플레이스 탐지 기법을 제안한다. 인천 내륙 지역의 50m 격자 단위 유동인구 데이터를 시계열 이미지로 구성한 후, 공간 및 시간 이상치를 각각 LOF, GAM, LOESS를 활용해 제거 및 보간하였다. 이후 ConvLSTM 기반 시계열 예측 모델을 통해 유동인구 흐름을 예측하고, AutoEncoder 기반 이상 탐지를 통해 예측 오류가 집중된 격자 지역을 핫플레이스로 정의하였다. 본 접근은 소상공인의 상권 분석, 신규 입지 평가, 창업 타이밍 예측 등에 효과적으로 활용될 수 있다.

Lee, J., & Park, H. (2023). Hot place detection based on ConvLSTM autoencoder using foot traffic data. Journal of the Korea Big Data Society, 8(2), 97–107. https://doi.org/10.36498/kbigdt.2023.8.2.97

데이터 사이언스

고차원 상권 데이터 분석을 위한 변수 간 상관성 추정 방법

조윤상, 이승환, 김재오, 유동현

소상공인의 매출, 방문자 수, 결제 수단, 재고 등 다양한 경영 지표는 서로 복잡하게 얽혀 있으며, 이들 간의 조건부 상관관계를 파악하는 것은 효과적인 경영 전략 수립과 위험 요인 탐지에 중요하다. 본 연구는 이러한 다변량 데이터를 분석하기 위한 방법으로, scaled Lasso를 활용한 2단계 희소 부분 상관 추정 기법을 제안한다. 기존 방법이 중간 수준의 상관관계를 놓치는 문제를 보완하고, GPU 기반 병렬 계산을 통해 대규모 데이터에도 빠르게 적용 가능하도록 설계되었다. 실험 결과, 제안된 방법은 변수 간 관계 구조를 더 정확하게 복원하였으며, 이는 소상공인의 경영 분석, 상권 네트워크 이해, 정책 대응 전략 수립 등에 실질적인 도움을 줄 수 있다.

Cho, Y., Lee, S., Kim, J., & Yu, D. (2023). Sparse partial correlation estimation with scaled Lasso and its GPU-parallel algorithm. IEEE Access, 11, 65093–65104. https://doi.org/10.1109/ACCESS.2023.3289714

데이터 사이언스

데이터가 부족한 상황을 위한 이미지 분류 성능 향상 기술

김재오, 한철희, 이정만, 윤우섭

소상공인 데이터 분석에서도 충분한 학습 데이터 확보가 어려운 경우가 많으며, 이로 인해 AI 기반 의사결정 시스템의 성능이 제한되는 문제가 있다. 본 연구는 데이터가 부족할 때도 성능을 향상시킬 수 있는 학습 기법으로, GAN을 활용한 데이터 생성과 웨이블릿 기반 이미지 특성 추출을 결합한 학습 방법을 제안한다. 이 방식은 실제로 SAR 이미지 분류 문제에 적용되어 학습 데이터가 제한된 상황에서 성능 향상 효과를 입증하였다. 유사한 방식은 소상공인의 매장 영상 데이터, 이미지 기반 수요 예측, 시각적 상권 분석 등의 분야에도 적용 가능하며, 데이터가 부족한 상황에서도 안정적인 성능을 확보할 수 있는 AI 분석 기반으로 활용될 수 있다.

Kim, J., Han, C., Lee, J., & Yun, W. (2024). Improvement of SAR target classification using GAN-based data augmentation and wavelet transformation. Military Operations Research, 29(3), 91–103. https://doi.org/10.5711/1082598329391