publications

데이터 사이언스

가중 기댓값 최대화 알고리즘 기반 공간 데이터 분석

본 연구는 가중 기댓값 최대화(Weighted Expectation-Maximization, WEM) 방법을 적용하여 공간 데이터 분석을 개선하는 새로운 접근법을 제시한다. 이 방법은 다변량 데이터에서 설명 변수와 목표 변수 간의 관계를 기반으로 지역을 분류하는 데 있어 정확도 개선을 위해 오차를 최소화하도록 기존 기댓값 최대화 알고리즘에 가중치를 추가하였다. 이 연구는 지리적 정보 시스템, 도시 계획, 공공 보건 등 공간 정보가 중요한 역할을 수행하는 다양한 응용 분야에서 유용하게 적용될 수 있으며, 특히 소상공인 점포의 매출액을 예측하고 지역적 특성에 따른 매출 패턴을 보다 정밀하게 파악하는 데에도 기여할 수 있다. 부동산 거래 데이터 기반 실험을 통해 WEM 방법이 EM 방법과 비교하여 부동산 거래 데이터에서 설명 변수와 목표 변수 간의 상호작용을 더 정확히 분석하고 예측하는 데 효과적임을 보여주었다. 향후 연구에는 지리적 분포의 영향을 최소화하여 설명 변수와 목표 변수 간의 관계를 더욱 효과적으로 모형화할 방법을 연구할 계획이다.

융합 라쏘 신호 근사기의 위발견되는 변화점의 점근적 특성

본 연구는 Fused Lasso Signal Appoximator (FLSA)에서 변화점 식별 시 위발견되는 변화점들이 점근적으로 어떠한 성질을 지니는지 이론적으로 분석하였다. 특히, 계단형태로 증가하거나 감소하는 추세를 지니는 경우에 Fused Lasso Signal Approximator에 의해 식별된 변화점 중에서는 위발견 변화점의 존재함 점근적으로 확률 1이 됨을 확인하였으며, 참 변화점 식별에 대한 일치성이 만족 되지 않음을 보인 연구결과이다. 또한, 위발견된 변화점 수에 대한 점근적 분포를 규명하여 위발견 변화점 수의 분포를 기반으로 위변화점을 최소로 포함하는 변화점 집합을 식별하는데 활용할 수 있는 연구이다. 본 연구는 시간의 흐름에 따른 변화점의 식별에 활용 가능한 연구로 소상공인의 상권 클러스터 내 업종 분류 카테고리에 따른 업체 수의 변화 추세를 식별하는데 활용할 수 있다.

융합 라쏘 신호 근사기에 대한 연구

Son, W., Lim, J. and Yu, D., 2023. Path algorithms for fused lasso signal approximator with application to COVID‐19 spread in Korea. International Statistical Review, 91(2), pp.218-242.

시간에 흐름에 따라 관측된 데이터가 구간별 상수 평균을 갖을 때, 평균이 달라지는 시점과 평균을 추정하는 융합 라쏘 신호 근사기에 대한 해-경로 알고리즘에 대하여 소개하고 기존의 방법을 개선하는 해-경로 알고리즘을 제안한 연구로 연구의 결과를 한국의 코로나 일일 확진자 수에 적용하여 확진자 폭증의 시작 시점과 주요 구간을 식별함. 본 연구는 시간의 흐름에 따른 소상공인의 업종별 점포 수의 변화점 식별에 응용이 가능함.

Abstract

The fused lasso signal approximator (FLSA) is a smoothing procedure for noisy observations that uses fused lasso penalty on unobserved mean levels to find sparse signal blocks. Several path algorithms have been developed to obtain the whole solution path of the FLSA. However, it is known that the FLSA has model selection inconsistency when the underlying signals have a stair‐case block, where three consecutive signal blocks are either strictly increasing or decreasing. Modified path algorithms for the FLSA have been proposed to guarantee model selection consistency regardless of the stair‐case block. In this paper, we provide a comprehensive review of the path algorithms for the FLSA and prove the properties of the recently modified path algorithms’ hitting times. Specifically, we reinterpret the modified path algorithm as the path algorithm for local FLSA problems and reveal the condition that the hitting time for the fusion of the modified path algorithm is not monotone in a tuning parameter. To recover the monotonicity of the solution path, we propose a pathwise adaptive FLSA having monotonicity with similar performance as the modified solution path algorithm. Finally, we apply the proposed method to the number of daily‐confirmed cases of COVID‐19 in Korea to identify the change points of its spread.

중도 절단되어 관측된 변수 사이의 연관성 검정 방법

Cho, S., Yu, D. and Lim, J., 2023. Testing independence of bivariate censored data using random walk on restricted permutation graph. Journal of the Korean Statistical Society, pp.1-25.

중도 절단되어 관측된 두 변수 사이의 연관성을 검정하는 방법에 대한 연구로 식별 가능한 순서 정보의 제한을 반영한 제한된 순열기반의 그래프 위에서의 랜덤 워크로 검정 통계량의 분포를 산출하는 방법을 제안함. 업종별 점포의 생존 시간에 대한 연 관성을 식별하는 응용문제에 적용 가능한 연구임.

Abstract

In this paper, we propose a procedure to test the independence of bivariate censored data, which is generic and applicable to any censoring types in the literature. To test the hypothesis, we consider a rank-based statistic, Kendall’s tau statistic. The censored data defines a restricted permutation space of all possible ranks of the observations. We propose the statistic, the average of Kendall’s tau over the ranks in the restricted permutation space. To evaluate the statistic and its reference distribution, we develop a Markov chain Monte Carlo (MCMC) procedure to obtain uniform samples on the restricted permutation space and numerically approximate the null distribution of the averaged Kendall’s tau. We numerically compare the power of our procedure to existing state of the art procedures in the literature under various censoring types. We apply the procedure to three real data examples with different censoring types, and compare the results with those by existing methods.

공분산 추정 베이지안 모형 연구

Lee, K., Jo, S. and Lee, J., 2022. The beta-mixture shrinkage prior for sparse covariances with near-minimax posterior convergence rate. Journal of Multivariate Analysis, 192, p.105067.

이 연구에서는 베타혼합 축소 사전분포를 활용하여 고차원의 성김 특성이 있는 공분산을 추정하는 베이지안 모형을 제안하였다. 제안한 모형은 기존의 spike-and-slab 사전분ㅍㅗ에 비해 계산적인 면에서 효율성과 좋은 이론적인 성질을 가지고 있음을 보였다. 모의실험과 실제자료 분석을 통해 빈도론 방법과 기존의 베이지안 방법 들에 비해 성능이 우수함을 입증하였다.

Abstract

Statistical inference for sparse covariance matrices is crucial to reveal the dependence structure of large multivariate data sets, but lacks scalable and theoretically supported Bayesian methods. In this paper, we propose a beta-mixture shrinkage prior, computationally more efficient than the spike and slab prior, for sparse covariance matrices and establish its minimax optimality in high-dimensional settings. The proposed prior consists of independent beta-mixture shrinkage and gamma priors for off-diagonal and diagonal entries, respectively. To ensure positive definiteness of the covariance matrix, we further restrict the support of the prior to the subspace of positive definite matrices. We obtain the posterior convergence rate of the induced posterior under the Frobenius norm and establish a minimax lower bound for sparse covariance matrices. The class of sparse covariance matrices for the minimax lower bound considered in this paper is controlled by the number of nonzero off-diagonal elements and has more intuitive appeal than those appeared in the literature. We show that the posterior convergence rates of the proposed methods are minimax or nearly minimax. In the simulation study, we also show that the proposed method is computationally more efficient than competitors while achieving comparable performance. Advantages of the beta-mixture shrinkage prior are demonstrated based on two real data sets.