간행물

한국통계학회> 응용통계연구

응용통계연구 update

The Korean Journal of Applied Statistics

  • : 한국통계학회
  • : 자연과학분야  >  통계학
  • : KCI등재
  • :
  • : 연속간행물
  • : 격월
  • : 1225-066x
  • : 2383-5818
  • :

수록정보
수록범위 : 1권1호(1987)~34권2호(2021) |수록논문 수 : 1,937
응용통계연구
34권2호(2021년 04월) 수록논문
최근 권호 논문
| | | |

KCI등재

1로버스트 그룹 독립성분분석

저자 : 김현성 ( Hyunsung Kim ) , 이웅주 ( Xiongzhu Li ) , 임예지 ( Yaeji Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 127-139 (13 pages)

다운로드

(기관인증 필요)

초록보기

독립성분분석은 혼합 데이터로부터 독립된 신호들을 분리해내는 대표적인 통계적 방법론이며, 그룹 독립성분분석은 독립성분분석을 여러 개체에 적용할 수 있도록 확장한 방법론이다. 그룹 독립성분분석은 기능적 자기 공명 영상 데이터에 활용되어 의학적으로 유의미한 결과를 줌이 알려져있다. 그러나 자기 공명 영상 스캔에서 흔히 일어나는 이상치가 포함되어 있는 경우, 기존의 그룹 독립성분분석은 그 효과가 떨어짐이 알려져있다. 본 연구에서는 ROBPCA 기반의 로버스트한 그룹 독립성분분석 방법론을 제안하였다. 시뮬레이션과 실제 자료 분석을 통해 제안한 방법과 기존 방법을 비교하였고, 그 결과 제안한 방법론의 로버스트성을 입증했다.


Independent Component Analysis is a popular statistical method to separate independent signals from the mixed data, and Group Independent Component Analysis is an its multi-subject extension of Independent Component Analysis. It has been applied Functional Magnetic Resonance Imaging data and provides promising results. However, classical Group Independent Component Analysis works poorly when outliers exist on data which is frequently occurred in Magnetic Resonance Imaging scanning. In this study, we propose a robust version of the Group Independent Component Analysis based on ROBPCA. Through the numerical studies, we compare proposed method to the conventional method, and verify the robustness of the proposed method.

KCI등재

2AUC 차이를 이용한 미결정자 추론방법

저자 : 홍종선 ( Chong Sun Hong ) , 나해린 ( Hae Rin Na )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 141-152 (12 pages)

다운로드

(기관인증 필요)

초록보기

미결정자 추론을 재평가하기 위해 기존 변수에 새로운 변수들을 추가하는 통계 모형이 필요하다. 미결정자와 결정자의 양성률은 다르게 계산되기 때문에 MNAR 가정이 필요하다. 본 연구에서는 두 통계적 모형이 계층 관계를 가지고 있으므로, 두 AUC 차이의 신뢰구간을 이용하여 MNAR 가정하에서 미결정자를 추론한다. AUC 차이 신뢰구간의 추정방법 중에서 모의실험을 통하여 네 종류의 방법의 성능이 우수함을 발견하였다. 그리고 네 종류의 방법을 바탕으로 로지스틱 회귀를 이용한 미결정자 추론에 도움이 되는 변수를 선택하는 방법을 제안한다.


A new statistical model needs additional variables in order to re-evaluate the undecided inference. Then the MNAR assumption is required, since the probabilities for the positivity of the indeterminant and the determinant is calculated differently. In this study, since two statistical models have a hierarchical relationship, we determine the undecided inference under the MNAR assumption using the confidence interval of the difference between two AUCs. Among many methods of estimating the confidence interval of the AUC difference, it is found that four kinds of methods show excellent performance through simulations. And based on these methods, we propose a variable selection method that are useful for the undecided inference using logistic regression models.

KCI등재

3약물유전체학에서 약물반응 예측모형과 변수선택 방법

저자 : 김규환 ( Kyuhwan Kim ) , 김원국 ( Wonkuk Kim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 153-166 (14 pages)

다운로드

(기관인증 필요)

초록보기

약물유전체학 연구의 주요 목표는 고차원의 유전 변수를 기반으로 개인의 약물 반응성을 예측하는 것이다. 변수의 개수가 많기 때문에 변수의 개수를 줄이기 위해서는 변수 선택이 필요하며, 선택된 변수들은 머신러닝 알고리즘을 사용하여 예측 모델을 구축하는데 사용된다. 본 연구에서는 400명의 뇌전증 환자의 차세대 염기서열 분석 데이터에 로지스틱 회귀, ReliefF, TurF, 랜덤 포레스트, LASSO의 조합과 같은 여러 가지 혼합 변수 선택 방법을 적용하였다. 선택된 변수들에 랜덤포레스트, 그래디언트 부스팅, 서포트벡터머신을 포함한 머신러닝 방법들을 적용했고 스태킹을 통해 앙상블 모형을 구축하였다. 본 연구의 결과는 랜덤포레스트와 ReliefF의 혼합 변수 선택 방법을 이용한 스태킹 모형이 다른 모형보다 더 좋은 성능을 보인다는 것을 보여주었다. 5-폴드 교차 검증을 기반으로 하여 적합한 최적 모형의 평균 검증 정확도는 0.727이고 평균 검증 AUC 값은 0.761로 나타났다. 또한, 동일한 변수를 사용할 때 스태킹 모델이 단일 머신러닝 예측 모델보다 성능이 우수한 것으로 나타났다.


A main goal of pharmacogenomics studies is to predict individual's drug responsiveness based on high dimensional genetic variables. Due to a large number of variables, feature selection is required in order to reduce the number of variables. The selected features are used to construct a predictive model using machine learning algorithms. In the present study, we applied several hybrid feature selection methods such as combinations of logistic regression, ReliefF, TurF, random forest, and LASSO to a next generation sequencing data set of 400 epilepsy patients. We then applied the selected features to machine learning methods including random forest, gradient boosting, and support vector machine as well as a stacking ensemble method. Our results showed that the stacking model with a hybrid feature selection of random forest and ReliefF performs better than with other combinations of approaches. Based on a 5-fold cross validation partition, the mean test accuracy value of the best model was 0.727 and the mean test AUC value of the best model was 0.761. It also appeared that the stacking models outperform than single machine learning predictive models when using the same selected features.

KCI등재

4일치성규칙과 목표값이 없는 데이터 증대를 이용하는 학습의 성능 향상 방법에 관한 연구

저자 : 김현웅 ( Hyunwoong Kim ) , 석경하 ( Kyungha Seok )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 167-175 (9 pages)

다운로드

(기관인증 필요)

초록보기

준지도학습(semi-supervised learning)은 목표값이 있는 데이터와 없는 데이터를 모두 이용하는 학습방법이다. 준지도학습에서 최근에 많은 관심을 받는 일치성규칙(consistency regularization)과 데이터 증대를 이용한 준지도학습(unsupervised data augmentation; UDA)은 목표값이 없는 데이터를 증대하여 학습에 이용한다. 그리고 성능 향상을 위해 훈련신호강화(training signal annealing; TSA)와 신뢰기반 마스킹(confidence based masking)을 이용한다. 본 연구에서는 UDA에서 사용하는 KL-정보량(Kullback-Leibler divergence)과 TSA 대신JS-정보량(Jensen-Shanon divergene)과 역-TSA를 사용하고 신뢰기반 마스킹을 제거하는 방법을 제안한다. 실험을 통해 제안된 방법의 성능이 더 우수함을 보였다.


Semi-supervised learning uses both labeled data and unlabeled data. Recently consistency regularization is very popular in semi-supervised learning. Unsupervised data augmentation (UDA) that uses unlabeled data augmentation is also based on the consistency regularization. The Kullback-Leibler divergence is used for the loss of unlabeled data and cross-entropy for the loss of labeled data through UDA learning. UDA uses techniques such as training signal annealing (TSA) and confidence-based masking to promote performance. In this study, we propose to use Jensen-Shannon divergence instead of Kullback-Leibler divergence, reverse-TSA and not to use confidence-based masking for performance improvement. Through experiment, we show that the proposed technique yields better performance than those of UDA.

KCI등재

5랜덤포레스트를 위한 상관예측변수 중요도

저자 : 신승범 ( Seung Beom Shin ) , 조형준 ( Hyung Jun Cho )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 177-190 (14 pages)

다운로드

(기관인증 필요)

초록보기

랜덤포레스트는 여러 의사결정나무 모형들을 융합하여 안정성과 예측력을 높여주기 때문에 종종 사용되는 방법이다. 예측력을 증가시키는 반면 해석의 용이성을 희생하기 때문에 이를 보상하기 위해 변수의 중요도를 제공한다. 변수의 중요도는 랜덤포레스트를 구축할 때 변수가 얼마나 중요한 역할을 하는지를 알려준다. 그러나 어떤 예측변수가 다른 예측변수들과 상관되어 있을 때 기존 알고리즘의 변수중요도는 왜곡될 수 있다. 상관된 예측변수들의 하향 편향은 예측변수의 중요도를 실제 중요도보다 낮게 측정하게 한다. 우리는 기존 알고리즘을 수정하여 상관 예측변수의 하향 편향을 회복하는 새로운 알고리즘을 제안한다. 제안된 알고리즘의 성능은 모의 자료에 의해 증명되고 실제 자료에 의해 설명된다.


Random forests is a popular method that improves the instability and accuracy of decision trees by ensembles. In contrast to increasing the accuracy, the ease of interpretation is sacrificed; hence, to compensate for this, variable importance is provided. The variable importance indicates which variable plays a role more importantly in constructing the random forests. However, when a predictor is correlated with other predictors, the variable importance of the existing importance algorithm may be distorted. The downward bias of correlated predictors may reduce the importance of truly important predictors. We propose a new algorithm remedying the downward bias of correlated predictors. The performance of the proposed algorithm is demonstrated by the simulated data and illustrated by the real data.

KCI등재

6유사도 기반 이미지 캡션을 이용한 시각질의응답 연구

저자 : 강준서 ( Joonseo Kang ) , 임창원 ( Changwon Lim )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 191-204 (14 pages)

다운로드

(기관인증 필요)

초록보기

시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을때 성능 향상을 확인하였다.


Visual Question Answering (VQA) and image captioning are tasks that require understanding of the features of images and linguistic features of text. Therefore, co-attention may be the key to both tasks, which can connect image and text. In this paper, we propose a model to achieve high performance for VQA by image caption generated using a pretrained standard transformer model based on MSCOCO dataset. Captions unrelated to the question can rather interfere with answering, so some captions similar to the question were selected to use based on a similarity to the question. In addition, stopwords in the caption could not affect or interfere with answering, so the experiment was conducted after removing stopwords. Experiments were conducted on VQA-v2 data to compare the proposed model with the deep modular co-attention network (MCAN) model, which showed good performance by using co-attention between images and text. As a result, the proposed model outperformed the MCAN model.

KCI등재

7추세 제거된 시계열을 이용한 단위근 식별

저자 : 나옥경 ( Okyoung Na )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 205-223 (19 pages)

다운로드

(기관인증 필요)

초록보기

본 논문에서는 adaptive lasso 방법을 이용하여 단위근의 존재 여부를 판단하는 방법에 대해 연구하였다. 최근 원 시계열에 상수항과 선형 추세가 포함된 ADF-회귀모형식을 adaptive lasso로 추정하여 단위근을 식별하는 방법이 제안되었으나, 미지의 선형 추세가 존재할 때 검정력이 떨어지는 것으로 나타났다. 이 문제를 해결하기 위해 본 논문에서는 ADF-회귀모형식을 적합시킬 때 원 시계열 대신 선형 추세가 제거된 시계열을 사용하는 수정안을 제안하였다. 그리고 수정안에서는 일차적으로 선형 추세를 제거한 후 모형식을 적합시키기 때문에 ADF-회귀모형식 중 상수항과 선형 추세를 모두 포함하지 않는 모형식을 사용하였다. 기존의 방법보다 수정안을 사용할 때 단위근의 존재를 판단하는 검정력이 향상되는지 모의실험을 통해 검토하였으며, ADF 검정과 DF-GLS 검정과의 비교 실험도 진행하였다. 모의실험 결과 adaptive lasso를 이용하여 단위근의 존재를 판단할 때 원 시계열보다 추세가 제거된 시계열을 사용하는 경우가 높은 정확도를 가지며, 자료의 개수가 충분히 많을 때 단위근을 잘 판단함을 확인할 수 있었다.


In this paper, we study a method to determine the existence of unit roots by using the adaptive lasso. The previously proposed method that applied the adaptive lasso to the original time series has low power when there is an unknown trend. Therefore, we propose a modified version that fits the ADF regression model without deterministic component using the adaptive lasso to the detrended series instead of the original series. Our Monte Carlo simulation experiments show that the modified method improves the power over the original method and works well in large samples.

KCI등재

8두 분류 분포를 위한 오즈 곡선

저자 : 홍종선 ( Chong Sun Hong ) , 오세현 ( Se Hyeon Oh ) , 오태규 ( Tae Gyu Oh )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 225-238 (14 pages)

다운로드

(기관인증 필요)

초록보기

이진분류모형의 성능을 탐색하는 시각적인 대표적인 방법인 ROC 곡선과 TOC 곡선 그리고 TROC 곡선은 혼동행렬을 구성하는 TP, TN, FP, FN 그리고 이들의 비율인 TPR, TNR, FPR, FNR으로 구현된다. 본 연구에서는 두 종류의 비율비인 오즈를 고려하여 단위면적인 정사각형에서의 구현하는 오즈 곡선을 제안하고, ROC 곡선과의 관계를 보인다. 오즈 곡선에서 판별력을 측정하는 두 종류의 측도를 제안하고, 오즈 곡선들의 형태를 바탕으로 두 종류의 측도를 이용하여 두 분류 분포의 판단 기준을 설정한다. 본 연구에서 제안한 오즈 곡선은 다른 시각적인 방법 등과 같이 유용하게 사용할 수 있으며, 오즈 곡선의 판별력을 측정하는 두 종류의 측도들은 분류 성능을 판단하는 대안적인 방법으로 같이 이용할 수 있다.


The ROC, TOC, and TROC curves, which are visually descriptive methods of exploring the performance of the binary classification model, are implemented with TP, TN, FP, FN which consist of the confusion matrix, as well as their ratios TPR, TNR, FPR, FNR. In this study, we consider two types odds and then propose an odds curve representing these odds. And show the relationship between the odds curve and ROC curve. Based on the odds curve, we propose not only two statistics that measure the discriminant power of the odds curve but also the criteria for validation ratings of the odds curve. According to the shape of the odds curves, two classification distributions can be estimated and a criterion for validation ratings can be determined. The odds curve can be meaningfully used like other visual methods, and two kinds of measures for the discriminant power can be also applied together as an alternative criterion.

KCI등재

9한국 COVID-19 확진자 수에 대한 시계열 분석: HAR-TP-T 모형 접근법

저자 : 유성민 ( Seongmin Yu ) , 황은주 ( Eunju Hwang )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 239-254 (16 pages)

다운로드

(기관인증 필요)

초록보기

이 논문에서는, 2개의 혼합된 t-분포(TP-T)의 오차과정을 따르는 이질적 자기회귀 (HAR) 모형을 이용하여, 한국 코로나 (COVID-19) 확진자 수 데이터에 대한 시계열 분석, 즉 추정과 예측에 대하여 연구한다. HAR-TP-T 시계열 모형을 고려하여 HAR 모형의 계수 뿐 아니라 TP-T 오차과정의 모수를 추정하고자 단계별 추정법을 제안한다. 본 연구에서 제안하고 있는 단계별 추정법은, HAR 계수 추정을 위해서는 통상적 최소제곱추정법을 채택하고, TP-T 모수 추정을 위해서는 최대우도추정법을 이용한다. 단계별 추정법에 대한모의실험을 수행하여, 성능이 우수함을 입증한다. 한국 코로나 확진자 수에 대한 실증적 데이터 분석에서, HAR 모형에서의 차수 p=2, 3, 4에 대해, 모형의 평균제곱오차가 최소가 되도록 하는 최적화 시간간격(optimal lag)을 포함하여, 여러가지 시간간격을 고려한 HAR-TP-T 모형의 모수 추정값을 계산한다. 제안된 단계별 추정 방법과 기존의 MLE만의 방법을, 추정 결과를 제시함으로 함께 비교한다. 본 연구에서 제안하고 있는 추정은 두 가지의 오차 측면, 즉 HAR 모형의 평균제곱오차와 잔차분포에 대한 밀도함수 추정의 평균제곱오차, 두 측면에서 모두 우수함을 입증하였다. 나아가, 추정 결과를 활용한 코로나 확진자 수 예측을 수행하였고, 예측정확도의 한 측도로서 mean absolute percentage error (MAPE)를 계산하여 0.0953%의 매우 작은 오차값을 얻었다. 본 연구에서 선택한 최적화 시간간격을 고려한 HAR-TP-T 시계열 모형 및 단계별 추정 방법은, 정확한 한국 코로나 확진자 수 예측 성능을 제공한다고 할 수 있다.


This paper studies time series analysis with estimation and forecasting for Korean COVID-19 confirmed cases, based on the approach of a heterogeneous autoregressive (HAR) model with two-piece t (TP-T) distributed errors. We consider HAR-TP-T time series models and suggest a step-by-step method to estimate HAR coefficients as well as TP-T distribution parameters. In our proposed step-by-step estimation, the ordinary least squares method is utilized to estimate the HAR coefficients while the maximum likelihood estimation (MLE) method is adopted to estimate the TP-T error parameters. A simulation study on the step-by-step method is conducted and it shows a good performance. For the empirical analysis on the Korean COVID-19 confirmed cases, estimates in the HAR-TP-T models of order p = 2; 3; 4 are computed along with a couple of selected lags, which include the optimal lags chosen by minimizing the mean squares errors of the models. The estimation results by our proposed method and the solely MLE are compared with some criteria rules. Our proposed step-by-step method outperforms the MLE in two aspects: mean squares error of the HAR model and mean squares difference between the TP-T residuals and their densities. Moreover, forecasting for the Korean COVID-19 confirmed cases is discussed with the optimally selected HAR-TP-T model. Mean absolute percentage error of one-step ahead out-of-sample forecasts is evaluated as 0.0953% in the proposed model. We conclude that our proposed HAR-TP-T time series model with optimally selected lags and its step-by-step estimation provide an accurate forecasting performance for the Korean COVID-19 confirmed cases.

KCI등재

10제한된 평균 생존시간을 이용한 위암 3기 자료 분석에 관한 연구

저자 : 김빛나 ( Bitna Kim ) , 이민정 ( Minjung Lee )

발행기관 : 한국통계학회 간행물 : 응용통계연구 34권 2호 발행 연도 : 2021 페이지 : pp. 255-266 (12 pages)

다운로드

(기관인증 필요)

초록보기

본 연구는 미국 국립암연구소의 SEER 프로그램에서 제공하는 위암 3기 자료에 대해 항암치료의 효과를 비교하고 위암 생존율에 유의한 영향을 미치는 요인을 알아보고자 한다. 본 연구에서 분석한 위암 3기 자료는 비례위험 가정이 성립하지 않아 대안으로 제한된 평균 생존시간을 이용한 분석 방법을 자료 분석에 적용하였다. 의사-관측들을 이용하여 제한된 평균 생존시간을 추정하였고, 제한된 평균 생존시간 추정량에 기반한 검정통계량을 이용하여 항암치료의 효과를 파악하였다. 일반화 선형모형을 이용한 회귀모형을 통해 위암 3기 환자의 평균 생존시간에 유의한 영향을 미치는 공변량들의 효과를 추정하였다. 항암치료법에 따라 위암 3기 환자의 평균 생존시간에 유의한 차이가 있음을 확인하였고, 진단연령, 인종, 세분화병기, 분화도, 종양의 크기, 수술여부, 항암치료가 위암 3기 환자의 평균 생존시간에 유의한 영향을 미치는 요인들이였으며, 그 중 수술여부가 위암 3기 환자의 평균 생존시간을 늘리는데 가장 큰 영향을 미치는 요인임을 확인하였다.


The purpose of this study is to compare the effects of treatment on stage III stomach cancer data obtained from the SEER program of the National Cancer Institute and to identify the significant risk factors for the survival rates of stage III stomach cancer. Since the proportional hazards assumption was violated for treatment, we used the restricted mean survival time as an alternative to the proportional hazards model. The restricted mean survival time was estimated using pseudo-observations, and the effects of treatment were compared using a test statistic based on the estimated restricted mean survival times. We conducted the regression analysis using a generalized linear model to investigate the significant predictors for the restricted mean survival time of patients with stage III stomach cancer. We found that there was a significant difference between the restricted mean survival times of treatment groups. Age at diagnosis, race, substage, grade, tumor size, surgery, and treatment were significant predictors for the restricted mean survival time of patients with stage III stomach cancer. Surgery was the most significant predictor for increasing the restricted mean survival time of patients with stage III stomach cancer.

12
권호별 보기
가장 많이 인용된 논문

(자료제공: 네이버학술정보)

가장 많이 인용된 논문
| | | |
1연안해역에서 석유오염물질의 세균학적 분해에 관한 연구

(2006)홍길동 외 1명심리학41회 피인용

다운로드

2미국의 비트코인 규제

(2006)홍길동심리학41회 피인용

다운로드

가장 많이 참고한 논문

(자료제공: 네이버학술정보)

가장 많이 참고한 논문

다운로드

2미국의 비트코인 규제

(2006)홍길동41회 피인용

다운로드

해당 간행물 관심 구독기관

고려대학교 연세대학교 서울대학교 부산대학교 경희대학교
 122
 87
 85
 49
 48
  • 1 고려대학교 (122건)
  • 2 연세대학교 (87건)
  • 3 서울대학교 (85건)
  • 4 부산대학교 (49건)
  • 5 경희대학교 (48건)
  • 6 한국외국어대학교 (39건)
  • 7 성균관대학교 (37건)
  • 8 한양대학교 (32건)
  • 9 충북대학교 (29건)
  • 10 충남대학교 (27건)

내가 찾은 최근 검색어

최근 열람 자료

맞춤 논문

보관함

내 보관함
공유한 보관함

1:1문의

닫기