온라인 시계열 분석
시계열 분석의 역할
시계열 분석은 일정 기간 동안 수집된 일련의 데이터 포인트를 분석하는 구체적인 방법입니다. 시계열 분석에서 분석가는 간헐적으로 또는 무작위가 아닌 고정된 기간 동안 일관된 간격으로 데이터 포인트를 기록합니다. 그러나 이러한 종류의 분석은 단순히 시간이 지남에 따라 데이터를 수집하는 행위 그 이상입니다.
시계열 데이터는 분석이 시간에 따른 변수의 변화를 보여줄 수 있다는 점에서 다른 데이터와 다릅니다. 즉, 시간은 데이터 포인트 과정과 궁극적으로 결과에 따라 데이터가 어떻게 조정되는지 보여주기 때문에 핵심 변수입니다. 추가 정보 소스와 데이터 간의 종속성 세트를 순차적으로 제공합니다.
시계열 분석에는 일관성과 신뢰성을 보장하기 위해 많은 수의 데이터 포인트가 필요한 경우가 많습니다. 광범위한 데이터 세트를 통해 대표적인 표본 크기를 확보할 수 있으며 분석을 통해 노이즈가 있는 데이터가 제거됩니다. 또한 발견된 추세나 패턴이 이상값이 아니며 계절적 차이를 설명할 수 있는지 확인합니다. 또한 시계열 데이터를 사용하여 과거 데이터를 기반으로 미래 데이터를 예측할 수 있습니다.
시계열 분석은 조직이 시간 경과에 따른 추세 또는 시스템 패턴의 근본 원인을 이해하는 데 도움이 됩니다. 데이터 시각화를 사용하여 비즈니스 사용자는 계절별 추세를 확인하고 이러한 추세가 발생하는 이유에 대한 통찰력을 얻을 수 있습니다. 최신 분석 플랫폼을 사용하면 이러한 시각화가 꺾은선형 차트를 훨씬 뛰어넘을 수 있습니다.
조직이 일관된 시간 간격으로 데이터를 분석할 때 시계열 예측을 사용하여 향후 이벤트 가능성을 예측할 수도 있습니다. 시계열 예측은 예측 분석의 일부입니다. 계절적 또는 주기적 행동과 같은 데이터의 가능한 변화를 표시하여 데이터 변수를 더 잘 이해하고 더 나은 예측에 도움을 줄 수 있습니다.
예를 들어 Des Moines 공립학교는 위험에 처한 학생들을 식별하고 시간 경과에 따른 진행 상황을 추적하기 위해 5년간의 학생 성취도 데이터를 분석했습니다. 오늘날의 기술 덕분에 우리는 매일 방대한 양의 데이터를 수집할 수 있으며, 포괄적인 분석을 위해 일관성이 있는 데이터를 수집하는 것이 그 어느 때보다 쉬워졌습니다.
시계열 분석 예
시계열 분석은 시간이 지남에 따라 변동하거나 시간의 영향을 받는 데이터인 비정상 데이터에 사용됩니다. 금융, 소매, 경제 등의 산업에서는 통화와 매출이 항상 변하기 때문에 시계열 분석을 사용하는 경우가 많습니다. 주식 시장 분석은 특히 자동화된 거래 알고리즘에서 시계열 분석을 적용한 훌륭한 예입니다. 마찬가지로, 시계열 분석은 날씨 변화를 예측하는 데 유용하며 기상학자가 내일의 일기 예보부터 향후 몇 년 동안의 기후 변화까지 모든 것을 예측하는 데 도움이 됩니다. 시계열 분석 응용 프로그램의 예는 다음과 같습니다.
- 날씨 데이터
- 강우량 측정
- 온도 판독
- 심박수 모니터링(EKG)
- 뇌 모니터링(EEG)
- 분기별 매출
- 주가
- 자동화된 주식 거래
- 산업 예측
- 이자율
시계열 분석 유형
시계열 분석에는 다양한 범주 또는 데이터 변형이 포함되므로 분석가는 때때로 복잡한 모델을 구축해야 합니다. 그러나 분석가는 모든 분산을 설명할 수 없으며 특정 모델을 모든 표본에 일반화할 수도 없습니다. 모델이 너무 복잡하거나 너무 많은 작업을 시도하면 과소적합이 발생할 수 있습니다. 모델을 과소적합하거나 과대적합하면 모델이 무작위 오류와 실제 관계를 구별할 수 없게 되어 분석이 편향되고 잘못된 예측을 하게 됩니다.
시계열 분석 모델에는 다음이 포함됩니다.
- 분류: 데이터를 식별하고 카테고리를 지정합니다.
- 곡선 피팅: 데이터 내 변수 간의 관계를 연구하기 위해 곡선을 따라 데이터를 표시합니다.
- 기술 분석: 추세, 주기, 계절 변화 등 시계열 데이터의 패턴을 식별합니다.
- 해석적 분석: 데이터와 데이터 내의 관계, 원인과 결과를 이해하려는 시도입니다.
- 탐색적 분석: 일반적으로 시각적 형식으로 시계열 데이터의 주요 특징을 강조합니다.
- 예측: 미래 데이터를 예측합니다. 이 유형은 역사적 추세를 기반으로 합니다. 과거 데이터를 미래 데이터의 모델로 사용하여 미래 에피소드에서 어떤 일이 일어날지 예측합니다.
- 개입 분석: 이벤트가 데이터를 어떻게 변경하는지 연구합니다.
- 세분화: 데이터를 세그먼트로 분할하여 소스 정보의 기본 속성을 드러냅니다.
데이터 분류
또한 시계열 데이터는 크게 두 가지 범주로 나눌 수 있습니다.
- 주식 시계열 데이터는 정보의 정적 스냅샷과 같이 특정 시점의 속성을 측정하는 것을 의미합니다.
- 스트리밍 시계열 데이터는 특정 기간 내 속성의 활동 수준을 측정하는 것을 의미하며 일반적으로 전체의 일부이며 결과의 일부를 구성합니다.
데이터 변경
시계열 데이터에서는 데이터 전체에 걸쳐 산발적으로 변경이 발생할 수 있습니다.
- 기능 분석을 통해 데이터에서 패턴과 관계를 찾아 주목할만한 이벤트를 식별할 수 있습니다.
- 추세 분석은 특정 방향으로 계속되는 움직임을 식별하는 것을 의미합니다. 추세에는 두 가지 유형이 있습니다. 근본 원인을 찾을 수 있는 결정론적 추세와 무작위적이고 설명할 수 없는 확률론적 추세입니다.
- 계절 변화는 일년 내내 특정하고 규칙적인 간격으로 발생하는 사건을 나타냅니다. 직렬 의존성은 시간상 가까운 데이터 포인트가 상관되는 경향이 있을 때 발생합니다.
시계열 분석 및 예측 모델은 비즈니스 질문에 대한 답변과 관련된 데이터 유형을 정의해야 합니다. 분석가는 분석하려는 관련 데이터를 선택한 후 가장 적합한 분석 유형과 기술을 선택합니다.
시계열 분석을 위한 중요한 고려사항
시계열 데이터는 시간에 따라 수집된 데이터이지만, 시간 데이터가 기록되는 방법과 시기를 설명하는 다양한 유형의 데이터가 있습니다. 예를 들어:
- 시계열 데이터는 일정한 시간 간격으로 기록된 데이터입니다.
- 단면 데이터는 동시에 기록된 여러 변수로 구성됩니다.
- 집계된 데이터는 시계열 데이터와 단면 데이터의 조합입니다.