跳转至

Topic 5.1 - 数据类型划分概览

1. 数据类型划分

在基础的数据分析领域,我们通常将数据类型划分为以下三类,按照对象和时间点的数量:

数据类型 特征 示例
Cross-Sectional Data (横截面数据) 一个时间点,多个对象 一个交易日,多支股票的价格
Time Series Data (时间序列数据) 多个时间点,一个对象 多个交易日,某支特定股票的价格
Panel Data (面板数据) 多个时间点,多个对象 多个交易日,多支股票的价格

我们这里先对三种类型的数据特点进行一个概览:

  • 横截面数据其实就是我们之前讲数据处理时所使用的数据类型,它没有什么新的知识点要强调

  • 时间序列数据在计算上有两个特殊操作:

    • 一个是跨时间步计算,例如计算收益率等;另一个是累计计算,例如计算累计收益率等
    • 并且这两个操作都要求数据必须按照时间顺序排列,否则计算结果就会出错
  • 面板数据有时间和对象两个维度,需要考虑的问题有以下两个:

    • 一是组织形式,其实就是我们之前提到的数据透视表的组织形式,是长格式还是宽格式
    • 二是分组计算,我们可以按照时间分组和按照对象分组进行计算,因为有些计算只有在组内才具有意义

2. 数据类型划分的意义

对数据类型划分,最主要的意义在于:

  • 我们回答不同的数据分析问题,通常要使用不同的数据类型,并且使用不同的分析方法
  • 最简单的理解就是:

    • 如果想要分析时间上的变化趋势,仅仅有多支股票的横截面数据是无法满足需求的
    • 如果想要多个对象之间的关系,仅仅有一个对象的时间序列数据是无法满足需求的

就拿金融情景中的股票价格数据来说,例如我们想研究当前市场环境是否有动量(momentum)存在:

  • 如果收集了截面数据:一天的多支股票价格:

    • 那么我们只能分析当天不同股票的价格,了解当天谁的收益最高或最低
    • 但无法分析价格的变化趋势,无法分析动量效应
Date Security Open High Low Close Volume
2024-01-01 AAPL 150 155 149 154 1000000
2024-01-01 MSFT 250 255 249 254 2000000
2024-01-01 TSLA 2800 2850 2790 2840 1500000
  • 如果收集了时间序列数据:多天的某支股票价格:

    • 那么我们能分析出AAPL的价格变化趋势,了解它是否存在动量效应
    • 但无法分析出动量效应是否普遍存在于整个市场中
Date Security Open High Low Close Volume
2024-01-01 AAPL 150 155 149 154 1000000
2024-01-02 AAPL 154 156 153 155 1200000
2024-01-03 AAPL 155 158 154 157 1300000
  • 如果收集了面板数据:多天的多支股票价格:

    • 这样我们才获取了分析要使用的全部数据
    • 既能分析出单个股票的价格变化趋势,了解它是否存在动量效应,又能分析出动量效应是否普遍存在于整个市场中
Date Security Open High Low Close Volume
2024-01-01 AAPL 150 155 149 154 1000000
2024-01-01 MSFT 250 255 249 254 2000000
2024-01-01 TSLA 2800 2850 2790 2840 1500000
2024-01-02 AAPL 154 156 153 155 1200000
2024-01-02 MSFT 254 256 253 255 2200000
2024-01-02 TSLA 2840 2900 2830 2880 1600000
2024-01-03 AAPL 155 158 154 157 1300000
2024-01-03 MSFT 255 258 254 257 2300000
2024-01-03 TSLA 2880 2950 2870 2900 1700000