Topic 5.1 - 数据类型划分概览¶
1. 数据类型划分¶
在基础的数据分析领域,我们通常将数据类型划分为以下三类,按照对象和时间点的数量:
| 数据类型 | 特征 | 示例 |
|---|---|---|
| Cross-Sectional Data (横截面数据) | 一个时间点,多个对象 | 一个交易日,多支股票的价格 |
| Time Series Data (时间序列数据) | 多个时间点,一个对象 | 多个交易日,某支特定股票的价格 |
| Panel Data (面板数据) | 多个时间点,多个对象 | 多个交易日,多支股票的价格 |
我们这里先对三种类型的数据特点进行一个概览:
-
横截面数据其实就是我们之前讲数据处理时所使用的数据类型,它没有什么新的知识点要强调
-
时间序列数据在计算上有两个特殊操作:
- 一个是跨时间步计算,例如计算收益率等;另一个是累计计算,例如计算累计收益率等
- 并且这两个操作都要求数据必须按照时间顺序排列,否则计算结果就会出错
-
面板数据有时间和对象两个维度,需要考虑的问题有以下两个:
- 一是组织形式,其实就是我们之前提到的数据透视表的组织形式,是长格式还是宽格式
- 二是分组计算,我们可以按照时间分组和按照对象分组进行计算,因为有些计算只有在组内才具有意义
2. 数据类型划分的意义¶
对数据类型划分,最主要的意义在于:
- 我们回答不同的数据分析问题,通常要使用不同的数据类型,并且使用不同的分析方法
-
最简单的理解就是:
- 如果想要分析时间上的变化趋势,仅仅有多支股票的横截面数据是无法满足需求的
- 如果想要多个对象之间的关系,仅仅有一个对象的时间序列数据是无法满足需求的
就拿金融情景中的股票价格数据来说,例如我们想研究当前市场环境是否有动量(momentum)存在:
-
如果收集了截面数据:一天的多支股票价格:
- 那么我们只能分析当天不同股票的价格,了解当天谁的收益最高或最低
- 但无法分析价格的变化趋势,无法分析动量效应
| Date | Security | Open | High | Low | Close | Volume |
|---|---|---|---|---|---|---|
| 2024-01-01 | AAPL | 150 | 155 | 149 | 154 | 1000000 |
| 2024-01-01 | MSFT | 250 | 255 | 249 | 254 | 2000000 |
| 2024-01-01 | TSLA | 2800 | 2850 | 2790 | 2840 | 1500000 |
-
如果收集了时间序列数据:多天的某支股票价格:
- 那么我们能分析出AAPL的价格变化趋势,了解它是否存在动量效应
- 但无法分析出动量效应是否普遍存在于整个市场中
| Date | Security | Open | High | Low | Close | Volume |
|---|---|---|---|---|---|---|
| 2024-01-01 | AAPL | 150 | 155 | 149 | 154 | 1000000 |
| 2024-01-02 | AAPL | 154 | 156 | 153 | 155 | 1200000 |
| 2024-01-03 | AAPL | 155 | 158 | 154 | 157 | 1300000 |
-
如果收集了面板数据:多天的多支股票价格:
- 这样我们才获取了分析要使用的全部数据
- 既能分析出单个股票的价格变化趋势,了解它是否存在动量效应,又能分析出动量效应是否普遍存在于整个市场中
| Date | Security | Open | High | Low | Close | Volume |
|---|---|---|---|---|---|---|
| 2024-01-01 | AAPL | 150 | 155 | 149 | 154 | 1000000 |
| 2024-01-01 | MSFT | 250 | 255 | 249 | 254 | 2000000 |
| 2024-01-01 | TSLA | 2800 | 2850 | 2790 | 2840 | 1500000 |
| 2024-01-02 | AAPL | 154 | 156 | 153 | 155 | 1200000 |
| 2024-01-02 | MSFT | 254 | 256 | 253 | 255 | 2200000 |
| 2024-01-02 | TSLA | 2840 | 2900 | 2830 | 2880 | 1600000 |
| 2024-01-03 | AAPL | 155 | 158 | 154 | 157 | 1300000 |
| 2024-01-03 | MSFT | 255 | 258 | 254 | 257 | 2300000 |
| 2024-01-03 | TSLA | 2880 | 2950 | 2870 | 2900 | 1700000 |