对加权Gini系数的理解
12 Jul 20161 Gini系数
Gini系数是研究不公平性(或者说公平性)的一个重要指标。它的计算可以通过Lorenz曲线来实现。假如我们研究一个群体内部收入分配的公平性问题,那么首先可以刻画这个群体内部收入分配的Lorenz曲线,具体方式如下:假设这个群体内部共有个人,每个人的收入分别为,然后我们可以对这个人的收入按照从小到大的顺序进行排序,得到,这时我们可以构造一组坐标,这里,,。我们将这些坐标点绘制在平面直角坐标系中并依次相连,所得到的曲线就是Lorenz曲线。为了说明这一过程,假设,具体的收入状况如下表所示:
id | income |
---|---|
1 | 28.76 |
2 | 78.83 |
3 | 40.90 |
4 | 88.30 |
5 | 94.05 |
6 | 4.56 |
7 | 52.81 |
8 | 89.24 |
9 | 55.14 |
10 | 45.66 |
绘制的Lorenz曲线如下:
上图中红色部分的面积占整个下三角区域面积的比例即为Gini系数。为了计算这个Gini系数,我们对Lorenz曲线上每个点向下引一条垂线,这样就可以将Lorenz曲线与x轴围城的区域划分成很多个梯形区域(其中第一个区域为三角形区域),那么我们就能够对这些区域的面积进行计算。假设Lorenz曲线上的任意一点为(这里,,),那么该点与前一个点形成的梯形区域的面积为,整个面积为。显然下三角区域的面积为,那么Gini系数的计算公式如下:
对于以上算例,根据公式计算出来的Gini系数的结果为。
2 对Lorenz曲线的认识
Lorenz曲线到底是怎样一种曲线?从前面的分析中我们知道,只要我们给出一列数据(如),我们就能生成一批Lorenz曲线上的坐标点(这里)。可见,Lorenz曲线上的坐标点与原始数据存在着一定的函数关系,假设这种函数关系为,对于系列中任意一个数据,其对应的Lorenz曲线上的坐标为。那么,和分别代表什么呢?事实上,是的累积经验分布函数。在前面的算例中,其形式如下:
而则为将进行从小到大排序后依次累积加所得到的值,其形式如下:
这样,我们将对应点上的坐标提取出来就可以得到这样一个三元组。同样,原则上我们也可以得到任意一个所对应的Lorenz曲线上的点,比如的期望值对应的Lorenz曲线上的点为。
事实上,和存在一定的联系,这种联系可以用以下表达式来说明:
这里。实际上就是不大于那部分数据加权和占所有数据加权和的比例,其中就是权重。
3 加权Gini系数
在实际情况中,我们往往只知道一个团体总的收入状况和团体的人口数,而不知道团体内部每个人的收入状况。在我们分析所有团体的收入分配公平性问题时,一个十分必要的假设就是在每个团体内部收入分配是完全公平的(即按人口平均分配)。为了说明加权Gini系数的计算过程,同样我们也可以假设以下数据:
group_id | total_income | population |
---|---|---|
1 | 89.55 | 8 |
2 | 210.51 | 5 |
3 | 732.96 | 13 |
4 | 852.13 | 16 |
5 | 788.40 | 9 |
6 | 331.96 | 14 |
7 | 82.43 | 11 |
8 | 285.53 | 6 |
9 | 237.50 | 18 |
10 | 385.24 | 4 |
按照Gini系数的定义,我们首先还是得刻画Lorenz曲线,即确定函数和。需要明确的是的含义,我们的任务不是分析不同团体总收入的分配公平性问题,而是不同团体中每个人的收入的分配公平性问题,那么表示的不是团体总收入,而是团体的人均收入。假设第个团体总收入为,其人口数为,那么人均收入。为了计算,我们先对按照从小到大的顺序进行排序,得到,并且令,和。这样同时可以得到和的排序值和。那么,我们很容易得到
这里。这时绘制出来的Lorenz曲线如下所示:
计算出来的Gini系数的结果为。