对加权Gini系数的理解

1 Gini系数

Gini系数是研究不公平性(或者说公平性)的一个重要指标。它的计算可以通过Lorenz曲线来实现。假如我们研究一个群体内部收入分配的公平性问题,那么首先可以刻画这个群体内部收入分配的Lorenz曲线,具体方式如下:假设这个群体内部共有个人,每个人的收入分别为,然后我们可以对这个人的收入按照从小到大的顺序进行排序,得到,这时我们可以构造一组坐标,这里。我们将这些坐标点绘制在平面直角坐标系中并依次相连,所得到的曲线就是Lorenz曲线。为了说明这一过程,假设,具体的收入状况如下表所示:

id income
1 28.76
2 78.83
3 40.90
4 88.30
5 94.05
6 4.56
7 52.81
8 89.24
9 55.14
10 45.66

绘制的Lorenz曲线如下:

plot of chunk income_lorenz

上图中红色部分的面积占整个下三角区域面积的比例即为Gini系数。为了计算这个Gini系数,我们对Lorenz曲线上每个点向下引一条垂线,这样就可以将Lorenz曲线与x轴围城的区域划分成很多个梯形区域(其中第一个区域为三角形区域),那么我们就能够对这些区域的面积进行计算。假设Lorenz曲线上的任意一点为(这里),那么该点与前一个点形成的梯形区域的面积为,整个面积为。显然下三角区域的面积为,那么Gini系数的计算公式如下:

对于以上算例,根据公式计算出来的Gini系数的结果为

2 对Lorenz曲线的认识

Lorenz曲线到底是怎样一种曲线?从前面的分析中我们知道,只要我们给出一列数据(如),我们就能生成一批Lorenz曲线上的坐标点(这里)。可见,Lorenz曲线上的坐标点与原始数据存在着一定的函数关系,假设这种函数关系为,对于系列中任意一个数据,其对应的Lorenz曲线上的坐标为。那么,分别代表什么呢?事实上,的累积经验分布函数。在前面的算例中,其形式如下:

plot of chunk income_ecdf

则为将进行从小到大排序后依次累积加所得到的值,其形式如下:

plot of chunk income_pareto

这样,我们将对应点上的坐标提取出来就可以得到这样一个三元组。同样,原则上我们也可以得到任意一个所对应的Lorenz曲线上的点,比如的期望值对应的Lorenz曲线上的点为

事实上,存在一定的联系,这种联系可以用以下表达式来说明:

这里实际上就是不大于那部分数据加权和占所有数据加权和的比例,其中就是权重。

3 加权Gini系数

在实际情况中,我们往往只知道一个团体总的收入状况和团体的人口数,而不知道团体内部每个人的收入状况。在我们分析所有团体的收入分配公平性问题时,一个十分必要的假设就是在每个团体内部收入分配是完全公平的(即按人口平均分配)。为了说明加权Gini系数的计算过程,同样我们也可以假设以下数据:

group_id total_income population
1 89.55 8
2 210.51 5
3 732.96 13
4 852.13 16
5 788.40 9
6 331.96 14
7 82.43 11
8 285.53 6
9 237.50 18
10 385.24 4

按照Gini系数的定义,我们首先还是得刻画Lorenz曲线,即确定函数。需要明确的是的含义,我们的任务不是分析不同团体总收入的分配公平性问题,而是不同团体中每个人的收入的分配公平性问题,那么表示的不是团体总收入,而是团体的人均收入。假设第个团体总收入为,其人口数为,那么人均收入。为了计算,我们先对按照从小到大的顺序进行排序,得到,并且令。这样同时可以得到的排序值。那么,我们很容易得到

这里。这时绘制出来的Lorenz曲线如下所示:

plot of chunk group_income_lorenz

计算出来的Gini系数的结果为