超越总收入差距：用Dagum基尼分解分析区域发展不平衡（Python实战）

张

张建站

2026/6/1 6:18:44

10分钟阅读

区域经济差距的显微镜用Python实现Dagum基尼系数分解当我们在讨论区域经济发展不平衡时一个简单的基尼系数往往难以揭示问题的全貌。想象一下你面前摆放着中国各省份的人均GDP数据或者不同行业的薪资水平统计传统基尼系数只能告诉你差距有多大却无法回答差距从何而来这个更关键的问题。这正是Dagum基尼分解方法的价值所在——它像一台高倍显微镜让我们能够观察收入差距的内在结构。Dagum基尼分解将总体差距拆解为三个部分组内差距(Gw)、组间差距(Gnb)和超变密度(Gt)。这种分解不仅具有数学美感更蕴含着深刻的现实意义。比如当我们分析东中西部区域发展差异时Gw反映的是各省内部的贫富分化程度Gnb展现的是东西部之间的鸿沟而Gt则捕捉了那些比上不足比下有余的交叉影响。这种多维度的分析框架为政策制定者提供了精准施策的理论依据。1. Dagum基尼分解的核心原理Dagum基尼分解方法由经济学家Camilo Dagum于1997年提出它解决了传统基尼系数无法区分差距来源的根本局限。理解这一方法需要把握三个关键概念组内差距(Gw)衡量同一分组内部个体间的差异程度。例如在分析各省人均GDP时Gw反映的是每个省份内部城市间的发展不平衡。组间差距(Gnb)表征不同分组之间的平均差异。继续以省份为例Gnb捕捉的是富裕省份和贫困省份之间的整体差距。超变密度(Gt)这个相对抽象的概念描述的是分组间交叉影响产生的差距。当两个分组的部分成员存在重叠即某些贫困地区的城市比富裕地区的部分城市更发达时Gt就会显现其价值。这三个分量满足一个优雅的等式G Gw Gnb Gt其中G是传统基尼系数。这种分解不仅数学严谨更具有直观的经济学解释力。在计算层面Dagum分解涉及几个关键步骤数据预处理将原始数据按分组如省份、行业等整理并计算各组的平均值构建差异矩阵计算所有可能的两两比较组内和组间的绝对差异权重分配根据各组的人口比例和经济权重调整各项差异的贡献度分解计算通过特定公式将总差异分解为Gw、Gnb和Gt三个部分2. Python实现详解让我们用Python构建一个完整的Dagum基尼分解工具。以下代码需要numpy库支持建议使用Python 3.7及以上版本。import numpy as np from itertools import product, combinations def dagum_gini_decomposition(data_dict): 执行Dagum基尼系数分解参数: data_dict: 字典格式的输入数据键为组别标识值为该组的数据列表返回: 包含Gw, Gnb, Gt及各项中间结果的字典 # 准备基础数据 groups sorted(data_dict.keys()) n sum(len(v) for v in data_dict.values()) y_total np.concatenate(list(data_dict.values())) y_mean_total np.mean(y_total) # 计算各组统计量 group_stats {} for g in groups: y_g np.array(data_dict[g]) group_stats[g] { n: len(y_g), mean: np.mean(y_g), p: len(y_g)/n, s: len(y_g)*np.mean(y_g)/(n*y_mean_total) } # 计算所有两两组合的G_jh和D_jh G_jh {} D_jh {} for j, h in product(groups, groups): y_j np.array(data_dict[j]) y_h np.array(data_dict[h]) diff np.abs(np.subtract.outer(y_j, y_h)).mean() G_jh[(j,h)] diff / (group_stats[j][mean] group_stats[h][mean]) # 计算D_jh mask y_j[:,None] y_h M_jh np.where(mask, y_j[:,None] - y_h, 0).mean() N_jh np.where(~mask, y_h - y_j[:,None], 0).mean() D_jh[(j,h)] (M_jh - N_jh)/(M_jh N_jh) if (M_jh N_jh) 0 else 0 # 计算总基尼系数 G np.abs(np.subtract.outer(y_total, y_total)).mean() / (2 * y_mean_total) # 计算Gw Gw sum(G_jh[(g,g)] * group_stats[g][p] * group_stats[g][s] for g in groups) # 计算Gnb和Gt Gnb, Gt 0, 0 for j, h in combinations(groups, 2): pj, sj group_stats[j][p], group_stats[j][s] ph, sh group_stats[h][p], group_stats[h][s] contrib G_jh[(j,h)] * (pj*sh ph*sj) Gnb contrib * D_jh[(j,h)] Gt contrib * (1 - D_jh[(j,h)]) return { G_total: G, Gw: Gw, Gnb: Gnb, Gt: Gt, components_sum: Gw Gnb Gt, group_stats: group_stats, G_jh: G_jh, D_jh: D_jh }提示在实际应用中建议对输入数据进行标准化处理特别是当不同组别的量纲差异较大时。同时对于小样本数据可能需要考虑偏差校正。这个实现包含了Dagum分解的所有关键要素。我们可以通过以下方式测试这个函数# 模拟数据示例 data { 东部: [8.5, 9.2, 7.8, 10.1, 9.5], 中部: [5.3, 6.1, 4.9, 5.7, 6.0], 西部: [3.8, 4.2, 3.5, 4.0, 3.9] } result dagum_gini_decomposition(data) print(f总基尼系数: {result[G_total]:.4f}) print(f组内差距(Gw): {result[Gw]:.4f} ({result[Gw]/result[G_total]:.1%})) print(f组间差距(Gnb): {result[Gnb]:.4f} ({result[Gnb]/result[G_total]:.1%})) print(f超变密度(Gt): {result[Gt]:.4f} ({result[Gt]/result[G_total]:.1%}))3. 结果解读与政策含义理解Dagum分解结果的关键在于三个分量的相对比例。让我们通过一个假设的区域经济分析案例来说明假设我们对2022年东中西部省份的人均GDP进行了Dagum基尼分解得到如下结果分量数值占总基尼系数比例Gw0.1230%Gnb0.2050%Gt0.0820%这个结果可以解读为**组内差距(Gw)**占30%说明各省份内部的城市间发展差异不容忽视。这意味着即使在同一区域内也需要关注省内均衡发展。**组间差距(Gnb)**高达50%表明东中西部之间的发展鸿沟是整体不平等的最大来源。这提示区域协调发展战略的重要性。**超变密度(Gt)**占20%反映出存在相当一部分西部省份的发达城市超过东部欠发达城市的情况。这种交叉影响可能为精准帮扶政策提供切入点。在实际政策制定中这种分解可以帮助决策者识别主要矛盾如果Gnb占主导应重点加强区域间协调如果Gw较大则需关注省内均衡评估政策效果比较不同年份的分解结果观察各项差距的变化趋势精准施策针对不同来源的差距设计差异化政策工具4. 进阶应用与注意事项Dagum基尼分解的应用场景远不止于区域经济分析。以下是一些值得探索的方向行业薪资差距分析分解不同行业间的工资差异识别是行业内部还是行业间的差距占主导电商平台品类分析研究各商品类目的销售额差异来源为运营策略提供依据教育资源配置分析各地区教育投入的不平等结构指导资源优化分配在实际应用中有几个关键点需要注意数据质量要求样本量应足够大特别是每个分组内的数据点不宜过少极端值可能对结果产生较大影响需进行适当处理分组标准应具有经济或社会意义避免随意分组方法局限性对数据分布形态有一定敏感性当组间重叠度很高时Gt的解释需要更加谨慎不能直接反映差距的动态变化过程可视化技巧import matplotlib.pyplot as plt # 绘制分解结果饼图 labels [组内差距(Gw), 组间差距(Gnb), 超变密度(Gt)] sizes [result[Gw], result[Gnb], result[Gt]] colors [#ff9999,#66b3ff,#99ff99] fig, ax plt.subplots() ax.pie(sizes, labelslabels, colorscolors, autopct%1.1f%%, startangle90) ax.axis(equal) # 保持圆形 plt.title(Dagum基尼系数分解结果) plt.show()对于希望深入研究的分析者还可以考虑以下扩展方向结合空间计量经济学方法引入地理权重矩阵构建时间序列分析观察各分量的动态演变开发交互式可视化工具增强结果呈现效果

从电商GMV预测到工厂能耗预估：聊聊RMSE、MAE、MAPE在不同业务场景下的‘潜规则’

从电商GMV预测到工厂能耗预估：聊聊RMSE、MAE、MAPE在不同业务场景下的‘潜规则’在数据分析的世界里，误差指标就像是一把把不同的尺子，每把尺子都有其独特的测量方式和适用场景。选择错误的尺子，就像用温度计来测量重量——看似都…...

2026/6/1 6:18:40 阅读更多 →

数组（知识点）

一，数组的概念数组是一组相同类型元素的集合；1.数组中存放的是一个或者多个数据，但是数据元素个数不能为0.2.数组中存放多个数据，类型是相同的。数组分为一维数组和多维数组，多维数组一般比较多见的是二维数组。二&am…...

2026/6/1 6:18:15 阅读更多 →

别再乱编译OpenSSL了！CentOS 8/RHEL 8用户必须知道的系统库兼容性‘潜规则’

CentOS 8/RHEL 8系统库兼容性深度解析：OpenSSL编译的隐藏陷阱当你在CentOS 8服务器上执行sudo su命令时，突然弹出一条令人窒息的错误信息：/lib64/libk5crypto.so.3: undefined symbol: EVP_KDF_ctrl, version OPENSSL_1_1_1b。这不是普通的权…...

2026/6/1 6:17:21 阅读更多 →