一个桌面端 GUI 应用,用来分析小红书语境下的用户评价分布。
这次版本的重点不再是“模拟 10 分制”,而是:
- 支持导入你自己收集的 CSV 数据集。
- 支持把当前输入直接追加进 CSV,方便持续采集。
- 经济水平改为国家统计局五等份收入组口径。
- 教育水平改为严格层级分类,并支持偏差修正。
应用会优先使用你导入的 CSV 数据集做经验分布分析。
- 如果某个维度样本足够,结果就基于真实样本分布计算。
- 如果样本不足,系统会自动回退到内置演示基准,避免因为数据太少导致结果失真。
- 仍然使用
1-10分制。 - 适合直接记录帖主自评或你对目标对象的标注。
不再使用主观 1-10 分,而是使用国家统计局常见的五等份收入组口径:
低收入组中间偏下收入组中间收入组中间偏上收入组高收入组
这意味着经济水平现在是一个更接近人口统计学口径的离散分组,而不是随意打分。
教育层级使用以下严格分类:
小学初中高中大专民办本科二本一本211 / 海外高校(QS前100)985 / 强势海外高校
另外,教育还支持一个额外的“偏差判断”字段:
无明显偏差高向下偏差低向上偏差
示例解释:
- “本科二本,但研究生是海外一年硕士”,如果你认为名头高于真实训练强度,可以标记为
高向下偏差。 - 如果学校名头一般,但实际训练质量、筛选强度明显更高,可以标记为
低向上偏差。
左侧点击 导入 CSV 数据集,即可让分析优先基于你的数据。
左侧点击 追加当前记录到 CSV,会把当前表单内容写入一个 CSV 文件。
这特别适合你边看帖子边人工采样:
- 先在应用里标注当前帖子
- 再点一次追加
- 数据会越来越多
左侧点击 导出 CSV 模板,可以生成一份可以直接填写的模板。
仓库里也自带一份模板:
模板字段如下:
nickname,gender,province,source_url,self_appearance,self_economy_level,self_education_level,self_education_bias,other_appearance,other_economy_level,other_education_level,other_education_bias,notes说明:
- 一条记录可以只填
self_*,也可以只填other_*。 - 不需要一条记录同时把自评和他评都填满。
self_economy_level/other_economy_level建议直接填写中文分组名。self_education_level/other_education_level建议直接填写严格层级名。self_education_bias/other_education_bias建议填写:无明显偏差高向下偏差低向上偏差
python Rednote-distribution/main.py- 先输入当前样本的
性别、省份/IP、评价类型。 - 填写
外貌、经济水平、教育层级、学历偏差。 - 点击
开始分析。 - 如果你已经有 CSV,先点击
导入 CSV 数据集。 - 如果你正在持续采集数据,点击
追加当前记录到 CSV。
图表页现在支持三种不同量表:
- 外貌:
1-10分 - 经济:五等份收入组
- 教育:九档严格层级
如果该维度存在参考分布,图里还会叠加参考分布曲线。
统计页会显示:
- 当前使用的是导入数据还是内置演示样本
- 总记录数
- 外貌 / 经济 / 教育的自评和他评有效样本数
- 性别分布
| 组件 | 技术 |
|---|---|
| GUI 框架 | CustomTkinter |
| 数据处理 | Python 标准库 + NumPy |
| 图表 | Matplotlib |
| 运行环境 | Python 3.8+ |
- 当前应用不负责自动爬取小红书数据。
- “真实数据模式”依赖你自己导入或逐步积累的 CSV。
- 如果导入数据集后某个维度有效样本太少,应用会自动回退到内置演示基准。
- 教育偏差是一个人为判断字段,用于提升语义真实性,不是官方统计分类。
经济水平的五等份收入组设计,参考国家统计局关于全国居民按五等份收入分组的住户调查口径。
官方参考页面:
- 国家统计局 2025 年国民经济和社会发展统计公报: https://www.stats.gov.cn/sj/zxfb/202601/t20260119_1962321.html
MIT License