小红书用户评价真实数据分布分析器

一个桌面端 GUI 应用，用来分析小红书语境下的用户评价分布。

这次版本的重点不再是“模拟 10 分制”，而是：

支持导入你自己收集的 CSV 数据集。
支持把当前输入直接追加进 CSV，方便持续采集。
经济水平改为国家统计局五等份收入组口径。
教育水平改为严格层级分类，并支持偏差修正。

核心思路

应用会优先使用你导入的 CSV 数据集做经验分布分析。

如果某个维度样本足够，结果就基于真实样本分布计算。
如果样本不足，系统会自动回退到内置演示基准，避免因为数据太少导致结果失真。

三个维度的输入方式

1. 外貌

仍然使用 1-10 分制。
适合直接记录帖主自评或你对目标对象的标注。

2. 经济水平

不再使用主观 1-10 分，而是使用国家统计局常见的五等份收入组口径：

低收入组
中间偏下收入组
中间收入组
中间偏上收入组
高收入组

这意味着经济水平现在是一个更接近人口统计学口径的离散分组，而不是随意打分。

3. 教育水平

教育层级使用以下严格分类：

小学
初中
高中
大专
民办本科
二本
一本
211 / 海外高校（QS前100）
985 / 强势海外高校

另外，教育还支持一个额外的“偏差判断”字段：

无明显偏差
高向下偏差
低向上偏差

示例解释：

“本科二本，但研究生是海外一年硕士”，如果你认为名头高于真实训练强度，可以标记为 高向下偏差。
如果学校名头一般，但实际训练质量、筛选强度明显更高，可以标记为 低向上偏差。

CSV 数据集能力

1. 导入真实数据集

左侧点击 导入 CSV 数据集，即可让分析优先基于你的数据。

2. 追加当前记录

左侧点击 追加当前记录到 CSV，会把当前表单内容写入一个 CSV 文件。

这特别适合你边看帖子边人工采样：

先在应用里标注当前帖子
再点一次追加
数据会越来越多

3. 导出模板

左侧点击 导出 CSV 模板，可以生成一份可以直接填写的模板。

仓库里也自带一份模板：

rednote_dataset_template.csv

CSV 字段说明

模板字段如下：

nickname,gender,province,source_url,self_appearance,self_economy_level,self_education_level,self_education_bias,other_appearance,other_economy_level,other_education_level,other_education_bias,notes

说明：

一条记录可以只填 self_*，也可以只填 other_*。
不需要一条记录同时把自评和他评都填满。
self_economy_level / other_economy_level 建议直接填写中文分组名。
self_education_level / other_education_level 建议直接填写严格层级名。
self_education_bias / other_education_bias 建议填写：
- 无明显偏差
- 高向下偏差
- 低向上偏差

使用方式

python Rednote-distribution/main.py

界面流程

先输入当前样本的 性别、省份/IP、评价类型。
填写 外貌、经济水平、教育层级、学历偏差。
点击 开始分析。
如果你已经有 CSV，先点击 导入 CSV 数据集。
如果你正在持续采集数据，点击 追加当前记录到 CSV。

图表说明

图表页现在支持三种不同量表：

外貌：1-10 分
经济：五等份收入组
教育：九档严格层级

如果该维度存在参考分布，图里还会叠加参考分布曲线。

统计页说明

统计页会显示：

当前使用的是导入数据还是内置演示样本
总记录数
外貌 / 经济 / 教育的自评和他评有效样本数
性别分布

技术栈

组件	技术
GUI 框架	CustomTkinter
数据处理	Python 标准库 + NumPy
图表	Matplotlib
运行环境	Python 3.8+

说明与边界

当前应用不负责自动爬取小红书数据。
“真实数据模式”依赖你自己导入或逐步积累的 CSV。
如果导入数据集后某个维度有效样本太少，应用会自动回退到内置演示基准。
教育偏差是一个人为判断字段，用于提升语义真实性，不是官方统计分类。

参考口径

经济水平的五等份收入组设计，参考国家统计局关于全国居民按五等份收入分组的住户调查口径。

官方参考页面：

国家统计局 2025 年国民经济和社会发展统计公报： https://www.stats.gov.cn/sj/zxfb/202601/t20260119_1962321.html

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
__pycache__		__pycache__
data		data
ui		ui
README.md		README.md
__init__.py		__init__.py
analyzer.py		analyzer.py
main.py		main.py
models.py		models.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

小红书用户评价真实数据分布分析器

核心思路

三个维度的输入方式

1. 外貌

2. 经济水平

3. 教育水平

CSV 数据集能力

1. 导入真实数据集

2. 追加当前记录

3. 导出模板

CSV 字段说明

使用方式

界面流程

图表说明

统计页说明

技术栈

说明与边界

参考口径

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

小红书用户评价真实数据分布分析器

核心思路

三个维度的输入方式

1. 外貌

2. 经济水平

3. 教育水平

CSV 数据集能力

1. 导入真实数据集

2. 追加当前记录

3. 导出模板

CSV 字段说明

使用方式

界面流程

图表说明

统计页说明

技术栈

说明与边界

参考口径

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages