Skip to content

Hasnothing/Rednote-distribution

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

小红书用户评价真实数据分布分析器

一个桌面端 GUI 应用,用来分析小红书语境下的用户评价分布。

这次版本的重点不再是“模拟 10 分制”,而是:

  1. 支持导入你自己收集的 CSV 数据集。
  2. 支持把当前输入直接追加进 CSV,方便持续采集。
  3. 经济水平改为国家统计局五等份收入组口径。
  4. 教育水平改为严格层级分类,并支持偏差修正。

核心思路

应用会优先使用你导入的 CSV 数据集做经验分布分析。

  • 如果某个维度样本足够,结果就基于真实样本分布计算。
  • 如果样本不足,系统会自动回退到内置演示基准,避免因为数据太少导致结果失真。

三个维度的输入方式

1. 外貌

  • 仍然使用 1-10 分制。
  • 适合直接记录帖主自评或你对目标对象的标注。

2. 经济水平

不再使用主观 1-10 分,而是使用国家统计局常见的五等份收入组口径:

  • 低收入组
  • 中间偏下收入组
  • 中间收入组
  • 中间偏上收入组
  • 高收入组

这意味着经济水平现在是一个更接近人口统计学口径的离散分组,而不是随意打分。

3. 教育水平

教育层级使用以下严格分类:

  • 小学
  • 初中
  • 高中
  • 大专
  • 民办本科
  • 二本
  • 一本
  • 211 / 海外高校(QS前100)
  • 985 / 强势海外高校

另外,教育还支持一个额外的“偏差判断”字段:

  • 无明显偏差
  • 高向下偏差
  • 低向上偏差

示例解释:

  • “本科二本,但研究生是海外一年硕士”,如果你认为名头高于真实训练强度,可以标记为 高向下偏差
  • 如果学校名头一般,但实际训练质量、筛选强度明显更高,可以标记为 低向上偏差

CSV 数据集能力

1. 导入真实数据集

左侧点击 导入 CSV 数据集,即可让分析优先基于你的数据。

2. 追加当前记录

左侧点击 追加当前记录到 CSV,会把当前表单内容写入一个 CSV 文件。

这特别适合你边看帖子边人工采样:

  • 先在应用里标注当前帖子
  • 再点一次追加
  • 数据会越来越多

3. 导出模板

左侧点击 导出 CSV 模板,可以生成一份可以直接填写的模板。

仓库里也自带一份模板:

CSV 字段说明

模板字段如下:

nickname,gender,province,source_url,self_appearance,self_economy_level,self_education_level,self_education_bias,other_appearance,other_economy_level,other_education_level,other_education_bias,notes

说明:

  • 一条记录可以只填 self_*,也可以只填 other_*
  • 不需要一条记录同时把自评和他评都填满。
  • self_economy_level / other_economy_level 建议直接填写中文分组名。
  • self_education_level / other_education_level 建议直接填写严格层级名。
  • self_education_bias / other_education_bias 建议填写:
    • 无明显偏差
    • 高向下偏差
    • 低向上偏差

使用方式

python Rednote-distribution/main.py

界面流程

  1. 先输入当前样本的 性别省份/IP评价类型
  2. 填写 外貌经济水平教育层级学历偏差
  3. 点击 开始分析
  4. 如果你已经有 CSV,先点击 导入 CSV 数据集
  5. 如果你正在持续采集数据,点击 追加当前记录到 CSV

图表说明

图表页现在支持三种不同量表:

  • 外貌:1-10
  • 经济:五等份收入组
  • 教育:九档严格层级

如果该维度存在参考分布,图里还会叠加参考分布曲线。

统计页说明

统计页会显示:

  • 当前使用的是导入数据还是内置演示样本
  • 总记录数
  • 外貌 / 经济 / 教育的自评和他评有效样本数
  • 性别分布

技术栈

组件 技术
GUI 框架 CustomTkinter
数据处理 Python 标准库 + NumPy
图表 Matplotlib
运行环境 Python 3.8+

说明与边界

  • 当前应用不负责自动爬取小红书数据。
  • “真实数据模式”依赖你自己导入或逐步积累的 CSV。
  • 如果导入数据集后某个维度有效样本太少,应用会自动回退到内置演示基准。
  • 教育偏差是一个人为判断字段,用于提升语义真实性,不是官方统计分类。

参考口径

经济水平的五等份收入组设计,参考国家统计局关于全国居民按五等份收入分组的住户调查口径。

官方参考页面:

License

MIT License

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages