当前位置：首页 > news >正文

基于pandas的电影评分差异分析

news 2024/5/11 22:44:50

基于pandas的电影评分差异分析

实验内容

在这里插入图片描述

数据来源

在这里插入图片描述

详细步骤


import pandas as pd
import numpy as npunames = ['user id','age','gender','occupation','zip code']
users = pd.read_csv('ml-100k/u.user',sep ='|',names = unames) # sep定义的是每行数据间的分隔符
rnames = ['user id','item id','rating','timestamp']
ratings = pd.read_csv('ml-100k/u.data', sep = '\t',names = rnames)# names指的是每个表的列名users_df = users.loc[:,['user id','gender']] # 做数据筛选，users中只使用'user id','gender'这两个属性
ratings_df = ratings.loc[:,['user id','rating']]
rating_df = pd.merge(users_df,ratings_df) # 把两个dataframe都有user id属性，通过merge函数连接起来# print(rating_df)
# 按gender计算rating的标准差，先对gender进行分组，再对rating属性使用std方法
# 下面是两种计算标准差的方法，区别在于numpy的是有偏估计（使用的是1/n）,而pandas的是无偏估计（使用的是1/n-1）,更贴近于实际情况
# 1.
std1 = rating_df.groupby("gender").rating.std()
print("第一种计算std的方法")
print(std1)
# 2.
std2 = rating_df.groupby("gender").rating.apply(pd.Series.std)
print("第二种计算std的方法")
print(std2)# 使用上述的标准差（std）确实证明了女性的评分差异比男性的更大，也说明了女性更主观，男性更逻辑# 上述做法只是考虑了gender的分组，并没有考虑用户对所有电影打分之间的关系
# 下面采用先计算出用户的综合评分（评分均值），然后按照性别计算出标准差
df1 = rating_df.groupby(["user id", "gender"]).apply(np.mean)
std3 = df1.groupby('gender').rating.std()
print("第三种计算std的方法")
print(std3)# 如果采用类似Excel的透视表功能（可以实现数据的动态排列和分类汇总），应当这么写，
std4 = pd.pivot_table(df1, values='rating', index='gender', aggfunc=pd.Series.std)
# 第一个参数df1是要透视的dataframe，values是设置要筛选的数据，index是分类依据（可以是多个，用[]）,
# aggfunc用来设置聚合数据用的函数，默认是mean,可以是多个函数组合，还有一个参数是columns，设置列层次，对透视后的数据在列上分类
# 容易和values混淆，values设置的是行层次。
print("第四种计算std的方法")
print(std4)# 下面是第四种方法的整理
print("下面是第四种方法的整理")
t = pd.pivot_table(rating_df, index=['user id', 'gender'], values='rating')
print(t.query("gender == ['F']"))
female = t.query("gender == ['F']")
print(pd.Series.std(female))