3 处理组合值¶
表movies字段Genre表示电影的类型,可能有多个值,分隔符为|,取值也可能为None.
针对这类字段取值,可使用Pandas中Series提供的str做一步转化,注意它是向量级的,下一步,如Python原生的str类似,使用contains判断是否含有comedy字符串:
mask = movies.Genre.str.contains('comedy',case=False,na=False)
注意使用的两个参数:case, na
case为 False,表示对大小写不敏感;
na
Genre列某个单元格为
NaN时,我们使用的充填值,此处填充为False返回的mask是一维的Series,结构与
movies.Genre相同,取值为True 或 False.
观察结果:
0 False
1 False
2 False
3 False
4 False
5 True
6 True
7 False
8 False
9 False
Name: Genre, dtype: bool