2 read_csv使用说明¶
说明,本次导入dat
文件使用pandas.read_csv
函数。
第一个位置参数./data/movietweetings/ratings.dat
表示文件的相对路径
第二个关键字参数:delimiter='::'
,表示文件分隔符使用::
后面几个关键字参数分别代表使用的引擎,文件没有表头,所以header
为None;
导入后dataframe的列名使用names
关键字设置,这个参数大家可以记住,比较有用。
Kaggle电影数据集第一节,我们使用数据处理利器 pandas
,
函数read_csv
导入给定的三个数据文件。
import pandas as pd
movies = pd.read_csv('./data/movietweetings/movies.dat', delimiter='::', engine='python', header=None, names = ['Movie ID', 'Movie Title', 'Genre'])
users = pd.read_csv('./data/movietweetings/users.dat', delimiter='::', engine='python', header=None, names = ['User ID', 'Twitter ID'])
ratings = pd.read_csv('./data/movietweetings/ratings.dat', delimiter='::', engine='python', header=None, names = ['User ID', 'Movie ID', 'Rating', 'Rating Timestamp'])
用到的read_csv
,某些重要的参数,如何使用在上一节也有所提到。下面开始数据探索分析(EDA)
找出得分前10喜剧(comedy)