数据分析与可视化 上机实践4(Matplotlib 数据可视化)
数据分析与可视化 上机实践4(Matplotlib 数据可视化)一、实践目的1.了解matplotlib库的基本功能。
2.掌握matplotlib库的使用方法。
二、数据集介绍食品偏好数据集统计了2019年不同国家人民对不同食物的偏好情况。数据共计288条,各数据字段含义如下表所示。
food.csv 数据集下载
三、实践内容要求1、绘制正弦曲线,并设置标题、坐标轴名称和坐标轴范围;
2、同一坐标系下绘制多种曲线并通过样式、宽度和颜色加以区分;
3、对食品偏好数据集进行可视化处理。
(1)读取数据集,并显示前5行;
(2)删除无用特征Timestamp和Participant_ID;
(3)查看数据集的基本情况和统计信息;
(4)绘制不同国家参与者人数柱状图;
(5)利用饼形图分别绘制男性和女性对甜点的偏好;
(6)利用箱体图绘制不同年龄的人对果汁偏爱对比图;
(7)利用散点图绘制不同年龄的人对甜点的偏爱对比图(提示:年龄作为x轴,maybe,yes和no分别用0,1和-1来表示作为y轴,同时用不同颜色的散点表示Traditional Food和Western Food);
...
数据分析与可视化 上机实践3(Pandas 数据预处理)
数据分析与可视化 上机实践3(Pandas 数据预处理)
一、实践目的1.掌握数据预处理的思想和方法。2.进一步熟悉Pandas库的使用方法。
二、数据集介绍Lending Club是一家美国P2P公司,投资者在平台中为融资方提供资金,并以此获得贷款利率收益。Lending Club为投资者与融资方提供平台。本实验使用Lending Club2015年公开数据集中截取的一小部分进行分析。数据分为三个部分:(1)用户信息数据
(2)用户历史数据
(3)贷款交易数据
Lending Club2015年公开数据集下载
三、实践内容要求(1)导入三个数据表到DataFrame中;
(2)查看各数据表的前5行;
(3)查看数据基本情况,并对基本情况进行分析;
(4)利用“用户编号”这个公共变量,将用户信息数据和用户历史数据合并在一起,对比inner、outer、left和right连接的区别;
(5)将用户历史数据按账户平均存款排序;
(6)基于贷款交易数据,进行左连接,将三个数据合并在一起;
(7)删去用于合并的列名user_id,使用info查看数据缺失情况,删除缺失数据;
(8) ...
数据分析与可视化 上机实践2(Pandas 统计分析)
数据分析与可视化 上机实践2(Pandas 统计分析)
一、实践目的1.了解 Pandas 库的基本功能。
2.掌握 Pandas 库的使用方法。
二、数据集介绍本实验使用酒品消耗量数据集,其记录了全球 193 个国家某年的各类酒品消耗数据,主要数据集变量如下:
drinks.csv 数据集下载
三、实践内容要求
数据预处理
(1)导入 excel 表格中的数据到 DataFrame 中;
(2)查看数据的前 5 行和后 8 行。
数据操作
(1)查看数据中各变量类型;
(2)将啤酒销量改成 object 类型;
(3)将列名的英文改为中文格式;
(4)初步查看数据类型和大小;
(5)查看数据数值统计情况;
(6)查看索引值;
(7)将索引值修改为所在的大洲;
(8)查看缺失值情况;
(9)采用恰当的方法对缺失值进行填充。
饮酒情况对比
(1)查找啤酒、烈酒和红酒的消耗量都高于相应酒种消耗量 75%分位数的国家;
(2)统计(1)中各大洲国家的个数;
(3)统计各个大洲各类酒的消耗总量;
(4)计算各类酒占各大洲总消耗量的比重。
4.通过饮酒情况对比,对各大洲的饮酒习 ...
数据分析与可视化 上机实践1(Numpy 数值计算)
数据分析与可视化 上机实践1(Numpy 数值计算)一、实践目的1.掌握 Numpy 库的使用方法。
2.灵活应用 Numpy 库解决数值计算和图像处理的相关问题。
二、彩色向灰度图转换原理图像是由若干个像素组成,每个像素有明确的位置和被分配的颜色值。
一张图像就构成了一个像素矩阵。彩色图像的每个像素由 R、G、B 分量构成;分量值介于 0到255 之间。灰度图像是每个像素只有一个采样颜色的图像,显示为从最 暗黑色到最亮的白色的灰度,取值范围 0到255。
彩色图像向灰度图像转换的常用公式为:Gray = R * 0.299 + G * 0.587 + B * 0.114利用矩阵运算,即可将彩色图像转换为灰度图像。
三、实践内容要求
数组的创建(1)创建全 0 数组,全 1 数组,随机数数组;
(2)创建一个数值范围为 0~1,间隔为 0.01 的数组。
任意创建一个二维数组,对其维度进行操作
(1)将数组的行变列;
(2)返回最后一个元素;
(3)返回第 2 到第 4 个元素;
(4)返回逆序数组。
任意创建两个二维的数组 arr1、arr2,对两个数 ...
数据分析与可视化 实践基础练习六(Pandas)
数据分析与可视化 实践基础练习六 (Pandas)一、本节需要掌握的Pandas相关函数或属性
数据清洗:缺失值处理、重复值处理、异常值处理
数据标准化方法:离差标准化、标准差标准化、小数定标标准化
数据转换:类别型数据的亚变量处理、连续变量的离散化
二、实训案例1. 本数据集为一个包含30000个样本的美国高中生社交网络信息数据集。数据均匀采样于2006年到2009年,每个样本包含40个变量,其中gradyear、gender、age和friends四个变量代表高中生的毕业年份、性别、年龄和好友数等基本信息,剩余36个关键词代表了高中生的5大兴趣类:课外活动、时尚、宗教、浪漫和反社会行为,具体描述如下:
teenager 数据集下载
2. 结合数据集完成以下操作。(1)读取数据并查看数据的前5行;
(2)查看数据集整体情况;
(3)查看缺失值的统计性描述分布情况;
(4)假设青少年的年龄范围为13-20岁,我们将不在此范围的数据记为缺失值,重新统计缺失值数目;
(5)选取年龄的均值填充年龄缺失值;
(6)统计性别缺失值并将其删除;
(7)采用箱线图对friend列数据进 ...
数据分析与可视化 实践基础练习五(Pandas)
数据分析与可视化 实践基础练习五 (Pandas)一、本节需要掌握的Pandas相关函数或属性
Pandas数据运算
Pandas常用的汇总与统计性方法
数据分组df.groupby( )
参数by:可以是函数,字典,Series; axis=0是按列,1是按行
数据聚合agg()、apply()、transform()
agg(): 可对分组后的数据进行一系列的操作包含求和求最值,均值等
apply(): 可自定义面向分组的聚合函数(Series对象是对每个元素处理,DataFrame对象是对一行或一列处理,groupby对象是对一个分组进行处理)
transfrom(): 不对数据进行聚合输出,而只是对每一行记录提供了相应的聚合结果(输出结果有冗余)
二、实训案例1.行星数据集记录了2014年之前发现的行星的信息,数据中主要特征有:
planets.csv 数据集下载
2. 结合数据集完成以下操作。(1)读取planets.csv文件;
(2)查看数据前5行;
(3)查看数据基本情况;
(4)按method特征对数据进行分组,并将新数据记 ...
春季每日一题2023 已完结
AcWing 春季每日一题2023 (已完结)打卡题目(内容有疑问或错误,欢迎随时询问或指正哈~)
Day17: 05/08
题目:【棋盘游戏】 考查知识点: 单源最短路径,SPFA,图论
题解:AcWing 3480. 棋盘游戏
Day16: 05/07
题目:【大数运算】 考查知识点: 高精度,符号判断,模板题
题解:AcWing 3482. 大数运算
Day15: 05/06
题目:【质数】 考查知识点: 筛质数,线性筛法,埃氏筛法,模板题
题解:AcWing 3497. 质数
Day14: 05/05
题目:【最短距离总和】 考查知识点: 最短距离总和,Floyd,DP
题解:AcWing 3512. 最短距离总和
题目:【 Floyd求最短路】 考查知识点: 最短路,Floyd,求每一对顶点的最短距离,模板题
题解:AcWing 854. Floyd求最短路
Day13: 05/03
题目:【日期差值】 考查知识点: 模拟题,日期计算
题解:AcWing 3498. 日期差值
Day12: 05/02
题目:【鸡兔同笼】 ...
Linux基础 第三讲 Shell语法
Linux基础 第三讲 shell语法1. shell语法(1) 概论shell是我们通过命令行与操作系统沟通的语言。
shell脚本可以直接在命令行中执行,也可以将一套逻辑组织成一个文件,方便复用。AC Terminal中的命令行可以看成是一个“shell脚本在逐行执行”。
Linux中常见的shell脚本有很多种,常见的有:
Bourne Shell(/usr/bin/sh或/bin/sh)
Bourne Again Shell(/bin/bash)
C Shell(/usr/bin/csh)
K Shell(/usr/bin/ksh)
zsh
…
Linux系统中一般默认使用bash,所以接下来讲解bash中的语法。文件开头需要写#! /bin/bash,指明bash为脚本解释器。
学习技巧不要死记硬背,遇到含糊不清的地方,可以在AC Terminal里实际运行一遍。
脚本示例新建一个test.sh文件,内容如下:
12#! /bin/bash # 指明解释器echo "Hello World!" # echo表示输出
运行方式
用解 ...
AcWing-周赛 第97场题解
AcWing-周赛 第97场题解T1: AcWing 4944. 热身计算给定两个正整数 a, b,请你分别计算 min(a,b) 以及 ⌊|a−b|/2⌋的值。⌊|a−b|/2⌋表示不大于 |a−b|/2的最大整数。
输入格式共一行,包含两个正整数 a,b。
输出格式共一行,输出两个整数,分别表示 min(a,b)以及 ⌊|a−b|/2⌋。
数据范围所有测试点满足 1 ≤ a, b ≤ 100。
输入样例13 1
输出样例11 1
输入样例22 3
输出样例22 0
输入样例37 3
输出样例3:3 2
题解12345678910#include <iostream>using namespace std;int main(){ int a, b; cin >> a >> b; cout << min(a, b) << ' ' << abs(a - b) / 2 << endl; return 0;}
T2: AcWin ...
数据分析与可视化 实践基础练习四(Pandas)
数据分析与可视化 实践基础练习四 (Pandas)
一、本节需掌握的Pandas相关函数或属性12345678910111213141516171819202122232425262728293031321. Series和DataFrame数据类型的创建# Series创建(可以是列表,标量值,字典,ndarray,其他函数),index是行索引pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath)# DataFrame创建(有行索引和列索引,其类型可以是列表,字典,元组或Series,n维的ndarray)eg. pd.DataFrame(np.arange(10).reshape(2,5))2. Series的基本操作(类似ndarray,字典类型的操作)可通过自定义索引列表来切片,自定义索引访问,get()方法3. DataFrame数据查找、增加、删除和修改d[ ['col_1','col_2'] ] # 通过列索引或以属性的方式可单独或 ...