Анализ на данни и визуализация с помощта на Python Instructor Notes

Инсталирайте пакетите, необходими за работилницата

Моля, следвайте инструкциите в документа за настройка, за да инсталирате необходимите програми за този урок. Ако откриете проблеми, моля, създайте a проблем с етикета Висок приоритет.

Проверка на съоръженията

В директорията _includes/scripts ще намерите a скрипт наречен check_env.py. Той проверява функционалността на инсталираната версия на Anaconda.

По подразбиране Data Carpentry не изисква хората да изтеглят пълното хранилище с всички скриптове и скриптове. Следователно, като инструктор, трябва да решите как искате да предоставите този скрипт на учениците, ако решите да го направите. За да го използват, студентите могат да навигират в своя терминал до _includes/scripts и да изпълняват следното:

Ако учениците получат AssertionError, той ще ви информира как да помогнете за коригирането на инсталацията. В противен случай ще ви каже, че системата е готова за обработка на данни!

01-кратко въведение в Python

Предизвикателства за кортежите

Какво се случва, когато стартирате a_tuple [2] = 5 ?

Тъй като кортежът е неизменим, той не поддържа присвояване на елементи. Елементите на списъка могат да бъдат индивидуално променяни.

Какво ви казва type (a_tuple) за a_tuple ?

Речникови предизвикателства

  • Промяна на речници: 2. Преназначете втората стойност.

Не забравяйте също да изясните, че достъпът до "втората стойност" е около името на ключа. Добавете например rev [10] = "ten", за да изясните, че не става въпрос за позицията.

02-започване-с-данни

Забележка за грешките

Pandas surveys_df ['тегло']. Опишете () може да върне грешка по време на изпълнение.

Предизвикателства относно DataFrames

Имена на колони. (Незадължително: показване на проучвания_df.columns [4] = "plotid". Индексът не може да се променя; той се отразява от предишния епизод. Адаптирането на името се извършва от функцията за преименуване: surveys_df.rename (колони =))

survey_df.head (). Също така, какво прави проучвания_df.head (15) ?

Покажете първите 5 реда. Покажете първите 15 реда.

Показване на последните 15 реда.

проучвания_df.форма. Обърнете внимание на изхода на формата - какъв е форматът на изхода на атрибута, който връща формата на DataFrame?

Предизвикателства за изчисляване на статистически данни от вашите данни

Създайте списък с идентификаторите на сайта plot_id, които се намират в данните от проучването. Нека наречем този списък site_names. Колко са сайтовете в данните? Колко вида има в данните?

plot_names = pd.unique (проучвания_df ["plot_id"]). Брой идентификатори на сайта: plot_names.size или len (plot_names). Брой видове в данните: len (pd.unique (проучвания_df ["видове"]))

Каква е разликата между len (plot_names) и survey_df ['plot_id']. Nunique () ?

И двете водят до една и съща продукция, служейки като алтернативни начини за получаване на уникалните стойности. nunique съчетава преброяването с извличане на уникална стойност.

Клъстерни предизвикателства

Колко наблюдения са женски F и колко мъжки M ?

Какво се случва, когато групирате над две колони, като използвате следния израз и след това вземете средните стойности?

Средната стойност се изчислява за всяка комбинация от plot_id и пол. Имайте предвид, че средната стойност няма смисъл за всяка променлива, така че можете да я посочите по колона: например, ако искате да знаете последната регистрирана година, медианата на дължините на краката и средната стойност на теглото за всяка комбинация на сюжета и секса:

  • Изчислява описателна статистика на теглото на тежестта за всеки plot_id .

Какъв друг начин е да създадете списък с видове и да го свържете с броя на пробите от данни?

Вместо да извличате и след това да броите получените колони от groupby, можете също да броите заедно с groupby (на всички колони) и да изградите селекция от получения DataFrame: surveys_df.groupby ('species_id'). Count () ["record_id"]

Графични предизвикателства

  • Създайте графика на средното тегло на вида по обект.

анализ

  • Създайте графика на общия брой на мъжете спрямо общия брой на жените за целия набор от данни.

03-index-slice-subset

Съвет: използвайте метода .head () през целия урок, за да поддържате екрана си чист. Насърчете учениците да тестват команди със и без .head (), за да засилят полезността на този инструмент и след това да го използват или не, в зависимост от предпочитанията им. Например, ако студент прояви загриженост относно това да продължава да пише, уведомете го, че може да избегне .head (), но че ще го използвате, за да запазите видимостта на повече предишни редове код.