Готовим любые данные для дашбордов

С нетерпением хотите приступить к визуализации придуманного вами дашборда, но нет подходящих данных? Вы можете создать их сами!

Для того чтобы сгенерировать датасеты(табличные данные) вам понадобится Google-аккаунт либо установленная IDE наподобие (Pycharm, Visual Studio Code)

Вы можете скопировать файлик, сделанный в Google Collaboratory , и создать нужные данные.

Сохранить копию - для тех, кто хочет продолжить работать в Google, скачать - кто будет работать на своем компьютере в IDE.

Также либо до начала работы либо на этапе сохранения данных, подключите свой Диск к блокноту, как указано на картинке. Рекомендую завести отдельные папки для сгенерированных данных, например, у меня это dataset с подпапкой created


Инструкции по коду подробно описаны в файлике, здесь затронем общие моменты:

Импорт библиотеки faker

Благодаря ей, мы можем создать:

ФИО человека, e-mail, случайный набор фраз, даты, адреса, почтовые индексы, и многое другое.

Создание своих “справочников” и условий

Мы можем с помощью списков создавать свои справочники нужных параметров.

  category = random.choices(['Категория 1', 'Категория 2', 'Категория 3', 'Категория 4'])

Однако помните:

без использования “весов“ , сгенерированные данные статистически покажут “нормальное распределение”:

например, из четырех категорий в среднем каждая будет составлять 25% записей на больших данных…

В коде указаны два примера кода , как избежать этого.

Также даны примеры кода с логическими условиями:

if category == 'Категория 1': category_sort = 1 elif category == 'Категория 2': category_sort = 2 elif category == 'Категория 3': category_sort = 3 else: category = 4

Ну а если вы хотите создать несколько зависящих друг от друга параметров , наподобие имен сотрудников одной компании и их должностей,

чтобы повторять его на протяжении всего датасета, создадим словарь.

Сохранение данных

Напоследок в коде представлены четыре формата сохранения табличных данных, которые вы можете загрузить в Dremio:

  • .xlsx (Excel)
  • .json
  • .csv
  • .parquet

Кстати, чтобы узнать как писать ссылки в путь к сохраняемому файлу, наподобие:

path = '/content/drive/MyDrive/dataset/created/

нажмите "Скопировать путь " в отведенной для датасетов папке
how_learn_the_way

3 Likes