С нетерпением хотите приступить к визуализации придуманного вами дашборда, но нет подходящих данных? Вы можете создать их сами!
Для того чтобы сгенерировать датасеты(табличные данные) вам понадобится Google-аккаунт либо установленная IDE наподобие (Pycharm, Visual Studio Code)
Вы можете скопировать файлик, сделанный в Google Collaboratory , и создать нужные данные.
Сохранить копию - для тех, кто хочет продолжить работать в Google, скачать - кто будет работать на своем компьютере в IDE.
Также либо до начала работы либо на этапе сохранения данных, подключите свой Диск к блокноту, как указано на картинке. Рекомендую завести отдельные папки для сгенерированных данных, например, у меня это dataset с подпапкой created
Инструкции по коду подробно описаны в файлике, здесь затронем общие моменты:
Импорт библиотеки faker
Благодаря ей, мы можем создать:
ФИО человека, e-mail, случайный набор фраз, даты, адреса, почтовые индексы, и многое другое.
Создание своих “справочников” и условий
Мы можем с помощью списков создавать свои справочники нужных параметров.
category = random.choices(['Категория 1', 'Категория 2', 'Категория 3', 'Категория 4'])
Однако помните:
без использования “весов“ , сгенерированные данные статистически покажут “нормальное распределение”:
например, из четырех категорий в среднем каждая будет составлять 25% записей на больших данных…
В коде указаны два примера кода , как избежать этого.
Также даны примеры кода с логическими условиями:
if category == 'Категория 1': category_sort = 1 elif category == 'Категория 2': category_sort = 2 elif category == 'Категория 3': category_sort = 3 else: category = 4
Ну а если вы хотите создать несколько зависящих друг от друга параметров , наподобие имен сотрудников одной компании и их должностей,
чтобы повторять его на протяжении всего датасета, создадим словарь.
Сохранение данных
Напоследок в коде представлены четыре формата сохранения табличных данных, которые вы можете загрузить в Dremio:
- .xlsx (Excel)
- .json
- .csv
- .parquet
Кстати, чтобы узнать как писать ссылки в путь к сохраняемому файлу, наподобие:
path = '/content/drive/MyDrive/dataset/created/
нажмите "Скопировать путь " в отведенной для датасетов папке