Что такое хранилище данных | Oracle СНГ
Хранилище данных — определение
Хранилище данных — это разновидность системы управления данными, которая обеспечивает поддержку бизнес-аналитики. Хранилища данных предназначены только для выполнения запросов и анализа и обычно содержат большие объемы исторических данных. Данные обычно поступают в хранилище из самых различных источников, таких как журналы приложений и приложения транзакций.
Хранилище данных служит для централизации и консолидации больших объемов данных из различных источников. Аналитические инструменты дают возможность компаниям извлекать из собственных данных ценные для бизнеса сведения и повышать эффективность принятых решений. Со временем в хранилище накапливаются записи за прошедшие периоды, которые представляют большую ценность для специалистов по изучению данных и бизнес-аналитиков. Эти возможности делают хранилища данных единым источником проверенной информации компании.
Подробнее об Oracle Autonomous Database для аналитики и хранения данных
Обычно хранилище данных включает в себя следующие компоненты:
- реляционную базу данных для хранения данных и управления ими;
- решение для извлечения, загрузки и преобразования данных, которое служит для подготовки данных к анализу;
- средства статистического анализа, отчетности и глубинного анализа данных;
- инструменты анализа для визуализации данных и их представления для корпоративных пользователей;
- Другие, более сложные аналитические приложения, которые генерируют полезную информацию по алгоритмам исследования данных и искусственного интеллекта (ИИ) или с применением функции графа и пространственных функций, обеспечивающих больше вариантов анализа больших объемов данных
Преимущества хранилища данных
Хранилища данных обеспечивают для компаний обширные преимущества, так как дают возможность анализировать большие объемы разнообразных данных, извлекать из них значительную ценность, а также хранить записи за прошедшие периоды.
Эти уникальные преимущества доступны благодаря четырем отличительным особенностям хранилищ данных, которые описал специалист по вычислительным системам Уильям Инмон (William Inmon). Согласно данному им определению, хранилища данных имеют следующие характеристики.
- Субъектно-ориентированность. Хранилища можно использовать для анализа данных, которые относятся к одной теме или функциональной области (например, продажи).
- Единообразие. Хранилища данных обеспечивают целостность данных различных типов, полученных из разных источников.
- Неизменность. Элементы данных, помещенные в хранилище данных, не подвергаются изменениям.
- Изменения во времени. Анализ данных, помещенных в хранилище данных, предназначен для выявления изменений в закономерностях, возникающих со временем.
Хорошо спроектированное хранилище данных обеспечивает быстрое выполнение запросов, эффективное прохождение больших объемов данных и достаточный уровень гибкости, чтобы конечные пользователи могли формировать продольные и поперечные срезы данных или уменьшать их объем для более подробного изучения, то есть обеспечивает соответствие самым различным потребностям в изучении данных как на высшем, так и на самом низовом уровне.
Архитектура хранилища данных
Архитектура хранилища данных зависит от потребностей компании. Наиболее распространенными типами архитектур являются следующие.
- Простая.
- Простая архитектура с областью подготовки. Перед помещением в хранилище операционные данные должны пройти процедуру очистки и обработки. Это можно сделать программным способом, однако во многих хранилищах данных есть специальная область, где данные проходят обработку перед поступлением непосредственно в хранилище.
- Основное и дополнительные хранилища. Добавление витрин данных между центральным репозиторием и конечными пользователями дает возможность компаниям использовать хранилища данных для обслуживания различных направлений бизнеса. Когда данные готовы к использованию, их помещают в соответствующую витрину.
- «Песочницы». «Песочницы» представляют собой безопасные частные и защищенные области, в которых компании могут быстро изучать новые наборы данных или способы анализа без необходимости обеспечивать соответствие формальным правилам и протоколам хранилища данных.
Эволюция хранилища данных от анализа данных к ИИ и машинному обучению
Первые хранилища данных появились в конце 1980-х гг., и их задачей было обеспечить обмен данными между операционными БД (БД для поддержки бизнеса) и системами поддержки принятия решения (СППР). Первым хранилищам данных требовалось много копий. Большинство компаний использовали несколько СППР для различных потребностей.
По мере того как эффективность хранилищ данных росла, они превратились из «складов информации» для поддержки традиционных платформ бизнес-аналитики в обширные аналитические инфраструктуры, которые сегодня обслуживают самые разнообразные потребности компаний, включая операционную аналитику и управление эффективностью.
Эволюция хранилищ данных сделала их важным инструментом для постепенного наращивания бизнес-ценности для предприятия в виде банка данных предприятия (EDW).
Шаг | Возможности | Бизнес-преимущество |
---|---|---|
1 | Транзакционная отчетность | Обеспечивает реляционные сведения для создания моментальных снимков бизнес-эффективности |
2 | Продольные и поперечные срезы данных, специальные запросы, инструменты бизнес-аналитики | Расширяет возможности для углубленного и более эффективного анализа |
3 | Прогнозирование эффективности в будущем (глубинный анализ данных) | Обеспечивает визуализации данных и бизнес-аналитические прогнозы |
4 | Тактический анализ (пространственный анализ, статистика) | Обеспечивает альтернативные сценарии для принятия решений на основе комплексного анализа |
5 | Хранит данные за несколько месяцев или лет | Хранит данные за несколько недель или месяцев |
На каждом из пяти этапов требуется увеличивать разнообразие наборов данных.
Сегодня технологии ИИ и машинное обучение применяются практически во всех инструментах для промышленности, сферы обслуживания и бизнеса. И хранилища данных не стали исключением. Широкое применение больших данных и внедрение новых цифровых технологий способствуют изменению требований к хранилищам данных и их функциональным возможностям.
Автономные хранилища данных представляют собой наиболее современное решение. Они дают возможность предприятиям извлекать еще больше ценных сведений из данных и в то же время обеспечивают более высокий уровень надежности и эффективности.
Подробнее об автономных хранилищах данных и о том, с чего начать работу с собственным автономным хранилищем.
Хранилища данных, витрины данных и хранилища операционных данных
Хранилища данных, витрины данных и хранилища операционных данных (ODS) выполняют схожие роли, однако имеют свои отличия. Витрины данных имеют те же функции, что и хранилища данных, однако, как правило, ограничены одним подразделением или направлением бизнеса. Такая особенность дает возможность создавать витрины легче, чем хранилища данных. Тем не менее использование нескольких витрин может вести к потере целостности данных, так как между ними сложно обеспечить управление данными и контроль.
ODS используются только для поддержки ежедневных операций, поэтому доступ к историческим данным в них весьма ограничен. Они эффективны в качестве источника актуальных сведений и часто используются в этом качестве хранилищами данных, но не поддерживают сложные запросы к историческим данным.
Что такое облачное хранилище данных?
Облачное хранилище данных использует облако для получения и хранения данных из разрозненных источников.
Первоначально хранилища данных создавались на локальных серверах. У таких локальных хранилищ данных и сегодня много преимуществ. Во многих случаях они могут обеспечить более качественное управление, повышенную безопасность, суверенитет данных и более низкую задержку.
С другой стороны, облачные хранилища данных отличаются следующими преимуществами.
- Эластичная поддержка горизонтального масштабирования для крупных или переменных вычислительных ресурсов или хранения
- Простое применение
- Простое управление
- Сокращение затрат
Лучшие облачные хранилища данных отличает полная управляемость и самоуправляемость, поэтому даже новички могут создавать и начать использовать хранилища данных всего в несколько кликов. Простой способ начать переход в облачное хранилище данных заключается в размещении своего облачного хранилища данных в локальной среде под защитой брандмауэра Вашего центра обработки данных, что соответствует требованиям в отношении суверенитета данных и безопасности.
Кроме того, в большинстве облачных хранилищ данных используется модель оплаты по мере использования, что обеспечивает дополнительную экономию средств для заказчиков.
Что такое современное хранилище данных?
Разные пользователи в компании, будь то ИТ-группы, инженеры по данным, бизнес-аналитики или специалисты по изучению данных, имеют разные потребности в хранилище данных.
Современная архитектура данных способна удовлетворять разные потребности, предоставляя возможность управления всеми типами данных, нагрузками и аналитикой. Она состоит из эталонных архитектур с необходимыми компонентами, интегрированными для совместной работы в соответствии с лучшими отраслевыми практическими рекомендациями. Современное хранилище данных включает следующее.
- Конвергентная база данных, которая упрощает управление всеми типами данных и предоставляет различные способы использования данных.
- Сервисы для самостоятельного получения и преобразования данных
- Поддержка SQL, машинного обучения, графической и пространственной обработки
- Разные параметры аналитики, упрощающие использование данных без необходимости их перемещения
- Автоматизированное управление для упрощения выделения ресурсов, масштабирования и администрирования
Современное хранилище данных может так эффективно оптимизировать рабочие процессы, как ни одно другое хранилище ранее. Это означает, что каждый сотрудник, от аналитика и инженера по обработке данных до специалиста по изучению данных и ИТ-экспертов, может выполнять свою работу более эффективно и заниматься инновациями, помогая компании двигаться вперед без постоянных задержек и излишней сложности.
Проектирование хранилища данных
Проектирование хранилища данных для компании следует начать с определения конкретных бизнес-потребностей, согласования сферы применения и разработки концепции проекта. После этого можно приступать к разработке логической и физической модели хранилища данных. Логическая модель включает в себя взаимосвязи между объектами, в то время как физическая служит для определения оптимального способа хранения и извлечения объектов. Кроме того, она также включает в себя процессы передачи, резервного копирования и восстановления.
При проектировании хранилища данных обязательно нужно учитывать следующие факторы.
- Специфика содержания (данные)
- Взаимосвязи внутри групп данных и между ними
- Системные среды обеспечения хранилища данных
- Необходимые типы преобразования данных
- Частота обновления данных
Наиболее важным фактором при проектировании является потребность конечных пользователей. Обычно пользователи используют хранилище для анализа, и им нужны данные в обобщенном виде, а не в виде отдельных транзакций. Тем не менее нередко конечные пользователи не знают, какие возможности им нужны до возникновения потребности в них. Таким образом, в процессе планирования необходимо предусмотреть резервные ресурсы для добавления новых возможностей. И наконец, при проектировании хранилища данных необходимо учитывать потребность в расширении по мере развития потребностей конечных пользователей.
Облачные хранилища и хранилища данных
Облачные хранилища данных имеют те же свойства и возможности, что и локальные, а также обеспечивают преимущества облачных вычислений, таких как гибкость, масштабируемость, маневренность, безопасность и экономичность. Использование облачных хранилищ данных дает возможность компаниям полностью сфокусироваться на извлечении полезных сведений из собственных данных вместо того, чтобы заниматься созданием и обслуживанием аппаратной и программной инфраструктуры, необходимой для поддержки хранилища данных.
Читать об Oracle Cloud и хранилищах данных (PDF)
Зачем нужно озеро данных?
Компании используют озера и хранилища данных для хранения больших объемов данных, полученных из разных источников. Выбор способа хранения зависит от того, как эта компания намеревается использовать данные. Ниже описаны рекомендуемые способы применения каждого из типов хранилищ.
- Озера данных рекомендованы для хранения разрозненных нефильтрованных данных, которые предназначены для последующего использования в определенных целях. Данные из мобильных и бизнес-приложений, соцсетей, устройств IoT и т. д. сохраняются в необработанном виде в озере данных. Структуру, целостность, состав и формат наборов данных определяет специалист во время выполнения анализа. Если Вашей компании требуется экономичная система хранения для неформатированных, неструктурированных данных из множественных источников, которые предполагается использовать в будущем для конкретных целей, рекомендуем остановить свой выбор на озере данных.
- Хранилища данных специально предназначены для анализа данных. Данные для анализа проходят в хранилище данных предварительную обработку (сбор, контекстуализацию и преобразование), чтобы облегчить извлечение ценных сведений. Хранилища данных также можно использовать для обработки больших объемов данных из разных источников. Если Вашей компании требуется расширенный анализ исторических данных из множественных источников, рекомендуем выбрать хранилище данных.
Почему среда OLTP не подходит для аналитики данных?
Хранилища данных представляют собой реляционные среды, которые используют для анализа данных, прежде всего за прошедшие периоды. Компании используют хранилища данных для обнаружения вырабатывающихся со временем закономерностей и взаимосвязей в данных.
В отличие от них транзакционные среды применяются для непрерывной обработки транзакций, то есть ввода заказов и совершения финансовых и розничных операций. В них не используются исторические данные. Более того, в средах OLTP данные за прошедшие периоды обычно архивируют или даже удаляют, чтобы улучшить эффективность.
Хранилища данных и OLTP-системы значительно отличаются друг от друга.
Хранилище данных | OLTP-система | |
---|---|---|
Рабочая нагрузка | Поддерживает специализированные запросы и анализ данных | Поддерживает только предварительно заданные операции |
Изменения данных | Регулярно выполняются автоматические обновления | Обновления выполняют конечные пользователи с помощью специальных команд |
Дизайн схемы | Использует частично денормализованные схемы для улучшения эффективности | Использует полностью нормализованные схемы для обеспечения целостности данных |
Сканирование данных | Включает от нескольких тысяч до миллионов строк | Обеспечивает одновременный доступ только к нескольким записям |
Исторические данные | Хранит данные за несколько месяцев или лет | Хранит данные за несколько недель или месяцев |
Беспроблемное развертывание: Oracle Autonomous Data Warehouse
Наиболее современной разновидностью хранилищ данных являются автономные хранилища. В них применяются технологии на основе ИИ и машинного обучения. Это дает возможность устранить потребность в ручном выполнении задач по установке, развертыванию и управлению. Автономные хранилища данных предоставляются в виде облачных сервисов и не требуют вмешательства пользователя для администрирования, настройки аппаратного обеспечения или установки ПО.
Создание хранилища данных, резервное копирование, исправления и обновления, а также увеличение и уменьшение размера базы данных выполняются автоматически, что обеспечивает высокие показатели гибкости, масштабируемости, маневренности, безопасности и экономичности, столь популярные в облачных решениях. Использование автономного хранилища данных дает возможность упростить обслуживание, ускорить развертывание и высвободить ресурсы. Так компании могут больше уделять времени на увеличение прибыли.
Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse — простое в использовании, полностью автоматизированное хранилище данных, которое обеспечивает эластичную масштабируемость, быстрое выполнение запросов и не требует администрирования. Настройка Oracle Autonomous Data Warehouse не требует много времени и усилий.
Что такое хранилище данных? | Определение, компоненты, архитектура
Хранилище данных — это цифровая система хранения, которая выполняет объединение и согласование больших объемов данных из разных источников. Она предоставляет данные для бизнес-аналитики, отчетов и анализа, а также обеспечивает поддержку нормативных требований. С ее помощью компании превращают свои данные в ценную информацию и принимают взвешенные решения на основе данных. Хранилища данных объединяют текущие и исторические данные в одном месте и выступают единым источником достоверной информации для организации.
Данные поступают в хранилище данных из операционных систем (например, ERP и CRM), баз данных и внешних источников, таких как системы партнеров, устройства Интернета вещей, погодные приложения и социальные сети — обычно с определенной периодичностью. Появление облачных вычислений привело к изменению ландшафта. В последние годы системы хранения данных, помимо традиционной локальной инфраструктуры, размещаются в различных местах, включая локальные решения, частные и общедоступные облака.
Современные хранилища данных предназначены для обработки структурированных и неструктурированных данных, таких как видео, файлы изображений и данные с датчиков. Некоторые из них используют встроенную аналитику и технологию базы данных in-memory (когда набор данных хранится в памяти компьютера, а не на диске) для обеспечения доступа к достоверным данным в реальном времени и принятия взвешенных решений. Без хранилища данных очень сложно объединять данные из неоднородных источников, обеспечивать нужный формат для аналитики и получать актуальное и долгосрочное представление о данных во времени.
Преимущества хранилищ данных
Хорошо спроектированное хранилище данных является фундаментом любой успешной программы бизнес-анализа или аналитики. Его основная задача — обеспечить создание отчетов и работу информационных панелей и аналитических инструментов, которые стали незаменимыми для современного для бизнеса. Хранилище данных предоставляет информацию для принятия решений на основе данных и помогает делать правильный выбор во всех случаях — от разработки новых продуктов до определения уровня запасов. Хранилище данных обеспечивает множество преимуществ. Вот некоторые из них:
- Повышение качества бизнес-аналитики. При использовании хранилищ данных лица, ответственные за принятие решений, получают доступ к данным из разных источников, и им больше не приходится принимать решения на основе неполной информации.
- Ускорение выполнения запросов. Хранилища данных создаются специально для быстрого извлечения и анализа данных. При использовании хранилищ можно очень быстро запрашивать большие объемы консолидированных данных, не привлекая для этого ИТ-персонал.
- Повышение качества данных. Перед загрузкой в хранилище система создает задачи по очистке данных и вносит их в рабочий список для последующей обработки, обеспечивая преобразование данных в согласованный формат для последующей аналитики и принятия решений на основе высококачественных и точных данных.
- Исторический ракурс. Хранилище содержит большие объемы исторических данных и позволяет лицам, принимающим решения, изучать прошлые тенденции и проблемы, делать прогнозы и постоянно совершенствовать бизнес.
Что может содержаться в хранилище данных?
Когда хранилища данных впервые стали популярными в конце восьмидесятых, они предназначались для хранения информации о людях, продуктах и транзакциях. Эти так называемые структурированные данные были аккуратно организованы и отформатированы для простоты доступа. Однако вскоре компаниям захотелось хранить, извлекать и анализировать неструктурированные данные — такие как документы, изображения, видео, электронные письма, сообщения в социальных сетях и необработанные данные от датчиков оборудования.
Современное хранилище данных может вмещать как структурированные, так и неструктурированные данные. Объединяя эти типы данных и устраняя разрозненность между ними, компании могут получить полную и всестороннюю картину для извлечения наиболее ценной аналитической информации.
Ключевые термины
В мире хранилищ данных существует множество терминов, в которых необходимо разобраться. Вот самые важные из них. Ознакомьтесь с другими терминами и часто задаваемыми вопросами в нашем глоссарии.
Хранилище данных и база данных
И базы данных, и хранилища данных являются системами хранения данных, однако они служат разным целям. В базе данных обычно хранятся данные для определенной сферы деятельности. В хранилище данных содержатся актуальные и исторические данные по всему предприятию, которые используются для бизнес-анализа и аналитики. Хранилища данных используют сервер базы данных для получения данных из БД организации и имеют дополнительные функции для моделирования данных, управления жизненным циклом данных, интеграции источников данных и других операций.
Хранилище данных и озеро данных
И хранилища данных, и озера данных используются для хранения больших данных, но это совершенно разные системы хранения. В хранилище данных содержатся данные, отформатированные для определенной цели, тогда как в озере данные хранятся в исходном, необработанном состоянии, и их назначение еще не определено. Хранилища и озера данных часто дополняют друг друга. Например, если хранящиеся в озере необработанные данные необходимы для ответа на какой-либо вопрос бизнеса, их можно извлечь, очистить, преобразовать и использовать в хранилище данных для анализа. При выборе подходящего решения для хранения данных необходимо учитывать объем данных, производительность базы данных и цену хранения.
Хранилище данных и витрина данных
Витрина данных — это часть хранилища данных, специальным образом секционированная для отделов или направлений бизнеса, таких как продажи, маркетинг или финансы. Некоторые витрины создаются и для отдельных операционных целей. Если хранилище данных служит центральным «складом» данных для всей компании, то витрина предоставляет соответствующие данные избранной группе пользователей. Это упрощает доступ к данным, ускоряет анализ и дает этим пользователям возможность контролировать собственные данные. В одном хранилище данных часто развертывается несколько витрин.
Ключевые компоненты хранилища данных
Типичное хранилище данных состоит из четырех основных компонентов: центральной базы данных, инструментов ETL (извлечение, преобразование, загрузка), метаданных и инструментов доступа. Все эти компоненты разработаны с прицелом на обеспечение максимальной скорости, что позволяет быстро получать результаты и оперативно анализировать данные.
- Центральная база данных. Фундамент хранилища данных. Традиционно применялись стандартные реляционные базы данных, работающие локально или в облаке. Но из-за появления больших данных, потребности в высокой производительности в реальном времени и резкого снижения стоимости оперативной памяти базы данных in-memory быстро набирают популярность.
- Интеграция данных. Данные извлекаются из исходных систем и модифицируются, обеспечивая согласованность информации для оперативного использования в аналитике, при помощи различных способов интеграции данных — таких как ETL (извлечение, преобразование, загрузка) и ELT, репликация данных в реальном времени, обработка пакетных данных, преобразование данных, услуги по обеспечению качества и обогащению данных.
- Метаданные. Это данные о ваших данных. Они определяют источник, механизм использования, значения и другие функции наборов данных в хранилище данных. Существуют бизнес-метаданные, которые добавляют контекст к имеющимся данным, и технические метаданные, которые описывают способ доступа к данным, включая их местоположение и структуру.
- Инструменты доступа к хранилищу данных. Инструменты доступа позволяют пользователям взаимодействовать с данными в хранилище. Примерами инструментов доступа могут быть инструменты создания запросов и отчетов, инструменты разработки приложений, инструменты интеллектуального анализа данных и инструменты OLAP.
Архитектура хранилища данных
В прошлом хранилища данных работали в виде слоев, соответствовавших потоку бизнес-данных.
- Слой данных. Данные извлекаются из источников, а затем преобразуются и загружаются на нижний уровень с помощью инструментов ETL. Нижний уровень включает сервер баз данных, витрины данных и озера данных. На этом уровне создаются метаданные; инструменты интеграции данных, такие как виртуализация данных, используются для беспрепятственного объединения и агрегирования данных.
- Семантический слой. На среднем уровне серверы оперативной аналитической обработки (OLAP) и оперативной обработки транзакций (OLTP) реструктурируют данные для быстрого выполнения сложных запросов и применения аналитических инструментов.
- Слой аналитики. Верхним уровнем является уровень клиентов фронтэнд-сервера. Он содержит инструменты доступа к хранилищу данных, которые позволяют пользователям работать с данными, создавать информационные панели и отчеты, отслеживать KPI, добывать и анализировать данные, создавать приложения — и многое другое. Этот уровень часто включает инструментальные средства или изолированную среду для исследования данных и разработки новых моделей данных.
Хранилища данных были разработаны для поддержки процесса принятия решений, а их создание и техническое обслуживание осуществлялось ИТ-специалистами. Однако в последние несколько лет они эволюционировали в сторону расширения возможностей бизнес-пользователей, уменьшая их зависимость от ИТ-персонала для получения доступа к данным и извлечения ценных аналитических сведений. Вот несколько ключевых возможностей хранилищ данных, которые расширили возможности бизнес-пользователей:
- Семантический или бизнес-слой, который поддерживает фразы на естественном языке и позволяет мгновенно понимать данные, определять взаимосвязи между элементами в модели данных и обогащать поля данных новой бизнес-информацией.
- Виртуальные рабочие области позволяют командам переносить модели данных и связи в одно защищенное и управляемое место, поддерживая более эффективное сотрудничество с коллегами благодаря единому общему пространству и использованию общего набора данных.
- Облачные технологии еще больше оптимизировали процесс принятия решений, обеспечивая глобальное расширение возможностей сотрудников при помощи обширного набора инструментов и функций, позволяющего легко выполнять задачи анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Первые шаги
Попробуйте наше облачное хранилище данных прямо сейчас.
Бесплатная пробная версия
Семь главных преимуществ облачного хранилища данных
Популярность облачных хранилищ данных растет — и тому есть причины. Эти современные хранилища обладают рядом достоинств по сравнению с традиционными локальными версиями. Вот семь главных преимуществ облачного хранилища данных.
- Быстрое развертывание. Облачное хранилище данных позволяет при помощи нескольких щелчков мышью приобретать практически неограниченный объем вычислительных мощностей и памяти, а также создавать собственное хранилище данных, витрины данных и изолированные среды из любого места за считанные минуты.
- Низкая совокупная стоимость владения (TCO). Модели ценообразования «хранилище данных как услуга» (DWaaS) устроены таким образом, что вы платите только за те ресурсы, которые вам нужны, и только тогда, когда они вам нужны. Вам не придется прогнозировать свои долгосрочные потребности или оплачивать в течение года больше вычислительных ресурсов, чем необходимо. Можно избежать таких предварительных затрат, как дорогостоящее оборудование, серверные помещения и обслуживающий персонал. Отделение цен на хранение данных от цен на вычисления также дает возможность снизить затраты.
- Эластичность. Облачное хранилище данных позволяет динамически наращивать и сокращать масштаб по мере необходимости. Облако предоставляет виртуализированную и сильно распределенную среду, способную управлять огромными объемами данных, которые могут увеличиваться и уменьшаться.
- Безопасность и аварийное восстановление. Во многих случаях облачные хранилища данных обеспечивают более надежную защиту и шифрование данных, чем локальные хранилища. Автоматическое дублирование и резервирование данных позволяют минимизировать риск их потери.
- Технологии реального времени. Облачные хранилища данных, построенные на технологии баз данных in-memory, могут обеспечить чрезвычайно высокую скорость обработки данных, что позволяет получать данные в режиме реального времени для мгновенного понимания ситуации.
- Новые технологии. Облачные хранилища данных позволяют легко интегрировать новые технологии, такие как машинное обучение, которые могут предоставить бизнес-пользователям управляемый опыт и поддержку принятия решений — например, в виде вопросов, которые рекомендуется задавать.
- Расширение возможностей бизнес-пользователей. Облачные хранилища данных расширяют возможности сотрудников в равной степени и в глобальном масштабе, обеспечивая единое представление данных из различных источников и обширный набор инструментов и функций, позволяющий легко выполнять задачи анализа данных. Они могут подключать новые приложения и источники данных без привлечения ИТ-специалистов.
Лучшие практики организации хранилищ данных
При создании нового хранилища данных или добавлении новых приложений в существующее хранилище применяйте проверенные рекомендации, обеспечивающие достижение поставленных целей и экономию времени и средств. Некоторые из них ориентированы на использование в бизнес-сценариях, другие являются частью общей ИТ-программы. Приведенный ниже список является хорошей отправной точкой, а для работы с партнерами по технологиям и услугам предусмотрены дополнительные практики.
Лучшие практики для бизнес-подразделений
- Определите, какая информация вам нужна. Точно представляя свои первоначальные потребности, вы сможете найти подходящие источники данных. Часто рекомендации по данным можно получить у отраслевых объединений, клиентов и поставщиков.
- Задокументируйте местоположение, структуру и качество имеющихся у вас данных. После этого можно будет выявить пробелы в данных и определить бизнес-правила для преобразования данных в соответствии с требованиями вашего хранилища.
- Создайте команду. В нее должны входить сторонники из числа высшего руководства, менеджеры и сотрудники, которые будут использовать и предоставлять информацию. Например, определите стандартные отчеты и KPI, необходимые им для выполнения задач.
- Определите приоритеты сценариев применения хранилища данных. Выберите один или два пилотных проекта с разумными требованиями и высокой ценностью для бизнеса.
- Выберите надежного технологического партнера по организации хранилищ данных. В его активе должны быть услуги по внедрению и опыт, необходимые для ваших проектов. Убедитесь, что они соответствуют вашим потребностям в развертывании, включая облачные сервисы и локальные варианты.
- Разработайте хороший план проекта. Вместе с командой сформулируйте реалистичный концептуальный проект и график, который обеспечит поддержку связи и отчетность по состоянию проекта.
Лучшие практики для ИТ-отдела
- Контролируйте производительность и безопасность. Информация в вашем хранилище данных очень ценна — но, чтобы приносить пользу организации, она должна быть легко доступной. Внимательно отслеживайте использование системы, обеспечивая высокий уровень производительности.
- Поддерживайте стандарты качества данных, метаданные, структуру и управление. Новые источники ценных данных регулярно становятся доступными, но они требуют согласованного управления в рамках хранилища данных. Следуйте процедурам очистки данных, определения метаданных и соблюдения стандартов управления.
- Обеспечьте гибкость архитектуры. По мере все более активного использования хранилища данных всей компанией и бизнес-подразделениями вы обнаружите широкий спектр потребностей в витринах данных и хранилищах. Гибкая платформа будет поддерживать их намного лучше, чем жестко ограниченный продукт.
- Автоматизируйте процессы технического обслуживания. Помимо повышения ценности бизнес-аналитики, машинное обучение позволяет автоматизировать функции технического управления хранилищем данных, обеспечивая поддержание скорости и сокращение эксплуатационных расходов.
- Стратегически используйте облако. Бизнес-подразделения и отделы имеют разные потребности в развертывании. При необходимости используйте локальные системы, а облачные хранилища данных применяйте для масштабируемости, снижения затрат и доступа с телефонов и планшетов.
Заключение
Современные хранилища данных, и все чаще это облачные хранилища, будут ключевым компонентом любого проекта цифровой трансформации для материнских компаний и их бизнес-подразделений. Они эффективно используют возможности существующих бизнес-систем, особенно при объединении данных из нескольких внутренних систем с новой важной информацией от внешних организаций.
Информационные панели, KPI, предупреждения и отчеты поддерживают требования высшего руководства, линейных руководителей и персонала, а также важные потребности клиентов и поставщиков. Хранилища данных также позволяют осуществлять быстрый и сложный поиск и анализ данных, не нарушая работу других бизнес-систем.
Благодаря гибкой структуре, позволяющей начать с малого и расширяться по мере необходимости, головные офисы и бизнес-подразделения могут оптимизировать процесс принятия решений и повысить эффективность работы в целом с помощью современных технологий хранения данных.
Подробнее о хранилищах данных от SAP
Унифицированные данные и аналитика для принятия обоснованных решений в облаке.
Подробнее
Другие материалы серии
Глоссарий по хранилищам данных
Озеро данных — это место для хранения всех видов больших данных, будь то структурированные данные из бизнес-систем или неструктурированные данные из мобильных приложений, социальных сетей либо устройств Интернета вещей (IoT). Поскольку данные хранятся в естественном формате — структурированном, неструктурированном, полуструктурированном или двоичном — для проведения анализа различных типов данных могут потребоваться преобразование, нормализация или другая обработка. Большинство озер данных базируются в облаке в силу больших объемов хранимых данных, необходимости высокоскоростного подключения к распределенным источникам и требований к масштабируемости.
«ETL» расшифровывается как «extract, transform, and load» — извлечение, преобразование и загрузка. Вместе эти операции составляют процесс, охватывающий получение данных от источника и преобразование в их в пригодный для использования формат, а затем перемещение в хранилище данных или другое место для хранения. Процесс ETL особенно полезен для транзакционных данных, однако более продвинутые инструменты могут также обрабатывать другие различные типы неструктурированных данных.
Витрина данных представляет собой секционированный сегмент хранилища данных, ориентированный на определенную область деятельности или команду — например, отдел финансов или маркетинга. Витрины упрощают отделам быстрый доступ к релевантным для них данным и аналитике, а также управление собственными наборами данных в более крупном хранилище данных.
Модели данных являются основополагающим элементом процесса разработки программного обеспечения и аналитики. Модель данных описывает, как структурированы данные и в какой форме они хранятся в базе данных. Модель данных представляет собой структуру отношений между элементами данных в БД, а также руководство по использованию данных.
Моделированием данных называется процесс создания моделей данных. При создании структуры базы данных или хранилища данных проектировщик начинает с разработки диаграммы потоков данных, поступающих в БД или хранилище и исходящих из них. Такая диаграмма потоков используется для определения характеристик форматов данных, структур и функций обработки базы данных, которые гарантируют соответствие потоков данных предъявляемым к ним требованиям. Моделирование обеспечивает стандартизированный метод согласованного определения и форматирования содержимого базы данных во всех системах, благодаря чему различные приложения могут совместно использовать одни и те же данные.
Корпоративное хранилище данных содержит все текущие и исторические бизнес-данные в одном месте; это совокупность процессов управления основными данными, организации хранилища данных и стратегии управления данными, основанная на целостном подходе к управлению данными. Корпоративные хранилища обеспечивают благоприятную среду для работы аналитических программных приложений и поддержки точных общекорпоративных KPI и отчетов. Многие такие хранилища размещаются в облаке для масштабируемости, доступности и простоты использования.
Новостная рассылка SAP Insights
Подпишитесь сегодня
Подпишитесь на рассылку и будьте в курсе самых важных новостей.
Другие материалы
Что такое хранилище данных
Хранилище данных определено
Хранилище данных — это тип система управления данными, предназначенная для включения и поддержки операций бизнес-аналитики (BI), особенно аналитики. Хранилища данных предназначены исключительно для выполнения запросов и анализа и часто содержат большие объемы исторических данных. Данные в хранилище данных обычно поступают из широкого круга источников, таких как файлы журналов приложений и приложения для транзакций.
Хранилище данных централизует и объединяет большие объемы данных из нескольких источников. Его аналитические возможности позволяют организациям извлекать ценную информацию из своих данных для улучшения процесса принятия решений. Со временем он создает историческую запись, которая может оказаться бесценной для специалистов по обработке и анализу данных и бизнес-аналитиков. Благодаря этим возможностям хранилище данных можно считать «Единый источник правды».
Узнайте об автономной базе данных для аналитики и хранения данных
Типичное хранилище данных часто включает следующие элементы:
- А реляционная база данных для хранения и управления данными
- Решение для извлечения, загрузки и преобразования (ELT) для подготовки данные для анализа
- Возможности статистического анализа, отчетности и интеллектуального анализа данных
- Инструменты клиентского анализа для визуализации и представления данных бизнесу пользователи
- Другие, более сложные аналитические приложения, которые генерируют полезную информацию, применяя наука о данных и алгоритмы искусственного интеллекта (ИИ) или графическое и пространственное функции, которые позволяют больше видов анализа данных в масштабе
Организации также могут выбрать решение, сочетающее обработку транзакций, аналитику в режиме реального времени в хранилищах данных и озерах данных, а также машинное обучение в одной службе базы данных MySQL — без сложности, задержки, затрат и рисков, связанных с извлечением, преобразованием и загрузкой ( ETL) дублирование.
Объединение OLTP, OLAP и ML в одну службу базы данных MySQL
Преимущества хранилища данных
Хранилища данных предлагают всеобъемлющее и уникальное преимущество, позволяя организациям для анализа больших объемов разнородных данных и извлечения значительную ценность от него, а также вести исторический учет.
Четыре уникальные характеристики (описанные ученым-компьютерщиком Уильямом Инмона, которого считают отцом хранилища данных) позволяют данные склады, чтобы обеспечить это всеобъемлющее преимущество. Согласно этому определение, хранилища данных
- Предметно-ориентированный. Они могут анализировать данные о конкретной предметной или функциональной области (например, продажи).
- Интегрировано. Хранилища данных обеспечивают согласованность между различные типы данных из разрозненных источников.
- Энергонезависимый. Как только данные находятся в хранилище данных, они стабильно и не меняется.
- Временной вариант. Анализ хранилища данных смотрит на изменения через некоторое время.
Хорошо спроектированное хранилище данных будет выполнять запросы очень быстро, обеспечивать высокую пропускную способность данных и предоставлять конечным пользователям достаточную гибкость, чтобы «нарезать и нарезать кубиками» или уменьшать объем данных для более тщательного изучения, чтобы удовлетворить различные требования — будь то на высокой скорости. уровне или на очень тонком, детальном уровне. Хранилище данных служит функциональной основой для сред промежуточного программного обеспечения BI, которые предоставляют конечным пользователям отчеты, информационные панели и другие интерфейсы.
Архитектура хранилища данных
Архитектура хранилища данных определяется конкретными потребностями организации. Общие архитектуры включают
- Simple. Все хранилища данных имеют базовую структуру, в которой метаданные, сводные данные и необработанные данные хранятся в центральном репозитории хранилища. Репозиторий питается источниками данных на одном конце и доступен конечным пользователям для анализа, составления отчетов и интеллектуального анализа данных на другом конце.
- Простой с плацдармом. Операционные данные должны быть очищены и обработаны перед помещением на склад. Хотя это можно сделать программно, многие хранилища данных добавляют промежуточную область для данных до их поступления в хранилище, чтобы упростить подготовку данных.
- Ступица и спица. Добавление витрин данных между центральным репозиторием и конечными пользователями позволяет организации настроить свое хранилище данных для обслуживания различных направлений бизнеса. Когда данные готовы к использованию, они перемещаются в соответствующую витрину данных.
- Песочницы. Песочницы — это частные, безопасные и безопасные области, которые позволяют компаниям быстро и неформально исследовать новые наборы данных или способы анализа данных без необходимости соответствовать формальным правилам и протоколу хранилища данных.
Эволюция хранилищ данных — от аналитики данных к искусственному интеллекту и машинному обучению
Когда хранилища данных впервые появились в конце 1980-х годов, их целью было помочь потоку данных из операционных систем в системы поддержки принятия решений (СППР). Эти ранние хранилища данных требовали огромной избыточности. В большинстве организаций было несколько сред DSS, которые обслуживали различных пользователей. Хотя в средах DSS использовалась большая часть одних и тех же данных, сбор, очистка и интеграция данных часто повторялись для каждой среды.
По мере того, как хранилища данных становились все более эффективными, они превратились из хранилищ информации, которые поддерживали традиционные платформы BI, в обширные аналитические инфраструктуры, поддерживающие широкий спектр приложений, таких как операционная аналитика и управление производительностью.
Итерации хранилища данных со временем совершенствовались, чтобы обеспечить дополнительную ценность для предприятия с корпоративным хранилищем данных (EDW).
Шаг | Возможности | Ценность для бизнеса |
---|---|---|
1 | Транзакционная отчетность | Предоставляет реляционную информацию для создания моментальных снимков эффективности бизнеса |
2 | Нарезка и нарезка, специальный запрос, инструменты бизнес-аналитики | Расширяет возможности для более глубокого понимания и более надежного анализа |
3 | Прогнозирование будущей производительности (интеллектуальный анализ данных) | Разработка визуализаций и перспективной бизнес-аналитики |
4 | Тактический анализ (пространственный, статистический) | Предлагает сценарии «что, если» для обоснования практических решений на основе более всестороннего анализа |
5 | Хранит данные за многие месяцы или годы | Сохраняет данные только за недели или месяцы |
Для поддержки каждого из этих пяти шагов требуется все большее разнообразие наборов данных. В частности, последние три шага создают необходимость в еще более широком наборе данных и аналитических возможностей.
Сегодня искусственный интеллект и машинное обучение трансформируют практически все отрасли, услуги и корпоративные активы, и хранилища данных не являются исключением. Распространение больших данных и применение новых цифровых технологий приводят к изменению требований и возможностей хранилищ данных.
Автономное хранилище данных — последний шаг в этой эволюции, предлагающий предприятиям возможность извлекать еще большую пользу из своих данных при одновременном снижении затрат и повышении надежности и производительности хранилища данных.
Узнайте больше об автономных хранилищах данных и начните работу с собственным автономным хранилищем данных.
Хранилища данных, витрины данных и хранилища операционных данных
Хотя они выполняют схожие роли, хранилища данных отличаются от киосков данных и хранилищ операционных данных (ODS). Витрина данных выполняет те же функции, что и хранилище данных, но в гораздо более ограниченном объеме — обычно в одном отделе или направлении бизнеса. Это упрощает создание витрин данных по сравнению с хранилищами данных. Однако они, как правило, вносят несогласованность, потому что может быть сложно единообразно управлять данными и контролировать их в многочисленных витринах данных.
ODS поддерживают только ежедневные операции, поэтому их просмотр исторических данных очень ограничен. Хотя они очень хорошо работают в качестве источников текущих данных и часто используются как таковые в хранилищах данных, они не поддерживают исторически насыщенные запросы.
Что такое облачное хранилище данных?
Облачное хранилище данных использует облако для приема и хранения данных из разрозненных источников данных.
Исходные хранилища данных были созданы с использованием локальных серверов. Эти локальные хранилища данных и сегодня по-прежнему имеют множество преимуществ. Во многих случаях они могут предложить улучшенное управление, безопасность, независимость данных и меньшую задержку. Однако локальные хранилища данных не столь эластичны, и они требуют сложного прогнозирования, чтобы определить, как масштабировать хранилище данных для будущих потребностей. Управление этими хранилищами данных также может быть очень сложным.
С другой стороны, некоторые из преимуществ облачных хранилищ данных включают:
- Эластичность, поддержка масштабирования для больших или переменных требований к вычислениям или хранилищу
- Простота использования
- Простота управления
- Экономия затрат
Лучшие облачные хранилища данных полностью управляемы и автономны, благодаря чему даже новички могут создавать и использовать хранилища данных всего несколькими щелчками мыши. Простой способ начать переход к облачному хранилищу данных — запустить облачное хранилище данных локально, за брандмауэром центра обработки данных, который соответствует требованиям суверенитета и безопасности данных.
Кроме того, большинство облачных хранилищ данных используют модель оплаты по факту использования, что обеспечивает дополнительную экономию средств для клиентов.
Что такое современное хранилище данных?
Независимо от того, являются ли они частью ИТ-подразделений, инженеров данных, бизнес-аналитиков или специалистов по обработке и анализу данных, разные пользователи в организации имеют разные потребности в хранилищах данных.
Современная архитектура данных удовлетворяет эти различные потребности, предоставляя способ управления всеми типами данных, рабочими нагрузками и анализом. Он состоит из шаблонов архитектуры с необходимыми компонентами, интегрированными для совместной работы в соответствии с лучшими отраслевыми практиками. Современное хранилище данных включает в себя:
- Конвергентная база данных, которая упрощает управление всеми типами данных и предоставляет различные способы использования данных
- Самостоятельные услуги по приему и преобразованию данных
- Поддержка SQL, машинного обучения, графической и пространственной обработки
- Несколько вариантов аналитики, которые упрощают использование данных без их перемещения
- Автоматизированное управление для простой подготовки, масштабирования и администрирования
Современное хранилище данных может эффективно оптимизировать рабочие процессы данных так, как не могут другие хранилища. Это означает, что все, от аналитиков и инженеров данных до специалистов по данным и ИТ-команд, могут выполнять свою работу более эффективно и заниматься инновационной работой, которая продвигает организацию вперед, без бесчисленных задержек и сложностей.
Проектирование хранилища данных
Когда организация намеревается спроектировать хранилище данных, она должна начать с определения своих конкретных бизнес-требований, согласования объема и разработки концептуального проекта. Затем организация может создать как логическую, так и физическую схему хранилища данных. Логический дизайн включает в себя отношения между объектами, а физический дизайн включает в себя лучший способ хранения и извлечения объектов. Физический проект также включает процессы транспортировки, резервного копирования и восстановления.
Любой проект хранилища данных должен учитывать следующее:
- Конкретное содержимое данных
- Отношения внутри и между группами данных
- Системная среда, которая будет поддерживать хранилище данных
- Требуемые типы преобразования данных
- Частота обновления данных
Основным фактором при разработке являются потребности конечных пользователей. Большинство конечных пользователей заинтересованы в проведении анализа и просмотре данных в совокупности, а не в виде отдельных транзакций. Однако часто конечные пользователи не знают, чего они хотят, пока не возникнет конкретная потребность. Таким образом, процесс планирования должен включать в себя достаточно исследований, чтобы предвидеть потребности. Наконец, структура хранилища данных должна предусматривать возможность расширения и развития в соответствии с растущими потребностями конечных пользователей.
Облако и хранилище данных
Хранилища данных в облаке обладают теми же характеристиками и преимуществами, что и локальные хранилища данных, но с дополнительными преимуществами облачных вычислений, такими как гибкость, масштабируемость, оперативность, безопасность и снижение затрат. Облачные хранилища данных позволяют предприятиям сосредоточиться исключительно на извлечении ценности из своих данных, а не на создании и управлении аппаратной и программной инфраструктурой для поддержки хранилища данных.
Читать об Oracle Cloud и хранилищах данных (PDF)
Нужно ли мне озеро данных?
Организации используют как озера данных, так и хранилища данных для больших объемов данных из различных источников. Выбор того, когда использовать тот или иной вариант, зависит от того, что организация намерена делать с данными. Ниже описано, как лучше всего использовать каждый из них:
- Озера данных хранят большое количество разрозненных, нефильтрованных данных, которые можно использовать позже для определенной цели. Данные из бизнес-приложений, мобильных приложений, социальных сетей, устройств IoT и т. д. фиксируются в виде необработанных данных в озере данных. Структура, целостность, выбор и формат различных наборов данных определяются во время анализа лицом, выполняющим анализ. Когда организациям требуется недорогое хранилище для неформатированных, неструктурированных данных из нескольких источников, которые они намерены использовать для каких-либо целей в будущем, озеро данных может быть правильным выбором.
- Хранилища данных специально предназначены для анализа данных. Аналитическая обработка в хранилище данных выполняется на данных, которые были подготовлены для анализа — собраны, контекстуализированы и преобразованы — с целью получения аналитических сведений на основе анализа. Хранилища данных также умеют обрабатывать большие объемы данных из различных источников. Когда организациям требуется расширенная аналитика данных или анализ, основанный на исторических данных из нескольких источников по всему предприятию, хранилище данных, вероятно, является правильным выбором.
Почему бы не запустить аналитику в вашей среде OLTP?
Хранилища данных — это реляционные среды, которые используются для анализа данных, особенно исторических данных. Организации используют хранилища данных для обнаружения закономерностей и взаимосвязей в своих данных, которые развиваются с течением времени.
В отличие от этого, транзакционные среды используются для обработки транзакций на постоянной основе и обычно используются для ввода заказов, финансовых и розничных транзакций. Они не основаны на исторических данных; на самом деле в средах OLTP исторические данные часто архивируются или просто удаляются для повышения производительности.
Хранилища данных и системы OLTP существенно различаются.
Хранилище данных | Система OLTP | |
---|---|---|
Рабочая нагрузка | Поддерживает специальные запросы и анализ данных | Поддерживает только предопределенные операции |
Изменения данных | Регулярное автоматическое обновление | Обновления конечными пользователями, выдающими отдельные отчеты |
Схема | Использует частично денормализованные схемы для оптимизации производительности | Использует полностью нормализованные схемы для обеспечения согласованности данных |
Сканирование данных | Охватывает от тысяч до миллионов строк | Доступ только к нескольким записям за раз |
Исторические данные | Хранит данные за многие месяцы или годы | Сохраняет данные только за недели или месяцы |
Развертывание с нулевой сложностью: автономное хранилище данных
Самая последняя версия хранилища данных — это автономное хранилище данных, которое опирается на искусственный интеллект и машинное обучение для устранения ручных задач и упрощения настройки, развертывания и управления данными. Автономное хранилище данных как услуга в облаке не требует ручного администрирования базы данных, настройки или управления оборудованием или установки программного обеспечения.
Создание хранилища данных, резервное копирование, исправление и обновление базы данных, а также расширение или сокращение базы данных выполняются автоматически — с той же гибкостью, масштабируемостью, динамичностью и меньшими затратами, которые предлагают облачные платформы. Автономное хранилище данных устраняет сложность, ускоряет развертывание и высвобождает ресурсы, чтобы организации могли сосредоточиться на действиях, повышающих ценность бизнеса.
Oracle Autonomous Data Warehouse
Oracle Autonomous Data Warehouse — это простое в использовании, полностью автономное хранилище данных, которое эластично масштабируется, обеспечивает высокую производительность запросов и не требует администрирования базы данных. Установка Oracle Autonomous Data Warehouse очень проста и быстра.
Узнайте больше об Oracle Autonomous Data Warehouse (PDF)
Преимущества Oracle Autonomous Data Warehouse вместо Snowflake
- Автоматизация. Единственное хранилище данных, полностью автоматизирующее администрирование базы данных.
- Простота использования. Решение Autonomous Data Warehouse проще в развертывании и управлении благодаря встроенным возможностям, которые устраняют необходимость в дополнительных автономных службах
- Стоимость решения. Наше современное хранилище данных и расширенные функции имеют аналогичные затраты на аналогичные требования к рабочей нагрузке.
- Безопасность данных. Мы предоставляем более надежные встроенные протоколы безопасности, которые защищают ваши данные от киберугроз.
- Управление данными. Наша платформа хранилища данных позволяет организациям с легкостью управлять потребностями суверенитета данных.
Автономное хранилище данных против Snowflake
Что такое хранилище данных? | Ключевые понятия
Начало работы с Amazon Redshift
Что такое хранилище данных?
Хранилище данных — это центральное хранилище информации, которую можно анализировать для принятия более взвешенных решений. Данные поступают в хранилище данных из транзакционных систем, реляционных баз данных и других источников, как правило, в регулярном ритме. Бизнес-аналитики, инженеры данных, специалисты по данным и лица, принимающие решения, получают доступ к данным с помощью инструментов бизнес-аналитики (BI), клиентов SQL и других аналитических приложений.
Данные и аналитика стали незаменимыми для поддержания конкурентоспособности бизнеса. Бизнес-пользователи полагаются на отчеты, информационные панели и инструменты аналитики, чтобы извлекать ценную информацию из своих данных, отслеживать эффективность бизнеса и поддерживать принятие решений. Хранилища данных поддерживают эти отчеты, информационные панели и инструменты аналитики, эффективно сохраняя данные, чтобы свести к минимуму ввод и вывод (I/O) данных и быстро доставлять результаты запросов сотням и тысячам пользователей одновременно.
Как устроено хранилище данных?
Архитектура хранилища данных состоит из уровней. Верхний уровень — это интерфейсный клиент, который представляет результаты с помощью инструментов отчетности, анализа и интеллектуального анализа данных. Средний уровень состоит из механизма аналитики, который используется для доступа к данным и их анализа. Нижний уровень архитектуры — это сервер базы данных, на который загружаются и хранятся данные. Данные хранятся двумя разными способами: 1) данные, к которым часто обращаются, хранятся в очень быстром хранилище (например, на SSD-накопителях) и 2) данные, к которым редко обращаются, хранятся в дешевом объектном хранилище, таком как Amazon S3. Хранилище данных автоматически обеспечит перемещение часто используемых данных в «быстрое» хранилище, что оптимизирует скорость запросов.
Как работает хранилище данных?
Хранилище данных может содержать несколько баз данных. В каждой базе данных данные организованы в таблицы и столбцы. В каждом столбце вы можете определить описание данных, например целое число, поле данных или строку. Таблицы могут быть организованы внутри схем, которые можно рассматривать как папки. Когда данные принимаются, они сохраняются в различных таблицах, описанных схемой. Инструменты запросов используют схему, чтобы определить, к каким таблицам данных следует обращаться и анализировать.
Каковы преимущества использования хранилища данных?
Преимущества хранилища данных включают следующее:
- Информированное принятие решений
- Консолидированные данные из многих источников
- Анализ исторических данных
- Качество данных, согласованность и точность
- Отделение обработки аналитики от транзакционных баз данных, что повышает производительность обеих систем
Как хранилища данных, базы данных и озера данных работают вместе?
Обычно предприятия используют комбинацию базы данных, озера данных и хранилища данных для хранения и анализа данных. Архитектура дома у озера Amazon Redshift упрощает такую интеграцию.
По мере увеличения объема и разнообразия данных целесообразно использовать один или несколько распространенных шаблонов для работы с данными в вашей базе данных, озере данных и хранилище данных:
(вверху): Поместите данные в базу данных или озеро данных, подготовьте данные, переместите выбранные данные в хранилище данных, а затем создайте отчетность.
Изображение(вверху): поместите данные в хранилище данных, проанализируйте данные, а затем поделитесь данными для использования с другими службами аналитики и машинного обучения.
Хранилище данных специально разработано для анализа данных, который включает чтение больших объемов данных для понимания взаимосвязей и тенденций в данных. База данных используется для сбора и хранения данных, таких как запись сведений о транзакции.
В отличие от хранилища данных, озеро данных представляет собой централизованное хранилище всех данных, включая структурированные, частично структурированные и неструктурированные. Хранилище данных требует, чтобы данные были организованы в табличном формате, где в игру вступает схема. Табличный формат необходим, чтобы можно было использовать SQL для запроса данных. Но не все приложения требуют, чтобы данные были в табличном формате. Некоторые приложения, такие как анализ больших данных, полнотекстовый поиск и машинное обучение, могут получать доступ к данным, даже если они «полуструктурированы» или полностью неструктурированы.
Хранилище данных и озеро данных
Характеристики | Хранилище данных | Озеро данных |
---|---|---|
Данные | Реляционные данные из транзакционных систем, операционных баз данных и линейки бизнес-приложений | Все данные, включая структурированные, полуструктурированные и неструктурированные |
Схема | Часто разрабатываются до внедрения хранилища данных, но также могут быть записаны во время анализа (схема при записи или схема при чтении) | Записано во время анализа (схема при чтении) |
Цена/качество | Самые быстрые результаты запросов с использованием локального хранилища | Получение результатов запросов быстрее благодаря недорогому хранилищу и разделению вычислительных ресурсов и хранилища |
Качество данных | Тщательно отобранные данные, которые служат центральной версией правды | Любые данные, которые могут или не могут быть проверены (например, необработанные данные) |
Пользователи | Бизнес-аналитики, специалисты по данным и разработчики данных | Бизнес-аналитики (использующие отобранные данные), специалисты по данным, разработчики данных, инженеры данных и архитекторы данных |
Аналитика | Пакетная отчетность, BI и визуализации | Машинное обучение, исследовательская аналитика, обнаружение данных, потоковая передача, операционная аналитика, большие данные и профилирование |
Хранилище данных и база данных
Характеристики | Хранилище данных | Транзакционная база данных |
---|---|---|
Подходящие рабочие нагрузки | Аналитика, отчетность, большие данные | Обработка транзакций |
Источник данных | Данные, собранные и нормализованные из многих источников | Данные, собранные как есть, из одного источника, такого как транзакционная система |
Сбор данных | Операции массовой записи, как правило, по заданному расписанию | Оптимизирован для непрерывных операций записи по мере доступности новых данных для максимизации пропускной способности транзакций |
Нормализация данных | Денормализованные схемы, такие как схема «звезда» или схема «снежинка» | Сильно нормализованные статические схемы |
Хранение данных | Оптимизирован для простоты доступа и высокой производительности запросов с использованием столбцового хранилища | Оптимизирован для операций записи с большим объемом операций записи в один физический блок, ориентированный на строки |
Доступ к данным | Оптимизирован для минимизации операций ввода-вывода и максимальной пропускной способности данных | Большие объемы небольших операций чтения |
Чем киоск данных отличается от хранилища данных?
Витрина данных — это хранилище данных, которое обслуживает потребности конкретной команды или бизнес-подразделения, например финансового, маркетингового или продажного. Он меньше по размеру, более сфокусирован и может содержать сводки данных, которые лучше всего подходят его сообществу пользователей. Киоск данных также может быть частью хранилища данных.
Хранилище данных и киоск данных
Характеристики | Хранилище данных | Магазин данных |
---|---|---|
Объем | Централизованное объединение нескольких предметных областей | Децентрализованная, специализированная предметная область |
Пользователи | Для всей организации | Отдельное сообщество или отдел |
Источник данных | Многие источники | Один или несколько источников или часть данных, уже собранных в хранилище данных |
Размер | Большой, может быть от сотен гигабайт до петабайт | Маленький, обычно до 10 гигабайт |
Дизайн | Сверху вниз | Снизу вверх |
Деталь данных | Полные подробные данные | Может содержать сводные данные |
Как можно развернуть хранилище данных на AWS?
AWS позволяет вам воспользоваться всеми основными преимуществами, связанными с вычислениями по требованию: доступ к, казалось бы, безграничным хранилищам и вычислительным мощностям, масштабирование вашей системы параллельно с растущим объемом собираемых, хранимых и запрашиваемых данных и только оплата за ресурсы, которые вы предоставляете. AWS предлагает широкий набор управляемых сервисов, которые легко интегрируются друг с другом, чтобы вы могли быстро развернуть комплексное решение для аналитики и хранения данных.
На следующем рисунке показаны ключевые этапы сквозного аналитического процесса, также называемого стеком. AWS предлагает различные управляемые сервисы на каждом этапе.
(вверху): AWS предлагает различные продукты и услуги на каждом этапе процесса аналитики.
Amazon Redshift — это наша быстрая, полностью управляемая и экономичная служба хранилища данных. Он предоставляет вам хранилище данных петабайтного масштаба и аналитику озера данных эксабайтного масштаба в одном сервисе, за который вы платите только за то, что используете.
Следующие шаги
Войдите в консоль
Узнайте об AWS
- Что такое AWS?
- Что такое облачные вычисления?
- Инклюзивность, разнообразие и справедливость AWS
- Что такое DevOps?
- Что такое контейнер?
- Что такое озеро данных?
- Облачная безопасность AWS
- Что нового
- Блоги
- Пресс-релизы
Ресурсы для AWS
- Начало работы
- Обучение и сертификация
- Библиотека решений AWS
- Архитектурный центр
- Часто задаваемые вопросы по продуктам и техническим вопросам
- Аналитические отчеты
- Партнеры AWS
Разработчики на AWS
- Центр разработчиков
- SDK и инструменты
- .