4 программы для скачивания сайтов
Эти четыре программы помогут вам загрузить практически любой сайт к себе на компьютер. Очень полезно, если вы боитесь потерять доступ к любимым статьям, книгам, инструкциям и всему остальному, что могут удалить или заблокировать.
HTTrack позволяет пользователям загружать сайт из интернета на жесткий диск. Программа работает путем копирования содержимого всего сайта, а затем загружает все каталоги, HTML, изображения и другие файлы с сервера сайта на ваш компьютер.
При просмотре скопированного сайта HTTrack поддерживает исходную структуру ссылок сайта. Это позволяет пользователям просматривать его в обычном браузере. Кроме того, пользователи могут нажимать на ссылки и просматривать сайт точно так же, как если бы они смотрели его онлайн.
HTTrack также может обновлять ранее загруженные сайты, а также возобновлять любые прерванные загрузки. Приложение доступно для Windows, Linux и даже для устройств на базе Android.
Если вы твердо придерживаетесь экосистемы Apple и имеете доступ только к Mac, вам нужно попробовать SiteSucker.
К сожалению, SiteSucker не лишен недостатков. Во-первых, SiteSucker — платное приложение. На момент написания этой статьи SiteSucker стоит $4.99 в App Store. Кроме того, SiteSucker загружает каждый файл на сайте, который может быть найден. Это означает большую загрузку с большим количеством потенциально бесполезных файлов.
Cyotek WebCopy — инструмент, позволяющий пользователям копировать полные версии сайтов или только те части, которые им нужны. К сожалению, приложение WebCopy доступно только для Windows, но зато оно является бесплатным. Использовать WebCopy достаточно просто. Откройте программу, введите целевой URL-адрес и все.
Кроме того, WebCopy имеет большое количество фильтров и опций, позволяющих пользователям скачивать только те части сайта, которые им действительно нужны. Эти фильтры могут пропускать такие вещи, как изображения, рекламу, видео и многое другое, что может существенно повлиять на общий размер загрузки.
Этот граббер с открытым исходным кодом существует уже давно, и на это есть веские причины. GetLeft — это небольшая утилита, позволяющая загружать различные компоненты сайта, включая HTML и изображения.
GetLeft очень удобен для пользователя, что и объясняет его долговечность. Для начала просто запустите программу и введите URL-адрес сайта, затем GetLeft автоматически анализирует веб-сайт и предоставит вам разбивку страниц, перечисляя подстраницы и ссылки. Затем вы можете вручную выбрать, какие части сайта вы хотите загрузить, установив соответствующий флажок.
После того, как вы продиктовали, какие части сайта вы хотите зазрузить, нажмите на кнопку. GetLeft загрузит сайт в выбранную вами папку.
Спасибо, что читаете! На данный момент большинство моих заметок, статей и подборок выходит в telegram канале «Левашов». Обязательно подписывайтесь, чтобы не пропустить новости мира ИТ, полезные инструкции и нужные сервисы.
Хотите больше постов в блоге? Подборок софта и сервисов, а также обзоры на гаджеты? Сейчас, чтобы писать регулярно и радовать вас большими обзорами, мне требуется помощь. Чтобы поддерживать сайт на регулярной основе, вы можете оформить подписку на
Заранее спасибо! Все собранные средства будут пущены на развитие сайта. Поддержка проекта является подарком владельцу сайта.
| ||||||||||||
6 бесплатных инструментов для загрузки целых веб-сайтов для использования в автономном режиме или резервного копирования
При сегодняшней скорости Интернета и ответственности не так много причин загружать весь веб-сайт для использования в автономном режиме. Возможно, вам нужна копия сайта в качестве резервной копии или вам нужно отправиться куда-нибудь в отдаленное место, эти инструменты позволят вам загрузить весь сайт для чтения в автономном режиме.
😭 😍 😂 60 лучших веб-сайтов для бесплатной загрузки электронных книг в формате ePub и PDF
Вот краткий список некоторых из лучших веб-сайтов, загружающих программное обеспечение для начала работы. HTTrack — лучший и любимец многих уже много лет.
↓ 01 — HTTrack |
Окна | макОС | LinuxHTTrack — бесплатная (GPL, свободное/свободное программное обеспечение) и простая в использовании автономная утилита браузера. Он позволяет вам загружать сайт World Wide Web из Интернета в локальный каталог, рекурсивно создавая все каталоги, получая HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack упорядочивает относительную ссылочную структуру исходного сайта. Просто откройте страницу «зеркального» веб-сайта в своем браузере, и вы сможете просматривать сайт от ссылки к ссылке, как если бы вы просматривали его онлайн. HTTrack также может обновлять существующий зеркальный сайт и возобновлять прерванные загрузки. HTTrack полностью настраивается и имеет встроенную справочную систему.
Cyotek WebCopy — это бесплатный инструмент для локального копирования полных или частичных веб-сайтов на жесткий диск для просмотра в автономном режиме. WebCopy просканирует указанный веб-сайт и загрузит его содержимое на ваш жесткий диск. Ссылки на такие ресурсы, как таблицы стилей, изображения и другие страницы веб-сайта, будут автоматически переназначены в соответствии с локальным путем. Используя его обширную конфигурацию, вы можете определить, какие части веб-сайта будут скопированы и как.
WebCopy проверит HTML-разметку веб-сайта и попытается обнаружить все связанные ресурсы, такие как другие страницы, изображения, видео, загрузки файлов — все и вся. Он загрузит все эти ресурсы и продолжит поиск других. Таким образом, WebCopy может «сканировать» весь веб-сайт и загружать все, что он видит, чтобы создать приемлемое факсимиле исходного веб-сайта.
↓ 03 – UnMHT |
Надстройка FirefoxUnMHT позволяет просматривать файлы формата веб-архива MHT (MHTML) и сохранять полные веб-страницы, включая текст и графику, в один файл MHT в Firefox/SeaMonkey. MHT (MHTML, RFC2557) — это формат архива веб-страницы для хранения HTML и изображений, CSS в одном файле.
- Сохранить веб-страницу как файл MHT.
- Вставьте URL-адрес веб-страницы и дату, которую вы сохранили в сохраненный файл MHT.
- Одновременное сохранение нескольких вкладок в виде файлов MHT.
- Сохранение нескольких вкладок в один файл MHT.
- Сохранение веб-страницы одним щелчком мыши в предварительно указанном каталоге с функцией быстрого сохранения.
- Преобразовать файлы HTML и каталог, содержащий файлы, используемые HTML, в файл MHT.
- Просмотр файла MHT, сохраненного с помощью UnMHT, IE, PowerPoint и т. д.
↓ 04 — сайт захвата |
macOS | LinuxGrab-site — это простой предварительно настроенный поисковый робот, предназначенный для резервного копирования веб-сайтов. Дайте сайту захвата URL-адрес, и он будет рекурсивно сканировать сайт и записывать файлы WARC. Внутри Grab-Site использует форк wpull для сканирования. Grab-site — это поисковый робот для архивирования веб-сайтов в файлы WARC. Он включает в себя панель инструментов для мониторинга нескольких обходов и поддерживает изменение шаблонов игнорирования URL-адресов во время обхода.
WebScrapBook — это расширение для браузера, которое точно захватывает веб-страницу с различными форматами архивов и настраиваемыми конфигурациями. Этот проект унаследован от устаревшего дополнения Firefox ScrapBook X. Веб-страницу можно сохранить в виде папки, архивного файла в формате zip (HTZ или MAFF) или отдельного HTML-файла (опционально в качестве расширения). Архивный файл можно просмотреть, открыв индексную страницу после распаковки, используя встроенную программу просмотра архивных страниц или другие вспомогательные инструменты.
↓ 06 – Архиварикс |
200 файлов бесплатно | ОнлайнЗагрузчик веб-сайтов и система управления контентом (CMS), преобразователь существующего сайта. Загрузите весь живой веб-сайт — 200 файлов бесплатно! Возможность загрузки .onion сайтов! Их система загрузки веб-сайтов позволяет бесплатно загружать до 200 файлов с веб-сайта. Если файлов на сайте больше и все они вам нужны, то вы можете оплатить эту услугу. Стоимость скачивания зависит от количества файлов. Вы можете скачать с существующих веб-сайтов, Wayback Machine или Google Cache.
↓ 07 – Загрузчик веб-сайтов [Не бесплатно] |
OnlineЗагрузчик веб-сайтов, копировщик веб-сайтов или Ripper веб-сайтов позволяет загружать веб-сайты из Интернета на локальный жесткий диск вашего компьютера. Загрузчик веб-сайтов упорядочивает загруженный сайт по относительной структуре ссылок исходного веб-сайта. Загруженный веб-сайт можно просмотреть, открыв одну из HTML-страниц в браузере.
После клонирования веб-сайта на жесткий диск вы можете открыть исходный код веб-сайта с помощью редактора кода или просто просмотреть его в автономном режиме с помощью браузера по вашему выбору. Site Downloader можно использовать для разных целей. Использовать программное обеспечение для загрузки с веб-сайта действительно просто, ничего не загружая.
- Резервные копии. Если у вас есть веб-сайт, у вас всегда должна быть свежая резервная копия веб-сайта на случай, если сервер сломается или вас взломают. Загрузчик веб-сайтов — это самый быстрый и простой способ сделать резервную копию вашего веб-сайта, он позволяет загружать весь веб-сайт.
- Автономный загрузчик веб-сайтов — загрузите веб-сайт в автономном режиме для дальнейшего использования, к которому вы можете получить доступ, скажем, даже без подключения к Интернету. когда вы в полете или на отдыхе на острове!
Обновлено 9 января, 2022 / Категория: Веб-инструменты, услуги и ресурсы / Автор: Нган Тенгюен
Наш гигантский путеводитель по сохранению вашего сайта
Обслуживание вашего веб-сайта предполагает наличие специальной стратегии резервного копирования. Хотя резервные копии необходимы, они не являются единственным способом сохранить ваш сайт. Естественным дополнением к резервному копированию является архивирование веб-сайта, хотя это и дополняющие друг друга процессы.
Существует несколько гибких способов архивации веб-сайта. Хорошая новость заключается в том, что все они удобны и доступны. Вам просто нужно выбрать правильное решение для ваших потребностей и требований.
В этом посте мы рассмотрим, как заархивировать веб-сайт. Мы также рассмотрим различные типы архивирования, с которыми вы столкнетесь, рассмотрим несколько наиболее известных инструментов архивирования сайтов и обсудим несколько советов по архивированию вашего сайта.
Предпочитаете смотреть видеоверсию?
Введение в архивирование веб-сайтов
Архивирование веб-сайта означает сохранение содержимого, данных и мультимедиа для дальнейшего использования. Используя специальный сервис, такой как Wayback Machine (хотя о других решениях мы поговорим позже), вы можете просматривать старые версии веб-сайтов.
Как выглядел сайт Kinsta в 2015 году — мы прошли долгий путь!На техническом уровне поисковые роботы делают снимки веб-сайта, которые составляют сам архив. Вы можете получить к нему доступ с помощью простого календаря и просмотреть каждую итерацию в формате временной шкалы, если хотите.
Архив календаря Wayback Machine для веб-сайта Kinsta.Что касается того, почему существуют такие решения, как Wayback Machine, мы должны вернуться к началу 2000-х годов. Пузырь доткомов чуть не лопнул; многие предприятия разорялись. Некоторые популярные веб-сайты были закрыты или заброшены, и о них осталось мало воспоминаний.
Подобно другим медиа-форматам до Интернета, таким как музыка и телевидение, эти веб-сайты имели историческую и ностальгическую ценность. Сохранить их означало дать будущим интернет-пользователям представление о том, как далеко мы ушли от более ранних технологий.
Интернет-архив запустил Wayback Machine, чтобы помочь сохранить веб-сайты. Если сайт был заархивирован там, вы можете увидеть, как сайт развивался с годами.
Для архивирования веб-сайта требуется множество поисковых роботов, в том числе масштабные отдельные обходы, выполнение которых может занять годы. Трудозатраты, необходимые для выполнения обходных «экспедиций» и хранения полученных снимков, огромны.
Например, первый сервер Wayback Machine объемом 100 терабайт (ТБ) заработал в 2004 году. К концу 2020 года Wayback Machine хранила более 70 петабайт (ПБ) данных. Это более 70 000 терабайт.
Однако не всем нравится работа Интернет-архива. Было несколько дискуссий и юридических проблем, основанных на том, нарушает ли архив веб-сайта существующие проблемы с авторским правом.
Тем не менее, учитывая значительный рост количества хранимых архивов, явное желание сохранить веб-сайты.
Готовы заархивировать свой сайт? 👀 Хорошие новости: это достаточно удобный процесс. 😄 Самая важная часть — это выбор правильного решения для нужд и требований вашего сайта. Посмотреть все варианты можно здесь ⬇️Нажмите, чтобы твитнуть
Почему вы хотите заархивировать веб-сайт
Существует множество причин, по которым вы хотите заархивировать веб-сайт, помимо просто ностальгических причин. Для реальной аналогии посмотрите на GitHub.
Инфраструктура GitHub очень похожа на интернет-архив.Github хранит репозитории проекта вместе с каждым сделанным «коммитом». Чтобы сравнить это с интернет-архивированием, репозитории представляют собой весь архив, а коммиты — это моментальные снимки.
В той же степени, в какой ценны репозитории Git, ценен и архив. Например, вы можете просмотреть предыдущие версии своего сайта — даже многолетней давности — чтобы повлиять на текущий выбор дизайна.
Кроме того, по закону вы можете быть обязаны архивировать свой сайт, особенно если вы работаете в финансовой или юридической сфере.
Наконец, если вам не повезло оказаться вовлеченным в судебный процесс вокруг вашего сайта, ваши архивы будут ценным доказательством. Если вы можете предоставить четкие и полные архивы сайта, вы можете избежать споров еще до того, как в дело вступит суд.
Разница между резервным копированием и архивированием
Прежде чем мы поговорим о различных доступных типах веб-архивирования, стоит вернуться к теме, которую мы затрагивали ранее. На бумаге резервная копия сайта и архив сайта кажутся похожими. Однако они выполняют разные работы, которые дополняют друг друга. В двух словах:
- Резервные копии основаны на данных. Они больше заботятся о сохранении данных вашего сайта. Учитывая, что резервные копии жизненно важны, если вам нужно восстановить свой сайт, наличие полной резервной копии ваших данных имеет первостепенное значение.
- Архивы сохраняют контекст вместо данных. Если вы просмотрите архив вашего любимого веб-сайта, вы заметите, что функциональность часто неоднородна. Однако дизайн сайта и статическое содержимое обычно остаются нетронутыми.
Стоит отметить, что архивирование не означает полного отказа от усилий по сохранению данных. Действительно, одним из преимуществ является то, что пользователи могут перемещаться по вашему сайту, как если бы он был живым. Тем не менее, учитывая, что такие сайты, как Wayback Machine, существуют как виртуальная «дорожка памяти», сохранение визуальных элементов в неизменном виде имеет более высокий приоритет, чем сохранение функциональности серверной части.
Короче говоря, вам следует использовать для своего сайта как резервные копии, так и архивы — первое для ежедневной защиты на случай непредвиденных обстоятельств, а второе — как дополнительный способ документирования эволюции вашего сайта.
Различные типы веб-архивирования, с которыми вы столкнетесь
Веб-архивирование не бывает одного вида. Есть несколько различных типов, с которыми вы столкнетесь. Вот разбивка каждого из них:
- На стороне клиента: Это включает в себя сохранение конечным пользователем версии рассматриваемого веб-сайта. Это просто, масштабируемо и позволяет архивировать веб-сайт без суеты.
- На стороне сервера: Подход Wayback Machine и других классифицируется как архивирование на стороне сервера. Он использует поисковые роботы и другие технологии для архивирования веб-сайта, но также требует определенного уровня согласия, которого нет при архивировании на стороне клиента.
- На основе транзакций: Хотя это по-прежнему основано на архивировании на стороне сервера, оно более сложное и требует явного согласия владельца сайта. По сути, он архивирует транзакции сайта между конечным пользователем и сервером.
Для простых веб-сайтов со статическими данными в сочетании с организованной стратегией архивирования подойдет архивация на стороне клиента. Однако большинство других сайтов предпочитают архивы на стороне сервера — для большинства веб-сайтов архивирование на основе транзакций не требуется.
Наконец — и мы обсудим это более подробно в этой статье — вам также следует подумать о том, где и как хранятся ваши архивы. Например, локальный архив — неплохой выбор, но вы можете увидеть, как он исчезнет, если у вас произойдет сбой компьютера. С другой стороны, у вас будет меньше контроля над тем, что заархивировано, если вы выберете стороннее решение.
Как и следовало ожидать, ответ здесь заключается в использовании многогранного подхода к архивированию веб-сайта. Мы предлагаем относиться к архивам как к резервным копиям: хранить три разные копии в разных местах и как-то синхронизировать.
Возможно, вам также захочется сделать один из архивов живым, чтобы вы могли воспользоваться всеми серверными функциями вашего сайта. Результатом стал веб-сайт с надежной стратегией резервного копирования и архивирования, который остается полезным для других.
Руководство для начинающих по инструментам и сайтам интернет-архивирования
Существует множество решений для архивирования веб-сайтов. Мы рассмотрим несколько наиболее популярных из них, а также выскажем свое мнение о том, как они могут вам подойти.
1. Машина обратного пути
Машина обратного пути.Прежде всего, давайте обсудим Wayback Machine. Он был первым в своем роде, поэтому он стал эталоном для других инструментов архивирования.
Таким образом, это, вероятно, будет первое место при поиске архива веб-сайта. У него есть много способов создавать и загружать архивы, и даже специальный API для подключения к его функциям. Стоит отметить, что это также решение для архивирования на стороне сервера.
Тем не менее, из-за того, как он сканирует и архивирует веб-сайты, Wayback Machine может не сохранить все функции вашего сайта. Тем не менее, он считается отраслевым стандартом для веб-архивистов, и его можно загрузить совершенно бесплатно. Далее в этой статье мы более подробно покажем вам, как заархивировать веб-сайт с помощью Wayback Machine.
2. Archive.today
Сайт Archive.today.Далее идет Archive.today. Он во многом похож на Wayback Machine — вплоть до почти «ретро» дизайна сайта. Его серверы данных расположены в Европе, но подход к архивированию отличается от подхода Wayback Machine.
Начнем с того, что Archive.today не основан на сканерах, работающих в Интернете. Вместо этого вы отправляете свои URL-адреса и соглашаетесь на включение в архив. Кроме того, его список функций более простой, чем у других решений. Например, не существует надежной политики удаления, а процесс архивирования исключает определенные типы носителей и файлов.
Тем не менее, это бесплатно и подходит, если вы хотите бесплатное место для хранения архивов. На сайте даже есть функция поиска, чтобы найти ранее заархивированные сайты.
3. Heritrix
Веб-сайт Heritrix.До сих пор мы упоминали Интернет-архив и Wayback Machine почти как синонимы. Однако Wayback Machine — это всего лишь один сервис, а Internet Archive помимо него предлагает несколько других продуктов для архивирования. Heritrix — это бесплатный инструмент с открытым исходным кодом, созданный в результате сотрудничества Internet Archive и библиотек стран Северной Европы.
По сути, это поисковый робот, а не полнофункциональный инструмент для архивирования. Однако вы можете упаковать все результаты обхода вместе. Хотя в прошлом этого не было, Wayback Machine теперь использует Heritrix для сканирования сайтов для включения на свой собственный сайт. Более того, большое количество библиотек и учреждений используют Heritrix для создания архивов.
Несмотря на впечатляющие возможности, установка Heritrix требует определенных технических знаний. Для его установки нет удобного интерфейса, поэтому вам понадобятся знания Git, GitHub и командной строки.
Как и другие подобные решения, Heritrix можно использовать совершенно бесплатно, поэтому он подходит в качестве экономичного решения для самостоятельного архивирования.
4. Уровень интеграции веб-архивирования (WAIL)
Веб-сайт уровня интеграции веб-архивирования (WAIL).Если вы ищете Heritrix для архивирования веб-сайта, но вас отталкивают технические знания, необходимые для простой установки программного обеспечения, для вас есть потенциальное решение. Уровень интеграции веб-архивирования (WAIL) — это бесплатное кроссплатформенное настольное приложение с открытым исходным кодом, которое предоставляет вам функциональный графический интерфейс пользователя (GUI) для использования вместе с программой установки.
Хорошей новостью является то, что Heritrix — это поисковая система WAIL. Это означает, что вы можете использовать всю мощь Heritrix без использования GitHub и командной строки. Кроме того, WAIL использует движок OpenWayback для «воспроизведения» веб-архивов.
Таким образом, у вас есть полнофункциональный инструмент веб-архивирования, готовый к работе на вашем компьютере. Мы также покажем вам, как именно работает WAIL, позже в этой статье.
5. Стиллио
Веб-сайт Стиллио.Наше предпоследнее средство архивации позиционируется как автоматизированное решение, которое делает моментальные снимки с заданными интервалами. Stillio — это сервис премиум-класса, который выглядит и работает иначе, чем другие решения для архивирования.
Веб-сайт выглядит стильно и предлагает множество вариантов создания архива, точно отвечающего вашим требованиям. Например, вы можете добавлять теги и пользовательские заголовки к своим URL-адресам.
Более того, вы можете хранить архивы в Dropbox, Google Drive и других сторонних сервисах.
Однако у Стиллио есть один огромный недостаток: он не поддерживает внутреннее архивирование. Вы ограничены скриншотами своего веб-сайта, а не полным архивом данных. Для многих приложений этого недостаточно.
Однако в некоторых случаях Stillio может быть полезен, например, в качестве инструмента управления брендом и отслеживания. Например, вы можете делать скриншоты сайтов конкурентов или результатов поисковой системы. Это также отлично подходит для проверки контента.
Цены на Stillio начинаются с 29 долларов в месяц и повышаются на четырех уровнях до 299 долларов в месяц. Это большой вопрос, особенно когда есть бесплатные альтернативы с более мощными функциями. Но если он идеально подходит для вашего варианта использования, то стоит взглянуть!
Подпишитесь на информационный бюллетень
Хотите узнать, как мы увеличили трафик более чем на 1000%?
Присоединяйтесь к более чем 20 000 других людей, которые получают нашу еженедельную рассылку с советами по WordPress, посвященными инсайдерской информации!
Подпишитесь сейчас
6.
Pagefreezer Веб-сайт Pagefreezer.Наше окончательное решение — еще один автоматизированный инструмент. Pagefreezer предлагает многие из тех же преимуществ, что и Stillio, но также архивирует контент социальных сетей, текстовые сообщения, полные сайты и платформы для совместной работы на уровне предприятия.
На первый взгляд Pagefreezer кажется более надежным решением, чем Stillio, и будет иметь большую ценность в различных случаях использования.
Например, если по закону требуется полностью заархивировать сайт, Pagefreezer отвечает всем требованиям. Это позволяет вам автоматизировать количество снимков и просматривать их с помощью браузера архива сайта и инструмента сравнения.
В целом, Pagefreezer — отличное корпоративное решение для архивирования на рабочем месте. Компании, использующие Yammer или Salesforce Chatter, будут тяготеть к этому типу решения, как и пользователи Workplace.
Что такое формат файла веб-архива (WARC)?
Если вы изучаете, как заархивировать веб-сайт, вы столкнетесь с форматом веб-архива (WARC). Это упакованная комбинация различных файлов архива вашего сайта, поэтому она портативна и автономна.
Интернет-архив создал WARC для долгосрочного хранения веб-данных. Международный консорциум по сохранению в Интернете (IIPC) опубликовал полную спецификацию формата файла. Он будет хранить изображения, метаданные и практически все, что нужно вашему сайту для автономной работы.
Хотя изначально это был просто удобный формат файлов, теперь WARC является международным стандартом ISO для цифровых архивов. Таким образом, он был принят правительствами и другими официальными органами. На самом деле, есть несколько случаев использования, когда файл WARC жизненно важен:
- Электронное обнаружение : Это процесс во время судебного разбирательства, когда цифровые записи исследуются и представляются для включения в судебный процесс. Для записей социальных сетей файл WARC соответствует юридическим стандартам электронного обнаружения.
- Свобода информации (FOI): Многие правительства и официальные органы используют законы о свободе информации и Open Records, чтобы предложить услугу «Право знать» (RTK) избирателям штата. Формат WARC идеально подходит для случаев, связанных с цифровыми записями.
WARC используется многими различными решениями для архивирования и сканерами, такими как StormCrawler и Apache Nutch. Вы также можете настроить параметры инструмента командной строки, такого как Wget, для получения и упаковки запросов в виде файлов WARC. Мы обсудим это более подробно в ближайшее время.
Существует множество других инструментов, которые также могут выводить данные в файлы WARC. Например, это может сделать инструмент для сохранения веб-страниц с открытым исходным кодом Wallabag.
В качестве альтернативы, сайт захвата — это веб-приложение, помогающее сканировать архивы в виде файлов WARC.
Открытие файла WARC зависит от используемого инструмента. Независимо от того, какое решение вы предпочитаете, имейте в виду, что некоторые из этих инструментов давно не обновлялись.
Таким образом, вы должны убедиться, что выбранное вами решение работает с вашей текущей системой и что оно будет доступно для использования в будущем. Вы избавите себя от множества головных болей, если избежите инструмента, который может быть прекращен или заброшен, пока вы находитесь в середине проекта архивирования.
Советы по управлению автономными архивами
Прежде чем мы перейдем к архивированию веб-сайта, давайте уделим несколько минут тому, чтобы помочь вам организовать существующие архивы. Мы коснулись этой темы, но наличие надежного подхода сделает ваши архивы более управляемыми. Пользователи вашего сайта также получат больше пользы от хорошо организованного архива.
Необходимо помнить о трех ключевых элементах:
- Частота: Решите, как часто вы хотите архивировать сайт. Огромные, динамичные, сложные сайты с почти ежедневными изменениями потребуют более частых моментальных снимков, чем статические сайты.
- Расположение: Так же, как и резервные копии, вы должны хранить архивы в нескольких разных местах, в том числе в облаке. Следуйте правилу 3-2-1 для дополнительной уверенности. Мы также предлагаем больше, если вы хотите захватить всю глубину вашего сайта.
- Структура: Как и каталоги вашего компьютера, вы должны использовать явные папки, разделенные на имена архивов сайтов и дату архивирования конкретного сайта.
Несмотря на то, что вы можете расширить администрирование архива, эти три совета помогут начать архивирование с правильной ноги.
5 способов заархивировать сайт
Ниже мы предложим пять различных способов заархивировать сайт. Мы упорядочили решения в зависимости от их относительной сложности. Однако, если вы найдете решение, которое, по вашему мнению, будет работать для ваших текущих потребностей, не стесняйтесь погрузиться в него и найти больше.
1. Сохранение одной страницы на локальном компьютере
Прежде всего, давайте обсудим самое простое решение. Отлично, если нужно заархивировать одну страницу, а еще лучше, функционал уже есть практически в каждом браузере.
Для начала откройте свой любимый браузер и перейдите на веб-сайт, который хотите заархивировать. После загрузки страницы перейдите в меню Файл вашего браузера и найдите параметр Сохранить страницу как :
Меню Файл Firefox содержит функции, необходимые для сохранения отдельной веб-страницы.Затем щелкните параметр, чтобы сохранить страницу, и в этот момент браузер покажет вам диалоговое окно.
Здесь выберите имя для вашей страницы (хотя по умолчанию все в порядке). Кроме того, убедитесь, что вы сохраняете всю страницу, а не только HTML. Это позволит сохранить сайт с максимально возможной функциональностью.
2. Используйте DevKinsta для архивирования вашего веб-сайта WordPress
DevKinsta также может помочь вам архивировать веб-сайт.Мы считаем DevKinsta важным инструментом для создания и развертывания веб-сайтов WordPress. Тем не менее, у него также есть еще одна особенность: он также помогает вам архивировать ваши веб-сайты, размещенные на Kinsta.
Мы рассмотрели весь процесс загрузки внешней резервной копии MyKinsta в DevKinsta в одной из статей нашей базы знаний. Подведем итог:
- Создайте и загрузите резервную копию в MyKinsta.
- Создайте новый сайт с помощью DevKinsta.
- Импортируйте свой контент и базу данных.
- Выполните поиск и замену в своей базе данных, чтобы изменить имя URL-адреса с вашего работающего сайта на новый локальный архив.
На этом этапе вы можете открыть свой сайт в DevKinsta и использовать его так, как будто он работает.
3. Используйте онлайн-архив (например, Wayback Machine)
Ни один учебник не будет полным без демонстрации того, как работает Wayback Machine. К счастью, процесс прост. Тем не менее, обратите внимание, что этот метод позволяет архивировать только отдельные страницы (хотя служба Archive-It по подписке позволяет архивировать полные сайты).
Для этого подхода перейдите на домашнюю страницу Wayback Machine и проверьте форму «Сохранить страницу сейчас» :
Форма «Сохранить страницу сейчас» на веб-сайте Wayback Machine.Чтобы заархивировать страницу, просто добавьте URL-адрес, который вы хотите сохранить, в эту форму, затем нажмите Сохранить страницу . В зависимости от того, насколько велика или сложна страница, вам может потребоваться подождать несколько минут, пока поисковый робот и поисковая система сделают свое дело. Возможно, страница выглядит так, как будто она разбилась. Некоторое время во время тестирования мы сталкивались с белым экраном смерти (WSoD).
Однако, как только страница будет заархивирована, Wayback Machine перенаправит вас на новую выделенную страницу.
Страница Kinsta, заархивированная на Wayback Machine.Обратите внимание, что вы также можете использовать букмарклет и расширение браузера для архивации веб-сайта. На самом деле, большинство современных браузеров имеют эти опции по умолчанию, включая Google Chrome, Firefox и Safari.
4. Установите уровень интеграции веб-архивирования (WAIL)
Первым шагом при таком подходе является загрузка самого WAIL и его установка. К счастью, для этого инструмента есть специальный установщик (хотя, поскольку программа написана на Python, она использует модуль PyInstaller).
Процесс установки очень прост. Независимо от вашей операционной системы (ОС) вы можете выполнить следующие действия:
- Перейдите на веб-сайт WAIL и загрузите соответствующий установщик для вашей ОС.
- Либо разархивируйте файл для версии Windows, либо смонтируйте образ DMG для macOS.
- В появившемся диалоговом окне для macOS перетащите значок приложения в папку Applications . Для пользователей Windows просто перетащите разархивированную папку в корневую папку 9029.9 диск С:\.
- Запустите либо WAIL.app , либо WAIL.exe (в зависимости от вашей ОС).
Когда WAIL открыт, вы увидите его минимальный интерфейс:
Интерфейс WAIL предоставляет вам три варианта.Теперь вам предлагается три варианта на выбор: просмотреть архив, проверить его статус или заархивировать веб-сайт. Кнопки немного сбивают с толку, так как вы можете читать слева направо. Однако при первом запуске в ваших архивах ничего не будет.
Вместо этого введите URL-адрес сайта, который вы хотите заархивировать, и нажмите Архивировать сейчас! Вы увидите, как WAIL начнет сканировать веб-сайт. Статус обхода можно проверить на вкладке Advanced > Heritrix :
WAIL показывает текущий статус задания обхода.Когда это будет сделано, вы увидите сообщение «Успешно». На этом этапе вы можете нажать кнопку View Archive на вкладке Basic . Это откроет ваш заархивированный сайт в браузере, готовый для просмотра.
5. Используйте Wget, если вам удобно использовать командную строку
Для нашего последнего метода архивации веб-сайта вам потребуется несколько вещей, прежде чем вы начнете:
- Доступ к компьютеру из командной строки
- Подходящий инструмент командной строки, такой как командная строка Windows или терминал в macOS и Linux
- Wget установлен на вашем компьютере
Вероятно, первые два у вас уже есть.
В macOS вы можете установить Wget через Homebrew с помощью команда brew install wget
. Обратите внимание, что вам также необходимо установить Homebrew, но это займет всего несколько секунд. В Linux Wget предустановлен в большинстве основных дистрибутивов.
Если вы пользователь Windows, вам может быть сложнее установить Wget на свой компьютер. Несмотря на то, что в Интернете доступны учебные пособия, их рекомендации не согласуются между машинами. Вместо этого мы рекомендуем вам зайти на официальный веб-сайт Wget и проверить некоторые из доступных двоичных файлов Windows, так как они, скорее всего, вам подойдут.
Несмотря на это, после того, как вы установили Wget, пользоваться им несложно. Сначала перейдите в каталог в новом окне терминала. Здесь мы тоже создаем каталог, но этот шаг необязателен:
cd documents && mkdir archive && cd archive
Обратите внимание, что Wget вытянет все загрузки в любой рабочий каталог. В этом случае мы указали папку для наших файлов.
Далее вам нужно просканировать сайт и извлечь файлы. Каждое действие вызывается с помощью wget
, и вы захотите использовать следующий формат:
wget "https://kinsta.com/" --warc-file="kins"
Нажатие клавиши Enter начнется загрузите kinsta.com в файл index.html и создайте файл WARC с именем kins-00000.warc.gz .
Сайт заархивирован как файл WARC. Wget мощный, и вы можете использовать множество команд и параметров. Например, вы можете использовать --mirror
для создания файла WARC, содержащего полное зеркало вашего сайта. Вы также можете использовать команду --no-warc-compression
для записи несжатых файлов, хотя это, очевидно, займет больше места при загрузке. Использование встроенного компрессора является оптимальным подходом.
Архивирование веб-сайта немного похоже на изготовление капсулы времени ⏳. .. и, к счастью, с помощью этого руководства легко начать работу. ✅Нажмите, чтобы твитнуть
Резюме
Веб-архивирование выросло из необходимости документировать быстро меняющуюся форму Интернета. Теперь у него есть несколько допустимых приложений — например, в случае юридических файлов и требований. Независимо от ваших потребностей наличие хорошо структурированного и организованного архива может дополнить вашу общую стратегию резервного копирования.
К счастью, есть множество способов помочь. Большинство браузеров предлагают возможность сохранять веб-страницы на вашем компьютере, хотя такие решения, как DevKinsta, также являются подходящими инструментами для работы. Однако специализированные инструменты архивирования, такие как Wayback Machine, Heritrix, WAIL и Wget, являются особенно надежными решениями и предлагают для работы стандартизированные форматы файлов.
Эта статья побудила вас заархивировать собственный веб-сайт? Поделитесь своими мыслями и мнениями в разделе комментариев ниже!
Экономьте время, затраты и повышайте производительность сайта с помощью:
- Мгновенная помощь от экспертов по хостингу WordPress, круглосуточно и без выходных.