четвер, 28 жовтня 2021 р.

Архіватори. Типи архівних файлів. Операції над архівами

 

Архіватори. Типи архівних файлів. Операції над архівами

 

Архівування — це збереження інформації у стисненому вигляді ( архівів).


Архіватор — це програма для роботи з архівами.

Зазвичай архівування застосовують для зменшення об’єму файлів з інформацією, яку використовують не часто.

 Примітка. Уражений вірусом файл в архіві не є шкідливим.

 Як випливає з означення, архіватори належать до сервісного спеціального програмного забезпечення.

Додаткові переваги архівування:

·         архіватори створюють один файл — архів, замість декількох файлів даних. Це може бути корисним при електронному листуванні;

·         можна відновити інформацію з архіву після технічних проблем з пристроями, програмами, після вірусних атак (за умови, що вірус не зачепив власне архівний файл).

 

Основні характеристики архіваторів:

·         рівень стискання — відношення розмірів інформації незаархівованої до заархівованої;

·         швидкість стискання і розкривання архівів — час, за який виконується стискання деякої кількості інформації.

Назви програм для архівації: ARK, ZIP, WinZIP, PeaZip, 7-Zip (7z), TAR, GZIP, BZIP2, COMPRESS, ARJ, WinRAR.


Операції з архівами:

·         cтворення нового архіву;

·         додавання файлів у архів;

·         видобування файлів з архіву;

·         оновлення файлів в архіві;

·         створення архівів, що самовидобуваються (self-extract archive);

·         cтворення багатотомного архіву;

·         захист архіву паролем від несанкціонованого доступу;

·         перегляд вмісту без попереднього видобування;

·         пошук файлів і даних всередині архіву;

·         перевірка на віруси в архіві до видобування;

·         вибір і налаштування коефіцієнту стискання.

Згадаймо: формат (розширення імені файлу, тип файлу) вказує на те, якою програмою було створено файл або за допомогою яких програм його можна переглядати чи редагувати. Перелічимо типи архівів та назви архіваторів (сучасні архіватори можуть опрацьовувати архіви різних типів).

Формат файлу архіву

Архіватор

.arj

ARJ

.bz2

BZIP2

.gz

GZIP

.rar

WinRAR

.tar

TAR

.z

COMPRESS

.zip

ZIP, PKZIP, WinZIP

.7z

7-ZIP

За користування деякими архіваторами потрібно платити (WinRAR), за користування іншими — ні (7z), а деякі встановлюють одночасно зі встановленням операційної системи Linux (ARK).


Види (типи) архівів:

·         багатотомні (архів складено з кількох окремих файлів-томів, сталий розмір тому задає користувач) і однотомні (архів — один файл);

·         саморозгортувані (англійською self-extracting archive, SFX archive, містять програмний код для самостійного відновлення файлів з архіву, тому не потребують програму-архіватора для опрацювання) і звичайні (потребують програму-архіватор для опрацювання);

·         захищені паролем i незахищені паролем.

 

Методи роботи архіваторів:

·         заміна однакових послідовностей (Run Length Encoding, RLE);

·         видалення надлишкової інформації;

·         кодування Хаффмана — Шеннона;

·         кодування за ключовими словами (KeyWord Encoding, KWE), наприклад, кодування Лемпеля — Зіва — Велча.

Метод заміни однакових послідовностей — найвідоміший і найпростіший підхід до стискання інформації — зводиться до пошуку однакових послідовностей символів і заміна їх коротшим кодом. Замість послідовності однакових кодів записують новий код, що складається з двох частин — самого коду та коду кількості його повторень.


Примітка. Якщо жоден код не повторюється підряд, то за таким алгоритмом буде отримано удвічі довший код.


Розглянемо приклад стискання тексту методом заміни однакових послідовностей. Нехай у кінці рядка деякого тексту стоїть 40 пропусків. Стиснемо цей фрагмент однакових символів рядка. Якщо 1 символ займає 1 байт пам’яті (наприклад, при кодуванні ANSI), то 40 символів пропуску займають 40 байт до перекодування, і 2 байти — після.

Цей метод використовують у популярних архіваторах ARJ, RAR, ZIP, …..

Розглянемо, як працює цей метод за умови, що код кольору пікселя займає 1 байт. Інакше кажучи, за умови, що піксель зображення може мати лише один із 256 різних кольорів. Проілюструємо його роботу із зображенням розміру 2×18 пікселів:

·         перший рядок містить 6 чорних, 8 сірих і 4 білих пікселя;

·         другий рядок містить 5 чорних і 13 сірих пікселів.


Кожен такий рядок займає по 18 байт пам'яті.

Для простоти опису позначимо код чорного кольору літерою Ч, сірого — літерою С, білого — літерою Б. Тоді рядки буде закодовано послідовностями 6Ч8С4Б та 5Ч13С, які займуть відповідно по 6 та 4 байти пам'яті.

Застосуємо до отриманого коду 6Ч8С4Б той самий метод стискання. Отримаємо код 61Ч181С141Б1, що займає 12 байт.

Примітка. При повторному стисканні зображень довжина коду може зростати.

 Метод видалення надлишкової інформації полягає у вилученні неважливої для сприйняття людиною інформації.


Найвідоміші такі методи:

JPEG — метод стискання графічних даних, який використовує той факт, що чутливість людського ока щодо розрізнення кольорів нижча, ніж та, яка технічно досяжна. При глибині кольору 24 біти комп’ютер забезпечує показ більше 16 мільйонів різних кольорів. А людина зазвичай може розрізнити не більше сотні кольорів і відтінків. Тому близькі за значенням коди кольорів можна замінити їх середньо величиною, бо людина однаково не помітить різницю. Використання методу JPEG дозволяє стискати файли в десятки разів при втраті інформації без можливості її відновити надалі;

MP3 — метод стискання звукових даних — працює у два етапи. Спочатку — видалення надлишкової інформації, тобто видалення коливань з частотами, які пересічна людина не сприймає. У цьому методі також закладено алгоритм видалення шумів — зайвих частот. Тому це є стиснення з втратами, які неможливо відновити. Далі використовують стискання інформації про частоти описаним раніше методом заміни однакових послідовностей. Таким чином звукові файли стискають зі швидкості подання інформації (bit rate) 1141 Кбіт/с до 128 Кбіт/с.

MPEG — метод стискання відеоданих — скорочує обсяг інформації таким чином. Спочатку видаляють часткову надлишковість відео. Прикладом такої надлишковості є повторення фрагментів. Цю надлишковість видаляють заміною послідовностей, що повторюються, посиланням на вже закодований фрагмент з даними про його довжину. Інший вид надлишковості полягає в тому, що деякі величини в даних зустрічаються частіше від інших. Скорочення об'єму даних відбудеться за рахунок заміни даних, які зустрічаються частіше від інших, короткими кодовими словами. Видаляють просторову надлишковість відеозображень шляхом нехтування дрібними деталями. Видаляють частину інформації про кольори. Збільшують щільність цифрового інформаційного потоку вибором оптимального математичного коду для його опису.

Поширені типи файлів графіки gif, tiff, pcx, jpg, png і відеоданих avi містять інформацію вже у стисненому вигляді. При спробі їх стиснути можемо отримати файли більшого об'єму.

Кодування Хаффмана — Шеннона і алгоритму Лемпеля — Зіва — Велча та їхні математичні основи вивчають у вищій школі. Тому детальне знайомство з ними відкладемо на майбутнє.

Коефіцієнт стискання — основну характеристику алгоритму стискання — визначають як відношення початкового об'єму нестиснутих даних до об'єму стиснутих даних:

k = S0 / S.

Тут k — коефіцієнт стискання, S0 — початковий об'єм даних, S — об'єм стиснутих даних. Таким чином, чим більший коефіцієнт стискання, тим ефективніший алгоритм стискання.

Образ диску — це файл архіву, що містить у собі не лише власне дані, розташовані на оптичному носії, але й інформацію про те, як вони розташовані на диску. Запис певної інформації у певні сектори необхідний при створенні завантажувальних дисків, з яких можна завантажити і встановити операційну систему.

З появою оптичних носіїв (CD, DVD) почали використовувати образи CD/DVD у форматі ISO. Цей формат — найпоширеніший. Поряд з ним використовують і інші: IMG, DMG, VCD, NRG, MDS/MDF, DAA, PQI, VDF і CCD/IMG/SUB.

Образ оптичного диску можна використати як для створення фізичних оптичних дисків, так і для створення віртуальних оптичних дисків за допомогою відповідних програм. Образи дисків використовують для масової установки програмного забезпечення на комп'ютери з однаковою конфігурацією. Для цього на один комп'ютер встановлюють всі драйвери і необхідне програмне забезпечення, після чого створюють образ диска, який згодом встановлюють на решту комп'ютерів.

Запис даних на оптичний диск (як простого набору даних, так і згідно з образом) зазвичай здійснюють за допомого спецiальних програм. Наприклад, Windows 7 USB/DVD Download Tool при ОС Windows може здійснити запис завантажувального диску і на DVD, і на USB-flash накопичувач. При операційній сиситемі Linux це роблять за допомогою відповідно K3b і UNetbootin. Опис відповідних дій подано у розробці практичної роботи, яку можна переглянути і виконати самостійно.

UDF (англійською Universal Disk Format — універсальний дисковий формат) — формат файлової системи для збереження файлів на оптичних носіях, розроблений в Optical Storage Technology Association (OSTA). Почав набувати популярності, починаючи з середини 1990-х, коли з'явилися CD-RW носії і пристрої, здатні їх записувати у пакетному режимі запису. Є наступником ISO 9660, підтримує великі файли і ємність дисків, може надати додаткову інформацію про окремий файл і каталог. Має обмеження на розмір файлу 2 TB.

З оптичним носієм можна працювати так само, як і з розділом жорсткого диску. За для цього оптичний носій форматують у форматі UDF. Після цього з ним можна працювати, як із розділом звичайного жорсткого диску, наприклад, копіювати на нього інформацію.


Примітка. З оптичного диску, не призначеного для перезапису, неможна видаляти інформацію. Форматований в UDF форматі диск вміщує менше інформації, ніж звичайний. Оптичний диск, не відформатований в UDF форматі, дозволяє лише послідовний запис інформації.

Немає коментарів:

Дописати коментар

Архів блогу