003_copy
city_one_minute_web
tech
web
dsc_5186
web5
web
Mos-08-127_copy_web
242242
Wout_web
warphoto-04-242
web_2
movies_242x242
Cindy_Sherman-web
sait
anaganuma01q
web
lec
Ps
Каталогизация и хранение цифровых данных PDF Print E-mail

 

Оцифрованные артефакты надо хранить таким образом, чтобы в огромном массиве сохраняемых цифровых данных было легко найти нужные. Это относится к текстовым, видео, звуковым и графическим файлам. Учитывая специфику сайта мы сосредоточим внимание на фотографиях, цифровых или оцифрованных.

Итак, начнем с простейшего: с названия файла. Их можно номеровать (значащие названия файлов делают каталоги слишком громоздкими и в них трудно бывает отыскать нужное), но при этом располагать в каталогах по названиям. Например - 0001.tif в каталоге «St-ptbrg_1909», для посвященного будет означать первый снимок из коллекции «Санкт-Петербург. 1909 год». Три первых нуля нужны в случае, когда снимков в каталоге будет больше 999. Сортировка файлов в большинстве операционных систем следит за цифрами, и кадр «2» поставит перед кадром «20». Это имеет отношение, скорее, к красоте и аккуратности, особенно, если файлы не имеют осмысленной временной последовательности. Современные операционные системы поддерживают наименования каталогов, включающие и длинные пробелы, и большое количество знаков. В случае, если ваша коллекция может окажется на компьютере с другой системой или в каком-нибудь web-браузере, поэтому лучше прибегнуть к не очень длинным названиям каталогов, написанных латиницей.

Понятно, что каталоги можно вкладывать один в другой чуть ли не до бесконечности, однако и тут полезно соблюдать определенную умеренность, чтобы предотвратить громоздкость, задержку при открытии, да и копаться в ветвистых деревьях оказывается головоломно.

В каждый из таких каталогов можно вложить текстовый список или более сложный, в виде Excel-таблицы, где для каждого файла в каталоге будет его описание. Однако такой способ каталогизации слишком локален. Можно составить добавочный, каталогизирующий файл и на целую группу каталогов, - но это всё равно будет не слишком удобно.

Сегодня большее распространение для информации о разных файлах получила система метаданных (данных о данных). Для разных данных они бывают разных форматов, например, DCMI - для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов), vCard и FOAF - для описания персон и организаций; MARC - для разных модификаций, в основном языковых (например, описания библиографических ресурсов); CDWA - для описания музейных и исторических ценностей; PRISM и ONIX - для описания издательской продукции; CIF - для кристаллографической информации; GRIB - для хранения и обмена информацией о погоде в бинарной форме; VICAR - для работы с изображениями со спутников; NewsXML - для описания новостей и так далее.

Из широко распространенных и в определенной мере стандартизированных форматов метаданных для фотографии автору известно три:

«EXIF (Exchangeable Image File Format) - стандарт, позволяющий добавлять к изображениям и аудиофайлам дополнительную информацию, комментирующую этот файл, описывающий условия и способы его получения, авторство и т. п. Получил широкое расспространение в связи с появлением цифровых фотокамер. Информация, записанная в этом формате, может использоваться как пользователем, так и различными устройствами (например, принтером для прямой печати с фотоаппарата). Стандарт EXIF является чрезвычайно гибким (например, позволяет сохранить полученные с приёмника GPS координаты места съёмки и допускает широкое развитие, как правило, фотоаппараты добавляют к файлу информацию, свойственную данной конкретной камере. Правильно интерпретировать такую информацию могут только программы от изготовителя фотоаппарата. Разработчик формата - Japan Electronics and Information Technology Association (JEITA)».

Большинство современных цифровых фотокамер записывает в файлы изображений параметры съёмки: производителя и модель камеры, выдержку, диафрагму, ISO, использование вспышки, разрешение кадра, количество бит на пиксель, фокусное расстояние, дату и время съёмки, тип баланса белого. Эти данные обычно читаются в наиболее распространенных программах обработки и каталогизации изображений, а также с помощью специальных встроенных программ и непосредственно из операционных систем. EXIF не предназначена для правки, однако некоторые программы позволяют ее расширять, например, добавляя фамилию фотографа.

В контексте хранения метаданными EXIF придется пользоваться по преимуществу (если не исключительно) при описании и каталогизации цифровых снимков, если она в них присутствует: не все цифровые фотокамеры, особенно сравнительно ранние, записывали в кадр EXIF. Теоретически, ничто не мешает встраивать аналогичную информацию в той же форме и производителям сканеров, однако мне такие сканеры на попадались ни разу, да и информация с них может оказаться скудной и не слишком полезной для каталогизации.

Второй, самый распространенный тип метаданных для файлов изображений называется IPTC и содержит имя родителя этого стандарта - Международного Совета Прессы и Телекоммуникаций (International Press Telecommunications Council), появившегося на свет аж в 1965 году. С тех пор стандарт претерпел ряд изменений, на сегодняшний день мы имеем около десятка его разновидностей, но, во всяком случае на первых порах вам не имеет смысла копаться в тонкостях этих вариаций. Главное, что вы должны знать: метаданные в формате IPTC легко поддаются созданию и редактированию, понимаются большинством распространенных графических (как редакторских, так и каталогизирующих) программ и могут быть доступны даже из Проводника Windows после установки небольшой бесплатной программы Microsoft Photo Info.

Бессмысленно перечислять множество существующих на сегодня графических программ, укажем только две наиболее мощные и распространенные: Adobe Photoshop и ACDSee. В первой из них (версия C4) при нажатии на строку File Info, на экране появляется окно с тринадцатью закладками, одна из которых посвящена EXIF (называется Camera Data), другая с тридцатью полями - IPTC. Все поля заполнять абсолютно не обязательно, однако, при помощи редактора шаблонов, включенного в пакет, их можно видоизменять, урезать, добавлять. В ACDSee Pro2, в пункте меню «Пакетная установка информации» (можно некоторые или все поля заполнить сразу для нескольких выделенных изображений; кстати, такой же возможностью обладает и упомянутая выше Microsoft Photo Info), рядом с непременной таблицей EXIF, на таблице IPTC, перечислено в четырех табах «Название», «Автор», «Заголовок», «Специальные инструкции», «Ключевые слова», «Категории», «Важность», «Дополнительные категории», «Уведомление об авторском праве», «Имя объекта», «Город», «Страна», «Код страны» и так далее. Как мне представляется, такую таблицу легко приспособить под любые нужды каталогизации.

Кроме того, в метаданных IPTC можно создавать не только поля и категории, но и подкатегории, вложенные в категории родительские, так, что впоследствии можно задавать поиск не только по разным категориям и их сочетаниям.

Отличительная особенность EXIF и IPTC заключается в том, что метаданные записываются непосредственно в файл изображения, в его заголовок, так, что становятся ему имманентно присущими. Правда, при некоторых преобразованиях оцифрованного изображения из формата в формат эти метаданные могут потеряться полностью или частично, тут всё зависит и от форматов, и от конвертирующей программы, поэтому сначала надо убедиться, что форматы и программа не портят IPTC информацию и, если портят, изменить то или другое.

Все подробные стандарты формата IPTC - вместе с примерами его использования, можно найти на официальном сайте IPTC,правда, имейте в виду, что сайт англоязычный.

Третьим из наиболее распространенных для файлов изображений, в частности - фотографий форматом метаданных можно назвать разработанную Расширяемую Платформу Метаданных, Adobe Extensible Metadata Platform (XMP), официальный сайт которой, тоже на английском. Главное его отличие от EXIF и IPTC заключается в том, что метаданные записываются не в сам файл изображения, а в отдельный, сопутствующий ему файл с расширением XMP. XMP-метаданные, как правило, автоматически создают программы, обрабатывающие RAW-файлы, например, Adobe Camera Raw, работающий как плагин Photoshop'а или от той же Adobe - Lightroom. Понимает и поддерживает XMP и входящий в пакеты C3 и C4 Adobe Bridge, служащий «мостиком» для передачи файлов изображений из одного адобовского приложения в другое. Главное удовольствие, доставляемое XMP-форматом - то, что в нем записываются все операции, которые вы проводили с RAW-файлом, при том, что сам файл остается в полной неприкосновенности. Однако, открыв его в другом (понимающем XMP) редакторе, чтобы рядом лежал и соответствующий XMP-файл, вы получите RAW с результатами вашего редактирования. Поскольку XMP-файл по существу является текстовым, я легко могу привести здесь, для примера и сведения, начало одного из таких файлов.

 

xmlns:tiff="http://ns.adobe.com/tiff/1.0/">

Canon

Canon EOS 40D

1

 

xmlns:exif="http://ns.adobe.com/exif/1.0/">

0221

1/60

5906891/1000000

28/10

2970854/1000000

2

 

400

 

2009-04-30T12:13:02.00+04:00

2009-04-
Разумеется, если вы имеете дело с полученным со сканера RAW-файлом, будет уместно сохранять историю его преобразований в XMP-файле, правда, для этого необходимо либо чтобы сопутствующая сканеру программа умела это делать, либо чтобы производитель сканера прилагал к нему плагин, например, для Photoshop'а.

Имея в виду, что и у IPTC, и у XMP есть свои плюсы, недавно появился стандарт, объединяющий их: IPTC Core или ITPC4XMP.

Завершая тему метаданных, хочу заметить, что, однажды введя их полностью, вы не только обеспечите себе легкий поиск в вашей, сколь угодно обширной коллекции, но и обеспечите автоматическое заполнение соответствующих полей при передаче файлов изображений в локальные и глобальные системы хранения и/или доступа изображений.

Разумеется, стандарты метаданных еще недостаточно жестки, так что в каждом конкретном случае возможны неприятные сбои, но, осознавая важность сохранения метаданных и внимательно следя за их сохранностью, любую из таких проблем можно решить, иногда - приложив добавочное количество ручного или полуавтоматического труда.

Так или иначе, вы, скорее всего, будете использовать тот вид метаданных, которые вам предложит программа, с помощью которой вы будете получать цифровые данные, впрочем, ничто не запретит вам добавить или откорректировать их в отдельной программе. И если вы сочтете, что это имеет смысл, не жалейте на метаданные ни времени, ни труда.

 

Любой каталогизатор основывается на базе данных, точнее - системе управления базами данных - СУБД. Это может быть специально написанная для программы база данных, вернее, сначала пишется специализированная база данных и над ней «надстраивается» программа, - с «превьюшками» картинок, добавочными средствами вроде графического редактора и так далее. Это как раз те недорогие или бесплатные программы, которым не под силу тянуть большие архивы, но которые, как правило, справляются хорошо с небольшими. Иной раз подобные программы (среди них могут оказаться и вполне «серьезные»), надстраиваются над базами данных, уже существующими. От сравнительно простой и дешевой Microsoft'овской Access до мирового класса дорогой Oracle (одна лицензия которой стоит около 5000 долларов), а ведь такой лицензией придется оснастить каждый работающий с ней компьютер. Впрочем, у Oracle есть и бесплатная версия, Express Edition, разумеется, с заметными ограничениями и, главное, - не дающая толком заработать программистам, которые пишут настройки для нее. Любопытствующие могут получить более глубокое представление о СУБД, например, из статей Википедии: для Oracle, для Microsoft Access, для общего представления о СУБД.

Любая серьезная база данных (СУБД) позволяет хранить в себе достаточное количество записей для выполнения задачи со сколь угодно длинным набором свойств предмета. Представить себе такую базу данных можно как очень длинную и широкую таблицу: сверху вниз идут, собственно, хранящиеся объекты, слева направо - их свойства. То есть, первая колонка может состоять к примеру, из названий (изображений, или  года поступления и т.д.) а справа от нее всё, что вам кажется важным: от фамилии автора до дат его жизни, инвентарного номера и  прочего. Понятно, что вы можете выстраивать данные по любой из колонок, делать выборки по любому из критериев и совершать с данными разнообразные операции.

Пример такой элементарной базы данных представляет собой электронная таблица Microsoft Excel, с которой, полагаю, встречалось большинство из вас.

На сегодняшний день российские музеи имеют сравнительно небольшой выбор СУБД, созданных для их нужд. Можно либо использовать перечисленные выше любительские варианты, либо составлять Access- или Excel-таблицы, что, для сравнительно больших объемов информации весьма неудобно и громоздко, либо заказывать что-нибудь серьезное и дорогое где-то в цивилизованном мире и мириться с англоязычным интерфейсом и весьма дорогой поддержкой... Можно, впрочем, обратиться к отечественным разработкам, имеющим как ряд достоинств, так и ряд недостатков.

Большинство российских музеев пользуются (если пользуются вообще) двумя системами: АС «Музей» и КАМИС. Первая изготовлена и поддерживается Главным информационно-вычислительным центром Министерства Культуры Российской Федерации на основе базы данных Microsoft Access, вторая - питерской фирмой ОАО «Альт-Софт» и основывается на СУБД Oracle. Ясно, что вторая - мощнее, зато первая - дешевле (настоящих цен не называю, потому что они зависят от многих факторов: количества рабочих мест, дополнительных модулей и т. д.). Подробности об обеих системах можно почерпнуть, например, из сравнивающей (довольно мягко) статьи Ирины Музалевской «Все, что вы хотели, но стеснялись спросить об АС «Музей» и КАМИС».

В общем, и та, и другая система могут удовлетворить большинство музеев, но, естественно, имеют и свои досадные изъяны.

На проводившейся в мае выставке «ИНТЕРМУЗЕЙ-2009» я специально ознакомился с текущей версией КАМИС и обнаружил в ней целый ряд недостатков:

  • она основывается на давно устаревшей версии Oracle 8 (выпуск 1997 года), хотя представители «Альт-Софт» уверяют, что ее возможностей и сегодня вполне достаточно, а что по специальному заказу могут поставить и 10-ю (тоже, не последнюю) версию;
  • она имеет очень древний интерфейс (времен, эдак, 1995 года); конечно, это не мешает заполнять нужные поля и вообще работать с ней, однако создает ощущение удивительной архаичности;
  • она не умеет работать ни с какими метаданными изображений (IPTC, XMP), но переносит в себя нетронутой наименее интересную для музея Exif-информацию;
  • она экспортирует выборочные данные в HTML-код, приспособленный для просмотра в WEB-браузерах так примитивно, как это было принято не менее десяти-пятнадцати лет назад.

Во время разговора с шефом ОАО «Альт-Софт» Еленой Львовной Кощеевой, мне рассказали, что сейчас ими разрабатывается более современный интерфейс и планируется завершить эту работу... года через два. Всё вышеупомянутое не позволяет мне широко рекомендовать существующую систему, хотя, похоже, у музейщиков альтернатив мало, разве что заказать собственную надстройку над СУБД мирового класса вменяемым и честным программистам. Но, во-первых, их не так легко найти, во-вторых, - это может стать в копеечку.

Разобравшись со значащими названиями файлов, содержащих изображения и с каталогами, их вмещающими, а также уделив достаточное внимание метаданным, мы должны выбрать базу данных, в которой будем хранить наши изображения. Наиболее простые и доступные базы бывают софтовыми, программными, и могут располагаться практически на любом стандартном компьютере со стандартной операционной системой. Более сложные (и дорогие) пишутся для специальных серверных систем и поставляются вместе с ними. Приобретение, установку и дальнейшее эксплуатационное сопровождение таких специальных систем стоит поручать специалистам, оплата которых тоже стоит недешево. Поэтому разговор о них мы ограничим перечислением нескольких наиболее популярных вариантов: Mediabank, Proxsys и Canto Cumulus Enterprise. Выбор будет зависеть от ваших потребностей и кредитоспособности. Мы же обратим внимание на программы (и серверы), доступные за небольшие деньги и не требующие от пользователя особой квалификации, то есть доступные для работы практически каждому, кто хоть немного владеет компьютером.

Начнем с того, что обычные файловые менеджеры, встраиваемые в операционные системы (например, «Проводник» или Explorer для последних версий Windows) дают элементарные возможности для просмотра и поиска изображений: у них есть режимы, при которых файлы-картинки предстают небольшими (или достаточно крупными - например, в Windows Vista) пиктограммами. В них существуют и режимы ленты, на которой располагаются крохотные пиктограммы а при переходе от одной к другой меняется большое изображение в главном окне. Понятно, что этими функциями встроенные средства, в общем, и ограничиваются, так что рассматривать их как базы изображений всерьез невозможно. Однако, в трудный момент, и эти способности могут прийти вам на помощь.

Следующая по сложности и возможностям группа баз данных - прилагаемые к разного рода графическим редакторам и/или идущие в комплекте с цифровыми фотоаппаратами и сканерами добавочные программы-каталогизаторы или, (можно их назвать и так), базы графических данных. В качестве примера назовем вынесенную в отдельную бесплатную программу Adobe Photoshop AlbumStarter Edition (www.adobe.com).

Некоторые из таких приложений существуют и по отдельности. Вообще, отдельных графических баз (вьюеров, просмотрщиков, каталогизаторов) сегодня просто необозримое множество. Некоторые из них мощнее, некоторые - слабее. Есть дорогие и не очень, есть попросту бесплатные. В Интернете имеется множество статей, посвященных описанию и сравнению таких программ, вот, например, http://www.ixbt.com/soft/picmanagers-2.shtml или http://www.compuart.ru/article.aspx?id=8639&iid=354. Для начала, любая из этих программ, вполне допустимое решение, а, по мере того, как у вас будут возникать реальные потребности в возможностях, которыми она не обладает, вы сможете расширить поиск и рано или поздно непременно найдете что-то подходящее.

Перечислю здесь несколько таких каталогизаторов:

Упомянутая выше программа Lightroom от Adobe, «заточенная» специально на работу с RAW-файлами, получаемыми непосредственно с цифровых фотоаппаратов: кроме каталогизации и представления изображений по самым разным параметрам, она умеет преобразовывать RAW в стандартные форматы.

Что касается меня, для каталогизации и просмотра своих фотографий, я издавна пользуюсь разными версиями программы ACDSee (в настоящий момент - ACDSee Pro 2.0). То ли я к ней привык, то ли она и впрямь лучше многих, - но ее возможностей мне хватает для большинства моих (не редакторских) потребностей. Она позволяет и работать с метаданными, пакетно изменять форматы графических файлов и их размеры, а так же многое другое. Программа создает внутреннюю базу данных - из уменьшенных копий изображений, поэтому обладает достаточной скоростью и уверена в себе. Однако, когда изображений набирается за 20000, - она порою не справляется с таким объемом информации, очень надолго «задумывается», а частенько и «зависает».

Дело понятное: 20000 изображений - уже не любительский уровень, и самое время задуматься о профессиональном решении. И, соответственно, дорогом.

 

В нашем магазине

Открытка. С Новым Годом и Рождеством!
Открытка. С Новым Годом и Рождеством!
р.20.00
Открытка. Всюду о быте заботиться надо...
Открытка. Всюду о быте заботиться надо...
р.20.00
Lithuanian photography: Yesterday and Today' 06.
Lithuanian photography: Yesterday and Today' 06.
р.670.00
John Szarkowski. Photographs.
John Szarkowski. Photographs.
р.1 820.00