| Каталогизация и хранение цифровых данных |
|
|
|
|
Оцифрованные артефакты надо хранить таким образом, чтобы в огромном массиве сохраняемых цифровых данных было легко найти нужные. Это относится к текстовым, видео, звуковым и графическим файлам. Учитывая специфику сайта мы сосредоточим внимание на фотографиях, цифровых или оцифрованных. Итак, начнем с простейшего: с названия файла. Их можно номеровать (значащие названия файлов делают каталоги слишком громоздкими и в них трудно бывает отыскать нужное), но при этом располагать в каталогах по названиям. Например - 0001.tif в каталоге «St-ptbrg_1909», для посвященного будет означать первый снимок из коллекции «Санкт-Петербург. 1909 год». Три первых нуля нужны в случае, когда снимков в каталоге будет больше 999. Сортировка файлов в большинстве операционных систем следит за цифрами, и кадр «2» поставит перед кадром «20». Это имеет отношение, скорее, к красоте и аккуратности, особенно, если файлы не имеют осмысленной временной последовательности. Современные операционные системы поддерживают наименования каталогов, включающие и длинные пробелы, и большое количество знаков. В случае, если ваша коллекция может окажется на компьютере с другой системой или в каком-нибудь web-браузере, поэтому лучше прибегнуть к не очень длинным названиям каталогов, написанных латиницей. Понятно, что каталоги можно вкладывать один в другой чуть ли не до бесконечности, однако и тут полезно соблюдать определенную умеренность, чтобы предотвратить громоздкость, задержку при открытии, да и копаться в ветвистых деревьях оказывается головоломно. В каждый из таких каталогов можно вложить текстовый список или более сложный, в виде Excel-таблицы, где для каждого файла в каталоге будет его описание. Однако такой способ каталогизации слишком локален. Можно составить добавочный, каталогизирующий файл и на целую группу каталогов, - но это всё равно будет не слишком удобно. Сегодня большее распространение для информации о разных файлах получила система метаданных (данных о данных). Для разных данных они бывают разных форматов, например, DCMI - для описания ресурсов любого типа (как электронных документов, так и реальных физических объектов), vCard и FOAF - для описания персон и организаций; MARC - для разных модификаций, в основном языковых (например, описания библиографических ресурсов); CDWA - для описания музейных и исторических ценностей; PRISM и ONIX - для описания издательской продукции; CIF - для кристаллографической информации; GRIB - для хранения и обмена информацией о погоде в бинарной форме; VICAR - для работы с изображениями со спутников; NewsXML - для описания новостей и так далее. Из широко распространенных и в определенной мере стандартизированных форматов метаданных для фотографии автору известно три: «EXIF (Exchangeable Image File Format) - стандарт, позволяющий добавлять к изображениям и аудиофайлам дополнительную информацию, комментирующую этот файл, описывающий условия и способы его получения, авторство и т. п. Получил широкое расспространение в связи с появлением цифровых фотокамер. Информация, записанная в этом формате, может использоваться как пользователем, так и различными устройствами (например, принтером для прямой печати с фотоаппарата). Стандарт EXIF является чрезвычайно гибким (например, позволяет сохранить полученные с приёмника GPS координаты места съёмки и допускает широкое развитие, как правило, фотоаппараты добавляют к файлу информацию, свойственную данной конкретной камере. Правильно интерпретировать такую информацию могут только программы от изготовителя фотоаппарата. Разработчик формата - Japan Electronics and Information Technology Association (JEITA)». Большинство современных цифровых фотокамер записывает в файлы изображений параметры съёмки: производителя и модель камеры, выдержку, диафрагму, ISO, использование вспышки, разрешение кадра, количество бит на пиксель, фокусное расстояние, дату и время съёмки, тип баланса белого. Эти данные обычно читаются в наиболее распространенных программах обработки и каталогизации изображений, а также с помощью специальных встроенных программ и непосредственно из операционных систем. EXIF не предназначена для правки, однако некоторые программы позволяют ее расширять, например, добавляя фамилию фотографа. В контексте хранения метаданными EXIF придется пользоваться по преимуществу (если не исключительно) при описании и каталогизации цифровых снимков, если она в них присутствует: не все цифровые фотокамеры, особенно сравнительно ранние, записывали в кадр EXIF. Теоретически, ничто не мешает встраивать аналогичную информацию в той же форме и производителям сканеров, однако мне такие сканеры на попадались ни разу, да и информация с них может оказаться скудной и не слишком полезной для каталогизации. Второй, самый распространенный тип метаданных для файлов изображений называется IPTC и содержит имя родителя этого стандарта - Международного Совета Прессы и Телекоммуникаций (International Press Telecommunications Council), появившегося на свет аж в 1965 году. С тех пор стандарт претерпел ряд изменений, на сегодняшний день мы имеем около десятка его разновидностей, но, во всяком случае на первых порах вам не имеет смысла копаться в тонкостях этих вариаций. Главное, что вы должны знать: метаданные в формате IPTC легко поддаются созданию и редактированию, понимаются большинством распространенных графических (как редакторских, так и каталогизирующих) программ и могут быть доступны даже из Проводника Windows после установки небольшой бесплатной программы Microsoft Photo Info. Бессмысленно перечислять множество существующих на сегодня графических программ, укажем только две наиболее мощные и распространенные: Adobe Photoshop и ACDSee. В первой из них (версия C4) при нажатии на строку File Info, на экране появляется окно с тринадцатью закладками, одна из которых посвящена EXIF (называется Camera Data), другая с тридцатью полями - IPTC. Все поля заполнять абсолютно не обязательно, однако, при помощи редактора шаблонов, включенного в пакет, их можно видоизменять, урезать, добавлять. В ACDSee Pro2, в пункте меню «Пакетная установка информации» (можно некоторые или все поля заполнить сразу для нескольких выделенных изображений; кстати, такой же возможностью обладает и упомянутая выше Microsoft Photo Info), рядом с непременной таблицей EXIF, на таблице IPTC, перечислено в четырех табах «Название», «Автор», «Заголовок», «Специальные инструкции», «Ключевые слова», «Категории», «Важность», «Дополнительные категории», «Уведомление об авторском праве», «Имя объекта», «Город», «Страна», «Код страны» и так далее. Как мне представляется, такую таблицу легко приспособить под любые нужды каталогизации. Кроме того, в метаданных IPTC можно создавать не только поля и категории, но и подкатегории, вложенные в категории родительские, так, что впоследствии можно задавать поиск не только по разным категориям и их сочетаниям. Отличительная особенность EXIF и IPTC заключается в том, что метаданные записываются непосредственно в файл изображения, в его заголовок, так, что становятся ему имманентно присущими. Правда, при некоторых преобразованиях оцифрованного изображения из формата в формат эти метаданные могут потеряться полностью или частично, тут всё зависит и от форматов, и от конвертирующей программы, поэтому сначала надо убедиться, что форматы и программа не портят IPTC информацию и, если портят, изменить то или другое. Все подробные стандарты формата IPTC - вместе с примерами его использования, можно найти на официальном сайте IPTC,правда, имейте в виду, что сайт англоязычный. Третьим из наиболее распространенных для файлов изображений, в частности - фотографий форматом метаданных можно назвать разработанную Расширяемую Платформу Метаданных, Adobe Extensible Metadata Platform (XMP), официальный сайт которой, тоже на английском. Главное его отличие от EXIF и IPTC заключается в том, что метаданные записываются не в сам файл изображения, а в отдельный, сопутствующий ему файл с расширением XMP. XMP-метаданные, как правило, автоматически создают программы, обрабатывающие RAW-файлы, например, Adobe Camera Raw, работающий как плагин Photoshop'а или от той же Adobe - Lightroom. Понимает и поддерживает XMP и входящий в пакеты C3 и C4 Adobe Bridge, служащий «мостиком» для передачи файлов изображений из одного адобовского приложения в другое. Главное удовольствие, доставляемое XMP-форматом - то, что в нем записываются все операции, которые вы проводили с RAW-файлом, при том, что сам файл остается в полной неприкосновенности. Однако, открыв его в другом (понимающем XMP) редакторе, чтобы рядом лежал и соответствующий XMP-файл, вы получите RAW с результатами вашего редактирования. Поскольку XMP-файл по существу является текстовым, я легко могу привести здесь, для примера и сведения, начало одного из таких файлов.
xmlns:tiff="http://ns.adobe.com/tiff/1.0/"> Canon Canon EOS 40D 1
xmlns:exif="http://ns.adobe.com/exif/1.0/"> 0221 1/60 5906891/1000000 28/10 2970854/1000000 2
400
2009-04-30T12:13:02.00+04:00 2009-04- Имея в виду, что и у IPTC, и у XMP есть свои плюсы, недавно появился стандарт, объединяющий их: IPTC Core или ITPC4XMP. Завершая тему метаданных, хочу заметить, что, однажды введя их полностью, вы не только обеспечите себе легкий поиск в вашей, сколь угодно обширной коллекции, но и обеспечите автоматическое заполнение соответствующих полей при передаче файлов изображений в локальные и глобальные системы хранения и/или доступа изображений. Разумеется, стандарты метаданных еще недостаточно жестки, так что в каждом конкретном случае возможны неприятные сбои, но, осознавая важность сохранения метаданных и внимательно следя за их сохранностью, любую из таких проблем можно решить, иногда - приложив добавочное количество ручного или полуавтоматического труда. Так или иначе, вы, скорее всего, будете использовать тот вид метаданных, которые вам предложит программа, с помощью которой вы будете получать цифровые данные, впрочем, ничто не запретит вам добавить или откорректировать их в отдельной программе. И если вы сочтете, что это имеет смысл, не жалейте на метаданные ни времени, ни труда.
Любой каталогизатор основывается на базе данных, точнее - системе управления базами данных - СУБД. Это может быть специально написанная для программы база данных, вернее, сначала пишется специализированная база данных и над ней «надстраивается» программа, - с «превьюшками» картинок, добавочными средствами вроде графического редактора и так далее. Это как раз те недорогие или бесплатные программы, которым не под силу тянуть большие архивы, но которые, как правило, справляются хорошо с небольшими. Иной раз подобные программы (среди них могут оказаться и вполне «серьезные»), надстраиваются над базами данных, уже существующими. От сравнительно простой и дешевой Microsoft'овской Access до мирового класса дорогой Oracle (одна лицензия которой стоит около 5000 долларов), а ведь такой лицензией придется оснастить каждый работающий с ней компьютер. Впрочем, у Oracle есть и бесплатная версия, Express Edition, разумеется, с заметными ограничениями и, главное, - не дающая толком заработать программистам, которые пишут настройки для нее. Любопытствующие могут получить более глубокое представление о СУБД, например, из статей Википедии: для Oracle, для Microsoft Access, для общего представления о СУБД. Любая серьезная база данных (СУБД) позволяет хранить в себе достаточное количество записей для выполнения задачи со сколь угодно длинным набором свойств предмета. Представить себе такую базу данных можно как очень длинную и широкую таблицу: сверху вниз идут, собственно, хранящиеся объекты, слева направо - их свойства. То есть, первая колонка может состоять к примеру, из названий (изображений, или года поступления и т.д.) а справа от нее всё, что вам кажется важным: от фамилии автора до дат его жизни, инвентарного номера и прочего. Понятно, что вы можете выстраивать данные по любой из колонок, делать выборки по любому из критериев и совершать с данными разнообразные операции. Пример такой элементарной базы данных представляет собой электронная таблица Microsoft Excel, с которой, полагаю, встречалось большинство из вас. На сегодняшний день российские музеи имеют сравнительно небольшой выбор СУБД, созданных для их нужд. Можно либо использовать перечисленные выше любительские варианты, либо составлять Access- или Excel-таблицы, что, для сравнительно больших объемов информации весьма неудобно и громоздко, либо заказывать что-нибудь серьезное и дорогое где-то в цивилизованном мире и мириться с англоязычным интерфейсом и весьма дорогой поддержкой... Можно, впрочем, обратиться к отечественным разработкам, имеющим как ряд достоинств, так и ряд недостатков. Большинство российских музеев пользуются (если пользуются вообще) двумя системами: АС «Музей» и КАМИС. Первая изготовлена и поддерживается Главным информационно-вычислительным центром Министерства Культуры Российской Федерации на основе базы данных Microsoft Access, вторая - питерской фирмой ОАО «Альт-Софт» и основывается на СУБД Oracle. Ясно, что вторая - мощнее, зато первая - дешевле (настоящих цен не называю, потому что они зависят от многих факторов: количества рабочих мест, дополнительных модулей и т. д.). Подробности об обеих системах можно почерпнуть, например, из сравнивающей (довольно мягко) статьи Ирины Музалевской «Все, что вы хотели, но стеснялись спросить об АС «Музей» и КАМИС». В общем, и та, и другая система могут удовлетворить большинство музеев, но, естественно, имеют и свои досадные изъяны. На проводившейся в мае выставке «ИНТЕРМУЗЕЙ-2009» я специально ознакомился с текущей версией КАМИС и обнаружил в ней целый ряд недостатков:
Во время разговора с шефом ОАО «Альт-Софт» Еленой Львовной Кощеевой, мне рассказали, что сейчас ими разрабатывается более современный интерфейс и планируется завершить эту работу... года через два. Всё вышеупомянутое не позволяет мне широко рекомендовать существующую систему, хотя, похоже, у музейщиков альтернатив мало, разве что заказать собственную надстройку над СУБД мирового класса вменяемым и честным программистам. Но, во-первых, их не так легко найти, во-вторых, - это может стать в копеечку. Разобравшись со значащими названиями файлов, содержащих изображения и с каталогами, их вмещающими, а также уделив достаточное внимание метаданным, мы должны выбрать базу данных, в которой будем хранить наши изображения. Наиболее простые и доступные базы бывают софтовыми, программными, и могут располагаться практически на любом стандартном компьютере со стандартной операционной системой. Более сложные (и дорогие) пишутся для специальных серверных систем и поставляются вместе с ними. Приобретение, установку и дальнейшее эксплуатационное сопровождение таких специальных систем стоит поручать специалистам, оплата которых тоже стоит недешево. Поэтому разговор о них мы ограничим перечислением нескольких наиболее популярных вариантов: Mediabank, Proxsys и Canto Cumulus Enterprise. Выбор будет зависеть от ваших потребностей и кредитоспособности. Мы же обратим внимание на программы (и серверы), доступные за небольшие деньги и не требующие от пользователя особой квалификации, то есть доступные для работы практически каждому, кто хоть немного владеет компьютером. Начнем с того, что обычные файловые менеджеры, встраиваемые в операционные системы (например, «Проводник» или Explorer для последних версий Windows) дают элементарные возможности для просмотра и поиска изображений: у них есть режимы, при которых файлы-картинки предстают небольшими (или достаточно крупными - например, в Windows Vista) пиктограммами. В них существуют и режимы ленты, на которой располагаются крохотные пиктограммы а при переходе от одной к другой меняется большое изображение в главном окне. Понятно, что этими функциями встроенные средства, в общем, и ограничиваются, так что рассматривать их как базы изображений всерьез невозможно. Однако, в трудный момент, и эти способности могут прийти вам на помощь. Следующая по сложности и возможностям группа баз данных - прилагаемые к разного рода графическим редакторам и/или идущие в комплекте с цифровыми фотоаппаратами и сканерами добавочные программы-каталогизаторы или, (можно их назвать и так), базы графических данных. В качестве примера назовем вынесенную в отдельную бесплатную программу Adobe Photoshop AlbumStarter Edition (www.adobe.com). Некоторые из таких приложений существуют и по отдельности. Вообще, отдельных графических баз (вьюеров, просмотрщиков, каталогизаторов) сегодня просто необозримое множество. Некоторые из них мощнее, некоторые - слабее. Есть дорогие и не очень, есть попросту бесплатные. В Интернете имеется множество статей, посвященных описанию и сравнению таких программ, вот, например, http://www.ixbt.com/soft/picmanagers-2.shtml или http://www.compuart.ru/article.aspx?id=8639&iid=354. Для начала, любая из этих программ, вполне допустимое решение, а, по мере того, как у вас будут возникать реальные потребности в возможностях, которыми она не обладает, вы сможете расширить поиск и рано или поздно непременно найдете что-то подходящее. Перечислю здесь несколько таких каталогизаторов: Упомянутая выше программа Lightroom от Adobe, «заточенная» специально на работу с RAW-файлами, получаемыми непосредственно с цифровых фотоаппаратов: кроме каталогизации и представления изображений по самым разным параметрам, она умеет преобразовывать RAW в стандартные форматы. Что касается меня, для каталогизации и просмотра своих фотографий, я издавна пользуюсь разными версиями программы ACDSee (в настоящий момент - ACDSee Pro 2.0). То ли я к ней привык, то ли она и впрямь лучше многих, - но ее возможностей мне хватает для большинства моих (не редакторских) потребностей. Она позволяет и работать с метаданными, пакетно изменять форматы графических файлов и их размеры, а так же многое другое. Программа создает внутреннюю базу данных - из уменьшенных копий изображений, поэтому обладает достаточной скоростью и уверена в себе. Однако, когда изображений набирается за 20000, - она порою не справляется с таким объемом информации, очень надолго «задумывается», а частенько и «зависает». Дело понятное: 20000 изображений - уже не любительский уровень, и самое время задуматься о профессиональном решении. И, соответственно, дорогом. |



























