суббота, 3 февраля 2007 г.

Представление библиографических записей по протоколу z39.50 с использованием сервера Zebra

Представление библиографических записей по протоколу z39.50
с использованием сервера Zebra
2 февраля 2007 г. 14:00
Место проведения УрГУ
Акоев Марк Анатольевич
Зональная научная библиотека УГТУ-УПИ
1. Требование к записям
Наличие идентификатора, уникальные значения в 001 поле

LDR
01132nam 2200313 450
001
RU/USTU/000110957
005
20040923124704.0
100
a19910125d1991 u y0rusy79 ca
105

ay z 000zy
210

d1991
899

a6201353X
2. Корпоративный профиль АРБИКОН
3. Как обновлять / добавлять / удалять записи
структура каталогов z39.50/
archive/
Исходные файлы
archive/book/add
Папка для обновления добавления в БД book
archive/book/del
Папка для удаления из БД book
lock/
Файлы блокировки
log/
Лог файлы
reg/
Индексные файлы
shd/
Файлы теневой БД
tab/
Файлы настоек
tmp/
Временные файлы создаваемые в процессе работы
Скрипты в корне директории z39.50/ Для *nix скрипты с расширением .sh
init.cmd
Начальная инициализация индексных файлов
Пример запуска:
init.cmd
update_add.cmd
Добавление/обновление записей
Пример запуска:
update_add.cmd book
update_del.cmd
Удаление записей
Пример запуска:
update_del.cmd book
clean.cmd
Отменить действия
Пример запуска:
clean.cmd
commit.cmd
Подтвердить действия
Пример запуска:
commit.cmd
start.cmd
Запуск сервера (в текущем каталоге должен быть файл конфигурации)
Пример запуска:
start.cmd
drop.cmd
Удалить БД
Пример запуска:
drop.cmd book
4. Требования к точкам доступа
точка доступа
Поисковое поле
bib1.att
31
год
att 31
Date-of-publication
4
заглавие
att 4
Title
1003
автор
att 1003
Author
5. Абстрактная схема (построенная на основе схемы Томского консорциума и дополненная в соответствии с новыми требованиями Арбикон)
rusmarc.abs
elm mc-001
Local-number
!:w,Identifier-standard:w
elm mc-210___$d_
Date-of-publication
!
elm mc-210___$a_
Place-publication
!:w,Any:w,Anywhere:w
esetname F @
encoding cp866

6. Сервер Zebra
В каталоге prog/дистрибутивы

Zebra
Yaz
*nux
idzebra-2.0.10.tar.gz
yaz-2.1.48.tar.gz
Windows
idzebra_2.0.10.exe
yaz_2.1.48.exe
Под Windows установите в переменной %PATH% пути к каталогу binZebra и Yaz
Для установки сервисом
zebrasrv –install
Проблемы с открытием порта 210
7. Настройки БД
Файл zebra.cfg в корне z39.50/
book.recordType: grs.marc.rusmarc
book.database: book
book.recordId: (bib1,Local-number)
book.storeKeys: 1
book.storeData: 1
8. Тестирование
Пример запроса поиска test/test.comm
yaz-client.exe
Поиск на год
find@attr 1=31 @attr 2=3 "2006"
Поиск на автора
find@attr 1=1003 @attr 4=2 @attr 5=100 "Иванов"
9. Пошаговая инструкция
  1. Установить Yaz и Zebra
  2. Развернуть каталог z39.50/
  3. Выгрузить в каталог arhive/addзаписи в формате RUSmarc соответствующие профилю Арбикон
  4. Обновить БД book
  5. Подтвердить изменения
  6. Запустить сервер
  7. Соединится с сервером и проверить работоспособность
  8. Для Сиглы действовать по инструкции на их сайте
P.S. Архивы с файлами можно взять здесь

пятница, 17 октября 2003 г.

Текст под djvu

Несколько раз в рассылке (Diglib http://mlist.sgu.ru/listinfo/diglib) обсуждалась тема как положить русский текст под djvu

во вложении исходное изображение сканированной карточки (0283tif_0_3.djvu) и изображении с текстом (0283tif_0_3_txt.djvu)

способ получения под *nux (под win32, возможно использование под cygwin, теоретически можно скомпилировать и напрямую под win32, но с ходу не получилось)

Шаг1
с http://djvu.sourceforge.net/ берем DjVuLibre

Шаг2
инсталлируем

Шаг3
Создаем djvu файл любым способом который Вам нравится (я использую cjb2, есть вариант под win32 http://www.planetdjvu.com/djvulibre/cjb2.zip ) конвертация из формата pbm

Шаг4
Создаем текст который будем подкладывать под djvu
Пример:
0283tif_0_3.txt
---------------
(page 0 0 1445 847
(line 88 799 288 751 "062897" )

(line 1199 802 1401 747 "539.13")

(line 394 704 822 644 "Золотухин Н." )
(line 293 596 1444 537 "Статистическая физика. Ч. 1. Л., 1938")
)
--------------
здесь первый ключ (page - геометрия страницы, line - геометрия текстовой строки) определяют структурные объекты страницы, четыре цифры это координаты блока текста в формате

x1 y1 x2 y2

x1 y1 - верхний левый угол
x2 y2 - нижний правый угол
(в документации ошибочно указан формат x1 x2 y1 y2)
Координаты x указываются от левой границы изображения. Координаты y указываются от нижней границы изображения.

Текст заключают в двойные кавычки. Текстовый файл сохраняют в формате utf8.

В идеале можно создавать напрямую из FineReader, при этом есть две проблемы: смена формата пакета от версии к версии и отсутствие лицензии на разработку сторонних программ (доступны только при покупке
серверной инсталляции)


Шаг5
Запускаем команду
djvused -v 0283tif_0_3.djvu -s

Далее в командой строке djvused выдаем последовательно команды:
select 1
set-txt 0283tif_0_3.txt
save
^C

Комментарий:
Выбор 1 страницы
сохранение созданного текста под djvu
сохранение djvu

Шаг5
Используем созданный djvu

Марк Акоев, зав. отделом информ. технологий ЗНБ УГТУ-УПИ,
г. Екатеринбург
16 октября 2003 г.