Открытые данные - это общественный капитал: Практические рекомендации для "Открытых государственных данных"Another translations: into Udmurt. |
- Statistics
- Participants
- Translate into Russian
- Translation result
- 89% translated in draft. Almost done, let's finish it!
Данный документ является сборником практических рекомендаций для правительственных учреждений, следующих принципу информационной открытости власти. В нём обсуждаются следующие вопросы: какую ценность для общества имеют государственные данные, почему они являются общественным достоянием и как технологически правильно должен осуществляться процесс раскрытия государственных данных. Этот документ предназначен для веб-менеджеров, которые, возможно, сразу пожелают перейти к разделу Рекомендаций, и для государственных веб-разработчиков.
Написано Джошуа Тауберером (http://razor.occams.info) который, с помощью Гуннара Хеллексона (RedHat, Inc.), поддерживает вебсайт прозрачности конгресса www.GovTrack.us. Благодарим всех кто откликнулся. Ваш отклик приветствуется для последующих обновлений этого документа.
Это версия 1.1. от 20 июля 2009.
Введение
Создание информированного общества - это ключевая ценность для представительного государства. Это обязательное требование для того чтобы иметь возможность убедится что лучшие представители избраны и является ключевым компонентом наблюдения за государством, а также важно в областях вне общества. Этот документ рассказывает почему публичные государственные данные (также называемые "информацией публичного сектора") являются ценным ресурсом для общества если они положены в Веб и предоставлены свободно для публики и обсуждает как продвинуться в том чтобы этого добиться. Мы обсуждаем технологические вопросы и заканчиваем на руководящих принципах для лучших практиках в открытости государственных данных.
Настоящее руководство призывает рассматривать данные, как один из важнейших ресурсов, доступных современному обществу. Эта мысль далеко не новая, и уже многие государственные организации начали проникаться этими идеями. В одном из отчётов для U.S. Office of Science Technology Policy, опубликованных в 2009 году, так описывается значимость предоставления данных научных и технологических исследований:
"Способность цифровой информации катализировать прогресс ограничена только силой человеческого разума. Данные не поглощаются идеями и инновациями порождаемые ими, но являются бесконечным топливом для созидательности. Малые биты информации, успешно найденные, могут произвести огромный скачок в созидательности. Мощь данных может быть усилена изобретательностью и приводить к применениям немыслимым авторами и далекими от изначальной предметной области."
("Сопряжение Мощи Цифровых Данных для Науки и Общества"), отчет рабочей группы Office of Science Technology Policy, Executive Office of the President, правительства США)
Возможно это будет легче представить как государственные научные данные могут улучшить жизни чем государственные записи: к примеру, финансируемые государством исследования в естесственных науках помогает нам бороться с болезнями. Из всех видов публичных государственных данных мы можем найти множество примеров когда их предоставление публике стимулирует повседневную жизнь, продвигает нашу экономику и действительно делает наши жизни безопаснее. Офис управления и бюджета США занял схожую позицию:
"Государственная информация - это ценный национальный ресурс. Она предоставляет на публику знание о государстве, обществе и экономике в прошлом, настоящем и будущем. Это обеспечивает подотчетность государства в выполнении государственных операций, в поддержании здорового развития экономики и само по себе является продуктом на рынке." (Циркуляр A-130)
Так что же такое открытые государственные данные? Это публичная государственная информация, такая как государственные реестры предоставляемая на публику в цифровом виде, посредством Интернета в форме допускающей последующий анализ и повторное использование. (Далее будет приведено более формальное определение). W. David Stephenson называет это "демократизацией данных", когда данные проходят через жизненный круг их сбора, структуризации, синдицируются для временного распространения, предоставляются на публику для целей наблюдения и предоставляются гражданским группам. Предоставление цифровой информации это, определённо, немалая задача. Законодательные и фискальные ограничения направляют использование технологий государством и возникают новые вопросы. Делают ли открытые данные государство уязвимым? Ответственно ли предоставление данных без соответствующего контекста? Почему данные должны предоставляться публично? Эти вопросы правил, по большей части, вне рамок данного руководства которое напрямую раскрывает вопрос о том как делать данные открытыми.
Остаток документа разделён на 3 части:
В первой части мы обсуждаем как государственные данные являются гражданским капиталом, на основе примеров. Открытые данные несут пользу публичному здравоохранению, экономике и, конечно, гражданскому образованию.
Следующий раздел объясняет почему технологические решения могут сделать данные более или менее ценными для общества и почему так называемые "машинно-обрабатываемые данные" предоставляют публике наибольший потенциал в использовании данных.
Последняя часть этого документа рекомендует приоритеты государственным агентствам по отношении к данным и определяет лучшие практики как технический уровень того как государственные данные должны раскрываться. Это синтез многих рекомендаций сделанных предыдущими рабочими группами и организациями.
Открытые данные как Гражданский Капитал.
Чем полезны Открытые данные
Открытые данные могут сделать мир лучше. Это не преувеличение и причиной тому то что информация это ключевая движущая сила инноваций. Информация - это уникальный вид ресурса. Это так называемый "общественный товар": потребление информации одним индивидуумом не уменьшает доступность информации для других. Это и есть причина того почему польза от информации может распространяться куда дальше изначального предназначения. Правительства, как крупные создатели информации, нацелены на продвижение инноваций предоставляя открытые государственные данные. (См. Sean Gorman's "Information as a Public Good"). Возможно будет легче представить как государственные научные данные, например, в науках о жизни, могут улучшить жизни больше чем государственные реестры. Но из всех аспектов государственных данных мы можем найти много примеров когда предоставление данных публике порождает развитие в повседневной жизни, продвигает нашу экономику и, в действительности, делает нашу жизнь безопасней.
Данные об окружающей среде были одной из ведущих областей открытых публичных данных в США. Агентство по Защите Окружающей Среды США (The U.S. Environmental Protection Agency или EPA) раскрывает для публики огромное количество необработанных наборов данных которые были использованы новыми и неожиданными способами. Данная инициатива идёт дальше её главной миссии исследования, регулирования и образования. Из-за доступности этих данных частный сектор смог содействовать более здоровому образу жизни. Например, Американская ассоциация пульмонологов, использовала базу данных EPA системы качества воздуха для создания отчёта "Состояние воздуха", важнейшее оценка качества окружающей среды с последствиями особенно для тех с респираторными заболеваниями такими как астма или эмфизема. "Шесть из десяти человек (61.7%) населения США живёт в округах, которые имеют нездоровый уровни озона или загрязнения частицами", говорится в отчёте. Это важнейший пример того, как государственные данные становятся ценным публичным ресуром с использованием за пределами области деятельности государственного агентства, которое их создало.
Национальная Служба Погоды США (The U.S. National Weather Service) является примером крупнейшего федерального агентства в сети с точки зрения публикуемого объёма данных в большинство месяцев. Самое замечательное здесь это не то что они публикуют саму информацию о погодных условиях, что конечно же является частью их задачи, но то, что они делают это таким способом, который стимулирует инновации. Директор по стратегическому планированию Эдвард Джонсон (Edward Johnson) в частном разговоре сказал: "Мы немедленно и в реальном времени публикуем огромный объём данных который вливается в экономику США". И бесплатные системы распространения данных, и специализированные высоко-надёжные и широкополосные сервисы построенные на основе ограниченной окупаемости являются важнейшей основой для ежедневного планирования погоды и предупреждениях о погоде в газетах и на телевидении. "Здоровье сообщества потребителей экологической информации" очень важно для Службы Погоды, говорит Джонсон, что означает что более широкое сообщество включается в информацию о погоде включая коммерческих провайдеров, средства массовой информации, и академическое сообщество и что NWS может выполнять свою миссию более эффективно если будет принимать в расчёт публику, а в особенности средства массовой информации, партнёров в распространении информации о погоде открытым образом. Но за пределами удобства и безопасности, которую даёт NWS, говорит Джонсон погода это часть важнейшей "информационной индустрии". Он считает что
"на самом деле правительство США больше получает от стимуляции экономической активности делая всю эту информацию широко доступной, легкой в использовании и недорогой, чем мы бы получили если бы брали деньги за неё".
То, что открытые государственные данные являются стимулом для национальной экономики поддерживается отчётом NWS (Weiss 2002) который сравнивает относительную открытость данных в США с более известными в Европе моделями покрытия издержек и лицензирования, в которых публика вообще говоря должна покупать правительственные данные по цене значительно более высокой чем издержки распространения информации и затем не имеет права распространять их дальше. Издержки это стоимость производства одной копии данных. В физическом мире, издержки это стоимость бумаги и почтовых услуг. В сетевом мире издержки цены это стоимость передачи байтов через Интернет, которая столь низка, что делает издержки распространения большинства государственных записей почти нулевыми. Отчёт отмечает что индустрия управления погодными рисками в США в 50 раз больше чем в Европе, что частично объясняется более высокой коммерческой стоимостью погодных данных которые доступны по цене издержек и без лицензионных ограничений в США сравнительно с погодными данными Европейских наций, которые дорого стоят и более жёстко контролируются. Отчёт также показывает что открытые государственные данные могут даже быть более выгодными с точки зрения финансов для государственных программ чем стоимость издержек потому что больше приложений строятся на открытых данных а это может увеличить объём выплаты корпоративных налогов государству. Отчёт заключает что "взимание стоимости издержек распространения для публичной информации приведёт к оптимальному росту экономики в обществе и значительно превысит непосредственно видимые выгоды агрессивного возмещения издержек."
Открытые государственные данные поддерживают широкое разнообразие бизнесов. Обзор состояния информации бюджетной сферы в Великобритании (Mayo & Steinberg 2007) отмечает, "Географическая информация подкрепляет впечатляющие £100 миллиардов активности в экономике Великобритании. Легко видеть, что без карт хорошего качества, почтовых кодов или информации о владении землёй, большие части экономики будут не способны функционировать вовсе (т.е. всё что требует доставки, или продаж, аренды или покупки частной собственности)", и "Антимонопольное Управление Великобритании утверждает, что во всём государственном рынке информации Великобритании было £500 миллионов неиспользованных экономических ценностей
information market, on top of the £590 million currently generated."
Хотя экономические выгоды играют вторичную роль в политике открытых данных в NWS, иногда экономические цели имеют главное значение. Использование деловой информации Комиссия по Ценным Бумагам и Биржам (U.S. Securities and Exchange Commission или SEC) это превосходный пример того как данные приносят пользу экономике. SEC требует от публично торгуемых компаний раскрывать финансовую отчётность, и эти отчёты передаются публике. "В результате этого потока информации," отмечает SEC на своём веб-сайте, "появился гораздо более активный, эффективный, и прозрачный рынок капитала который способствует образованию капитала что так важно для экономики нашей нации." Поток информации поддерживается с помощью технологии. С 1990-х годов многие документы уже были электронными, а сегодня SEC широко использует XML и более новый, также несобственнический открытый стандарт, который называется eXtensible Business Reporting Language (XBRL), распространяя эти документы пользователям бесплатно, без лицензионных ограничений на использование, валом чтобы получить максимальную пользу от потока информации.
Реальных примеров того, как используются открытые государственные данные, пока не так уж и много.
Такие веб-сайты как, например, www.iLive.at, признанный победителем конкурса "Демократия: Лучшее приложение", проводившегося в 2008 году муниципалитетом г. Вашингтон, округ Колумбия [столица США - прим.пер.], являются наглядным примером того, как можно извлечь полезное из огромного количества оперативных данных, накапливаемых городом, а именно, предоставляя возможность оценить местные условия и особенности жизни для тех, кто рассматривает варианты переезда в этот город. (См. Washington, DC Data Catalog). Открытые государственные данные дают жизнь и таким вдохновляющим проектам, как библиотека фотографий Земли, поддерживаемая NASA, или оцифрованные версии документов, имеющих важное историческое значение, такие, как первичные основополагающие документы Соединённых Штатов, ставшие широко доступными общественности, благодаря проекту Библиотеки Конгресса США. В статье, размещённой в Politico (авт. Лавли (Lovely), 2009), рассматриваются несколько успешно реализованных проектов, использующих государственные данные:
FlyOnTime.us помогает путешествующим более точно планировать свои полёты, поскольку помимо заявленного авиакомпанией времени вылета, также учитываются различные факторы, могущие повлиять на это время - погодные условия, незапланированные задержки и сдвиги рейсов, мероприятия служб безопасности аэропортов и т.п. (я, с некоторых пор, участвую в разработке этого сайта); учёные из Cornell University используют аудиозаписи из Библиотеки Конгресса США, пытаясь с их помощью обнаружить одну из редчайших разновидностей дятлов, которая считается на сегодняшний день полностью исчезнувшей. Цитируя Лавли: "любой факт для кого-нибудь имеет значение".
Более эффективная деятельность органов власти будет, видимо, одним из самых важных следствий их перехода к открытым данным. Это должно происходить по двум причинам. Первой из них является образовательная, т.е. информированность общества о деятельности властных органов. Конгресс США предоставляет результаты голосований посредством публично доступной базы данных, которую используют как такие уважаемые издания, как New York Times и The Washington Post, так и некоторые совершенно новые проекты (например, мой собственный, www.GovTrack.us), с целью помочь общественности разобраться в том, какого рода решения были сделаны Конгрессом. В этом примере, существование единственного веб-сайта, предоставляющего результаты голосований и поддерживаемого государственными структурами, нельзя было бы назвать правильным решением. Ещё один пример, веб-сайт OpenRegs.com, представляющий независимый взгляд на те процессы, которые происходят в исполнительных органах государства. Возможность выбирать способ получения информации, используя те формы, которые наилучшим образом подходят для конкретных лиц и их целей - это основа открытости и подотчётности государственных органов и общественного доверия к ним.
Вторая причина, по которой открытые данные способствуют более эффективному государственному управлению - это формирование более ответственного общества, что, в свою очередь, уменьшает необходимость контроля такого общества со стороны государства. Такую же точку зрения я обнаружил пока только у Майо и Стайнберга (2007, стр.39), и её суть заключается в том, что чем больше информации, с помощью которой можно оценить те или иные товары или услуги, становится доступно широкой общественности, тем лучше и эффективней будут функционируют рынки и тем меньшее вмешательство потребуется со стороны государства. Затраты, связанные с предоставлением доступа к таким данным, и даже с их отбором, могут быть компенсированы за счёт снижения различных регуляционных затрат.
Новейшие тенденции в государственном секторе США
На самом деле, только начиная с этого года (2009), мы можем наблюдать, что правительство США действительно прониклось идеей раскрытия государственных данных. В этом году при поддержке на федеральном уровне был создан веб-сайт data.gov, каталог информационных источников исполнительной власти, и Конгрессом было отдано распоряжение исследовать возможности доступа к обширной базе законодательных документов (Zetter 2009). Совет штата Нью-Йорк предоставил программный интерфейс для доступа к законодательным архивам (http://open.nysenate.gov/), а муниципалитет г. Нью-Йорк в июне провёл слушания по стандартам открытых данных. Городские и окружные власти Сан-Франциско в настоящий момент изучают возможность создания специальной программной платформы для раскрытия данных государственного значения (http://apps.sfgov.org/opendata).
Разумеется, идея открытых государственных реестров как часть прозрачности государства, не нова. Федеральное законодательство давно установило ряд аспектов государственной ответственности с уважением к информационной открытости. The Freedom of Information Act (1966; 5 USC 552) обязал публичную доступность государственных реестров; Paperwork Reduction Act (1980; 44 USC 35) "обеспечил максимально возможную общественную выгоду и максимальное использование информации созданной, собранной, поддерживаемой, используемой, предоставляемой другим и распределённой федеральными органами власти или для них", в дальнейшем, E-Government Act (2002) расширяет эти понятия вводя "использование информационных технологий основанных на Интернете для повышения доступа граждан к государственной информации и услугам". Но технологии меняются быстро и современная культура окружающая открытые государственные данные не существовала когда эти законы были написаны.
Тем не менее, многие государственные агентства уже применяли эти концепции до того как они стали понятны. Бюро по переписи и Федеральная Комиссия по Выборам, к примеру, в течении долгого времени предоставляют обществу столь много информации сколь они только могут. Город Нью Йорк имеет реестр NYCStat содержащий данные об операционной деятельности города (http://www.nyc.gov/html/ops/nycstat) который в 2008 году был расширен статистикой развития. Балтимор запустил проект CitiStat в 2001 и привел к созданию StateStat в 2007 году (http://statestat.maryland.gov).
Тенденции в других странах
Майо & Штейнберг (2007) перечисляют многочисленные разработки в Соединённом Королевстве одновременно в терминах доступности информации общественного сектора и в том как общество использует эту информацию для инновации. Штейнберг и сам по себе является лидеров в этой области и сегодня поддерживает некоммерческий MySociety.org
Отчет Австралийского Department of Broadband, Communications, and the Digital Economy (2009, страница 12) перечисляет последние разработки в открытости государственных данных в этой стране.
"Комбинация общественной информации с ГИС технологиям может также повысить наше собственное понимание важных общественных вопросов, таких как здоровье...
Западно-Австралийская Система Связи Данных объединяет массивы данных здоровье населения Западной Австралии и предоставляет обезличенные данные для исследовательских и внедренческих проектов нацеленных на улучшение здоровья Западно-Австралийцев...
[Австраялийская Широковещательная Корпорация] сейчас публикует большую часть данных на собственном сайте под лицензией Creative Commons Attribution 2.5 Australia license.. . Три австралийских культурных учреждения присоединились к проекту Flickr Commons которые позволяет музеям и библиотекам по всему миру публиковать их изображения под тэгом "нет известных ограничений авторских прав" для увеличения доступа к публично доступным коллекциям и предоставить возможность обществу для предоставлять свою информацию и знания."
Без сомнений гораздо большее число примеров будет добавлено в этот раздел в будущем.
Почему формат данных имеет значение
Как мы увидели ранее, предоставление информации и конкретно открытые данные - это ценные ресурс для общества, но иметь вебсайт или публиковать онлайн отчеты может быть недостаточно чтобы обеспечить ожидания к открытости в 21 веке. В этом разделе мы объясним почему ценность данных зависит не только от предмета, но и от формата в котором они предоставляются. Формат определяет ценность ресурса и область в которой общество может применять их для анализа и для повторного использования.
Государственная информация должна проактивно публиковаться в машинно-обрабатываемом формате, таким образом общество сможет сортировать, искать и преобразовывать информацию под свои нужды.
Выбор формата данных имеет значение. Некоторые форматы данных уязвимы к устареванию, ненужным технологическим ограничениям и патентным лицензионным ограничениям.
Машинно-Обрабатываемая информация
Несмотря на пользу информации для людей, машины играют фундаментальную роль в наших возможностях по потреблению информации. Для примера, информационное пространство было расширено в прошлом машинами и включало: печатные прессы, радио, телевидение и компьютеры с Интернетом. Эти инструменты снижают стоимость распространения информации, которые в свои очередь позволяют гражданам потреблять её в большем объеме. Но распространение- это лишь одна из областей применения в которой машины могут нам помочь. С точки зрения потребления, машины как ручки и карандаши позволяют нам делать заметки, которые позволяют нам суммаризировать и сохранять информацию на будущее. Когда мы обращаем внимание капитализацию информации, мы должны рассмотреть все возможности которыми мы можем получить преимущество от инструментов чтобы сделать информацию более ценной.
Компьютер - это также инструмент потребления информации. Его применения могут быть сведены к поиску, сортировке и преобразованию информации. Простые пример - это веб-поиск информации, сортировка таблиц для понимания расходов, построение графиков и диаграмм для визуального предоставления численной информации.
Но компьютер не может осмысленно искать, сортировать или преобразовывать просто любой данный ему файл. Мы можем сказать что проза - это поэзия для компьютера. Компьютеры не могут понять префиксов и окончаний в английском языке. Давайте рассмотрим пример. Дадим компьютеру расписание встреч написанное на чистом английском:
Пример: В течении двух вторников, комитет по реформе продолжит там где мы остановились. Комитеты по Коммерции, Науке и Транспорту встретятся восемнадцатого в сенатском офисном здании Rayburn чтобы продолжить незавершённые дела от встречи 3 ноября...
Задача компьютера в том чтобы собрать все отметки о встречах и пролистать их в хронологическом порядке. Компьютеры до сих пор не воспринимают человеческие языки хорошо. По факту, никто не знает как запрограммировать компьютер чтобы понимать отметки также хорошо как Вы или я. Компьютер определенно будет одурачен словом "восемнадцатое": что Вы имели в виду - декабрь или Январь? Было ли 3 ноября датой предстоящей встречи (предположим в 2007 году) или ссылкой на ранее прошедшую? Не имеет смысла публиковать открытую информацию как, например, списки голосования в форме хайку или чем-то подобном. Если мы хотим чтобы компьютер помог нам, мы должны оказать им помощь и публиковать информацию на том языке на котором они могут с ней работать.
Задание структуры информации означает представление информации в точном формате который может задать инструкции компьютеру. Таблица с колонкой дат в формате, как например YYYY-MM-DD, машинно-обрабатываема. Компьютеру можно указать поддерживать список в хронологическом порядке единожды и поскольку он будет знать где в файле искать даты и как интерпретировать текст даты как год, месяц и день. В сравнении простого текста с машинно-обрабатываемой таблицей, разница в значении огромна. Простой текст ограничивается возможностью только чтения. Таблица же открывает новые возможности для анализа, для помощи обществу знать о запланированных встречах или позволяя ему наблюдать или образовывать.
Конкретные решения, тем не менее, в том как закодировать информацию в машино-обрабатываемой форме. Эти решения определяют какие из аспектов информации допускают машинную-обработку и обычно рассматриваются с точки зрения терминов специфичности и цены. Файл календаря может включать, а может и не включать широту и долготу встречи. Доступность географических координат определённо добавляет возможность компьютерам обработать местоположение встречи точно и может помочь, например, при вождении до места встречи.
Но цена добавления координат к данным может того не стоить. На более высоком уровне, часто выбирается "формат файла" который бы наиболее точно подошёл для представления в машинно-обрабатываемой форме. Файлы документов - это машинно-обрабатываемые файлы данных которые инструктируют компьютер где разместить текст на странице и в каком формате. Веб страницы, для компьютера, это машинно-обрабатываемые "HTML" файлы которые указывают как представить текст на экране, что должно произойти по щелчку на ссылку и так далее. Новостные веб-сайты и блоги используют машинно-обрабатываемый формат "RSS" который может использоваться для агрегации новостей в приложениях называемых новостными аггрегаторами. XML и CSV форматы файлов - это часто используются для представления табличных данных или других типов записей. Нет единого формата файлов для машинной обработки который был бы удобен для любого применения.
Разветвление форматов данных
Зачастую информация может быть представлена в нескольких форматах и выбор формата имеет техническое и законодательное ветвления. К примеру, для документов это выбор между форматом Microsoft Word .doc, Adobe Portable Document Format (PDF) и менее широко известный OpenDocument Format (ODF). Документы Word легко редактируются и пересматриваются, PDF документы более приспособлены для печати и это технические особенности определяющие выбор формата документов. Мы рассмотрим ряд подобных ветвлений в этом разделе
Главное техническое ограничение в выборе формата данных в его устаревании которое может ограничить доступ к архивным данным. Использование инструментов и форматов лишь одного разработчика увеличивает вероятность устаревания. Несмотря на то что все форматы обладают таким риском, некоторые подвержены к нему в большей степени. Руководство по управлению цифровым сохранением библиотеки Cornell University отмечает что "проприетарные, закрытые спецификации" обладают наибольшим риском устаревания. Эти форматы рискуют поскольку привязаны к единственному продукту или компании. Возможности использования файлов в таких форматах десятилетия спустя требуют чтобы продукт для данного формата или компания существовали всё это время, что является рискованной ставкой учитывая скорость изменения технологий. (Проприетарные, но открытые спецификации находятся посередине. Эти форматы часто используются многими программными средствами, вместо привязки к единственному вендор, но остаются в зоне риска поскольку единственный вендор может "закрыть" последующие ревизии стандарта).
Наименьший риск несут не-проприетарные, открытые форматы. Они предполагают широкую область использования, обратную и прямую совместимость и независимость от краткосрочных коммерческих интересов. "Открытость" здесь означает свободную доступность и наличие публичной документации стандарта, а также возможность законного воспроизведения архивистами для доступа к утерянным записям. Эти форматы данных обычно используются в ПО с открытым кодом, программном обеспечении которое может свободно распространяться и изменяться. До 2008 года, формат Microsoft Word .doc был закрытым проприетарным форматом. Под давлением потребителей, сейчас оба формата Microsoft Word .doc и Adobe PDF являются проприетарными, но открытыми. OpenDocument Format (ODF) - это не-проприетарный открытый формат документов используемый в ПО с открытым кодом OpenOffice.
Выбор конкретного технического решения может непреднамеренно ввести различные ограничения. Информацию можно представлять в различных форматах, как правило, это зависит от задачи, поэтому перед тем, как выбрать рабочий формат данных, необходимо представлять для чего эти данные могут использоваться. В отдельных случаях, выбранный формат данных будет серьёзным препятствием на пути тех, кто захочет эти данные использовать. Например, документы Adobe PDF предназначены главным образом для печати, и этот формат значительно снижает возможность легко извлекать информацию из PDF файлов, к примеру, методом копирования и вставки, за счёт прекрасной возможности получать практически идентичные результаты на экране и на печати. Если пользователям необходимо цитировать или любым другим образом извлекать информацию, выбор Adobe PDF вряд ли будет наиболее подходящим. Использование «вычислительных облаков», т.е. специальных программных сервисов сторонних производителей услуг, например YouTube, создает аналогичные проблемы. Хотя эти услуги нередко обеспечивают свободный доступ общественности к ресурсам для просмотра, они обычно не позволяют осуществлять загрузку этих ресурсов на компьютеры пользователей с целью повторного использования. Конкретные ограничения на использование данных могут варьироваться от формата к формату.
Кроме того, эти проблемы усугубляются необходимостью получения лицензий на программное обеспечение, с помощью которого можно получить информацию, представленную посредством некоторых патентованных форматов. Форматы опутанные лицензиями, необходимостью платить отчисления владельцу патента и другими патентными ограничениями только добавляют проблем. Если хранители и потребители информации должны выплачивать лицензионные сборы для доступа к открытым данным, данные больше не являются открытыми с практической точки зрения. Хотя эти проблемы могут возникать с любыми патентованными форматами, они традиционно наиболее часто встречаются в форматах аудио/видео данных, например, MPEG форматах. Каждое устройство воспроизведения аудио/видеозаписей в формате MPEG (т.е любой музыкальный проигрыватель или компьютер) и вообще любая передача информации в формате MPEG должны быть лицензированы у владельца патента. Хотя потребители обычно не знают о лицензионных отчислениях, как правило, уже включенных в стоимость приобретаемых устройств и оплаченных заводом-изготовителем, эти выплаты делают многие возможные способы использования MPEG формата непозволительной роскошью. Условия лицензионных соглашений могут меняться и на деле меняться часто. К сожалению, компании-владельцы наиболее популярных операционных систем, корпорации Майкрософт и Apple, использовали свои позиции для продвижения патентованных форматов. В результате получилось, что такие форматы являются наиболее привычными для потребителей. Тем не менее, текущая прискорбная рыночная ситуация не даёт права правительству опустить руки в деле распространения информации, которая не требует чьего-либо разрешения на доступ. Форматы мультимедиа Ogg Vorbis и Ogg Theora являются в настоящее время основными форматами медиа-данных, необременёнными лицензионными путами, они также являются открытыми и незапатентованными.
Вкратце, важно чтобы данные раскрывались в форматах, которые:
Не зависят от использования единственного программного продукта или компании.
Полностью документированы.
Допускают максимальное число вариантов использования.
Свободно доступны для использования без лицензионных, патентных или других ограничений.
Лучшие практики
Путь к достижению лучших практик
В мире ограниченных ресурсов требуется пошаговый план достижения лучших практик. Мы рекомендуем следующий порядок приоритетов:
Правительственные агентства должны в начале организовать простой веб-сайт чтобы обеспечить критические и требуемые законодательством потребности общества.
Должна быть установлена политика агентства относительно открытых данных и лучших практик в вебе , например начальником информационного отдела агентства после консультации с публикой.
Должен быть доступен полный массовый доступ к публичным записям которыми управляет агентство например через FTP. Открытие публике массового доступа к публичным данным агентства гарантирует что публика имеет по меньшей мере необходимую информацию для самообразования и выполнения своей надзорной роли через поиск, сортировку и преобразование информации по своим потребностям.
Затем сайт нужно расширить добавив в него функциональность поиска по всем публичным записям согласно потребностям его посетителей.
И наконец, агентство должно разработать программные интерфейсы (APIs) и веб-сервисы для доступа к таким данным, которые позволят любому желающему автоматически искать, извлекать или публиковать информацию. Простейшие же задачи поиска и извлечения информации уже будут удовлетворены на этом этапе массовым доступом к полным данным.
С точки зрения стратегии, есть два направления которые может избрать агентство чтобы обеспечивать и поощрять открытость и соответствие технологическим лучшим практикам:
Наиболее очевидным, но зачастую нецелесообразным направлением является законодательное регулирование степени открытости данных и технологических способов осуществления такого регулирования, начиная с описания того, какого рода информация должна быть доступна, каким образом она должна быть доступна и, возможно, указания способа государственной правовой помощи любому желающему, который считает, что имеются нарушения в рамках действующей правовой системы.
Ассоциация бухгалтеров государственного сектора для своей публикации "Движение за оздоровление и открытость" в 2009 году произвела опрос финансовых директоров, высших руководителей и лидеров надзорных инстанций в федеральных, окружных и органах местного самоуправления США и Канады. По результатам обследования были разработаны восемь принципов финансовой открытости, представляющие, пожалуй, первое определение открытости, сформулированное государственными руководителями. Два из этих принципов поддерживают мысль о том, что государственная информация изначально должна считаться открытой для общества:
«3. Быть как можно более открытыми, учитывая возможные риски. Открытым должно быть всё, что не нарушает безопасность государства или существующие законы.» «5. Не просто реагировать на запросы — очень важна активная информационно-разъяснительная работа с населением.»
Департамент управления и бюджетной политики Белого Дома [http://www.whitehouse.gov/omb/ - прим. пер.] также последовал принципу изначальной открытости данных в своём распоряжении A-130, устанавливающим руководящие принципы для органов исполнительной власти в области распространения цифровой информации и в документе "Принципы создания публичных федеральных веб-сайтов", устанавливающим требования для всех органов исполнительной власти, включая следующие:
"Необходимо представлять данные в открытом, хорошо зарекомендовавшем себя формате, позволяющем пользователям отбирать, детализировать и анализировать информацию, и осуществлять любые другие действия, в соответствии с их целями"
Второе направление заключается в необходимости периодического обзора открытости данных и выявления наилучших технологических решений в этой области. Такой обзор будет способствовать снижению количества регуляторных изменений и, особенно, если будет производиться независимым учреждением, внесёт свой вклад в достижение наилучшего технологического уровня самого процесса раскрытия данных. Наши рекомендации по этому вопросу, основанные на публикациях Робинсона и др. (Robinson et al., 2009), мы представили в статье "Шире дорогу к данным!", опубликованной на сайте Webcontent.gov.
"Если данные, доступные на веб-сайте государственного учреждения, позволяют любому желающему полностью воспроизвести функции поиска, сортировки и отображения, предложенные на этом сайте, то можно считать, что данные раскрываются в достаточной степени."
Какого рода информацию следует раскрывать в первую очередь?
Принципы, разработанные Ассоциацией бухгалтеров государственного сектора, указывают на два правила, которые необходимо соблюдать:
"4. Информация должна помогать в принятии решений." "8. Следует чётко осознавать, что процесс и результат раскрытия данных несут в себе определённые затраты, поэтому предполагаемые капиталовложения должны быть оправданы. Наибольший доход на средства, вложенные в раскрытие информации, можно получить, сперва определив приоритетные направления."
Правительство любой страны несёт особую ответственность за предоставление общественности информации, которая помогает обществу в роли контролёра за деятельностью властных органов. В документе "Принципы Открытого Государства", разработанного при поддержке Sunlight Foundation, рекомендуется придерживаться нескольких приоритетных направлений при определении того, какая информация должна быть доведена до общественности путём наилучшего применения существующих технологий:
Информация, имеющая отношение к коррупции, надзорной деятельности и использованию власти.
Информация, предоставление которой для выборных должностных лиц закреплено действующим законодательством.
Любые законодательные документы, особенно, перед тем, как они становятся законами.
Существуют и некоторые другие вопросы, решение которых практически полностью зависит от того, какую роль играет государство в области информационных технологий:
Несмотря на то, что государственным органам следует стремиться к предоставлению данных в форматах, которые поддерживают наиболее широкие возможности анализа и повторного использования этих данных, существуют и другие не менее важные приоритеты. Технологии могут быть пока недоступны всем желающим. Использование новейших технологий может расширить возможности некоторых высокотехнологичных слоев общества, тогда как другие, не имеющие свободного доступа к требуемым технологиям, останутся за бортом. Кроме того, не все технологии могут успешно применяться в отношении лиц с ограниченными возможностями.
Необходимо с достаточной мерой осторожности относится к негосударственному сектору. При использовании веб-сервисов, предоставляемых частным бизнесом, необходимо убедиться, что такой веб-сервис соблюдает стандарты конфиденциальности, доступности, архивирования, а также рад других, соблюдение которых требуется от правительственных веб-сайтов. Необходимо в явной и понятной форме объяснять пользователю такого ресурса как происходит отслеживания сессий пользователей, какие применяются меры по обеспечению безопасности собранных данных, а также обеспечить соответствие веб-сервиса требуемым стандартам доступности. Помимо того, в случае использования услуг негосударственного сектора, возникают дополнительные вопросы авторского права, товарных знаков и условий предоставления услуг.
Что же такое - Доступные государственные данные?
Рекомендации в этом разделе адресованы тем, кто желает разобраться в том, что же такое доступные государственные данные, и, в первую очередь, мы рассмотрим что означает раскрытие данных, и затем, какие государственные данные должны быть доступны. Данные рекомендации затрагивают все виды свободно доступной цифровой государственной информации, включая доклады, аудио/визуальную информацию, базы данных, стенографические отчеты и любые другие государственные документы и результаты деятельности гос.органов в цифровой форме, не имеющие установленных законом ограничений конфиденциальности, безопасности, авторского права или ограничений на распространение таких данных. Государственная информация, являющаяся закрытой в силу тех или иных положений закона, здесь не рассматривается.
Дать чёткое определение тому, что такое доступные государственные данные, не так легко, как это кажется с первого взгляда, и попыток определить такие и подобные им данные было сделано не мало. Организация "Открытые знания", поддерживающая веб-сайт opendefinition.org, даёт довольно краткое определение "открытости" информационных ресурсов (любых, не обязательно государственных). Достаточно, чтобы, во-первых, цена доступа к такой информации не превышала цену получения её копии и, во-вторых, имелась возможность дальнейшего распространения и повторного использования таких данных. Однако "Открытые знания" устанавливает стандарт очень низким для правительств, позволяя другие условия лицензирования которые могут ограничить использование государственных данных. Ключевые Принципы Открытого Государства, сформулированные Американской Библиотечной Ассоциацией (ALA) прямо обращается самой базовой роли государства в раскрытии информации. Они отмечают важность должного финансирования распространения информации и роль библиотечных программ.
Очевидно, что ни один из наборов принципов не вобрал в себя полностью дух открытых государственных данных, поэтому мы решили просуммировать идеи, которые удалось обнаружить в различных источниках. Первый цитируемый нами принцип открытых государственных данных взят из "Принципов Открытого Государства" разработанного Sunlight Foundation и требования "доступа" OKD:
1. Информацию нельзя считать в полном смысле открытой, если нет возможности получить к ней доступ через Интернет без оплаты (в большинстве случаев). Сегодня, Сеть является первым местом, куда люди обращаются за информацией и они вправе ожидать, что таким способом смогут получить доступ к государственным данных. Если информацию можно получить только отправив запрос по обычной почте или, что ещё хуже, обратившись с запросом лично, то можно говорить о том, что информация недоступна подавляющему большинству граждан. Аналогично этому, любая плата, взимаемая за получение информации, значительно ограничивает её доступность. Плата, установленная на уровне не более чем минимальные издержки размещения информации - вполне приемлема и, к счастью, для большинства государственных материалов такие издержки равны нулю. В этом принципе нет "золотой середины". "Открытый" означает "доступный в сети Интернет" и, в общем случае, "без оплаты".
Дополним список наших рекомендаций теми, что были опубликованы Рабочей Группой по Открытому Государству (Open Government Working Group - opengovdata.org), организованной в ноябре 2007 года. В своём списке "Восемь принципов Открытого Государства" они изложили ряд определений открытых государственных данных. Попробуем тщательно разобраться с их рекомендациями 2-8. Итак, данные должны быть:
2. "Первичными: первичные данные получают от первоисточника, с максимально возможной степенью детализации, не прибегая к обобщениям или модификациям любого вида." Довольно часто мы сталкиваемся с ситуацией, когда в открытом доступе имеются аудио, видео и фотоматериалы только с низким разрешением, с целью их публикации в форматах, подходящих для Интернет пользователей. И хотя такой подход, бесспорно, важен, необходимо понимать, что публикация открытых материалов несёт с собой обязательство делать их доступными и в форматах с высоким разрешением, возможно, доступными одновременно с их "облегчёнными" версиями, что позволит использовать такие материалы в различных областях, например, в профессиональном издательском деле или с целью архивирования. Помимо этого, не следует слишком рьяно агрегировать численные и табличные данные с целью получить какие-либо конкретные результаты, поскольку при таком походе часть данных неизбежно будет утеряна.
3. «Своевременными: данные должны публиковаться максимально быстро, пока они не потеряли ценность». Другими словами, данные не являются открытыми, если опубликованы после того, как потеряли актуальность для общества. Величина временного интервала, в котором данные являются своевременными, зависит от природы массива. Как уже было сказано, к данным, относящимся к предстоящим политическим дебатам, предъявляются более высокие требования. Своевременность подразумевает не только скорость публикации данных, но и то, как быстро пользователи их находят. Ленты обновлений могут помочь оповещать пользователей о новом контенте, и данные должны явно содержать список последних изменений формата и содержания.
4. «Доступными: данные должны быть доступны максимальному кругу пользователей для максимального круга задач». Данные должны быть представлены в форматах, предоставляющих возможности как автоматизированного, так и недетерминированного анализа. Для этого наряду со стандартными промышленными протоколами следует по возможности использовать альтернативные протоколы и стандарты. Как было сказано ранее, выбор того или иного формата оказывает большое влияние на то, какие приложения могут быть построены на их основе, какие ограничения накладываются патентами этих форматов, и будет ли возможно использование архивных данных в будущем. Если данные доступны через интерактивный интерфейс, должен существовать способ скачать полный массив. Публичные данные должны быть полностью документированы, позволяя обществу понимать их структуру. Этот принцип также относится к требованиям «доступа» и «отсутствия технологических ограничений» OKD.
5. «Машинно-ориентированные: данные должны быть структурированы для автоматической обработки». В некоторых случаях формат публикации данных может свести на нет всю их пользу для общества. При выборе формата нужно учитывать техническую сторону вопроса. Произвольный текстовый формат не подходит для табличных и нормализованных данных. Текст в виде изображения не является текстом как таковым или его заменой. Следует избегать сканированных изображений печатных документов, так как они не допускают машинную обработку. Формат Adobe PDF является распространенным средством хранения документов, но он может затруднить машинную обработку, если документы содержат систематизированные данные, требующие анализа, или если документы содержат только сканированные изображения.
Используйте XML для государственных отчетов, это основной промышленный стандарт данных. Если нет возможности использовать XML, публикуйте дампы баз данных в наиболее удобном формате — текстовый формат просто обрабатывать и анализировать. Для периодической информации используйте такие форматы подачи, как RSS, Atom, iCal. Для аудио/видео информации комбинируйте широко распространенные форматы низкого качества для потокового вещания (например Flash), и открытые форматы с высоким качеством (например основанные на кодеке Ogg).
6. «Неограниченными: данные доступны каждому, без обязательной регистрации». Открытые данные должны быть доступны анонимным пользователям. Этот принцип также связан с требованием OKD «отсутствие ограничений».
7. «Не-проприетарными: данные не должны быть представлены в формате, полностью контролируемом какой-либо организацией или структурой». Проприетарные форматы накладывают ненужные ограничения на то, кто сможет использовать данные, как они могут быть обработаны и опубликованы, и будет ли возможность использовать их в будущем. Также использование проприетарных форматов может являться одной из форм скрытой рекламы, что может привести к конфликту интересов. Несмотря на то, что проприетарные форматы практически повсеместны, нельзя ограничиваться только ими. С другой стороны, соответствующий открытый формат может не быть доступным для достаточно широкой аудитории. В этих случаях возможна публикация данных в нескольких форматах.
8. «Нелицензированными». Распространение данных не должно быть ограничено законами об интеллектуальной собственности, такими как копирайт, патенты или торговые марки, договорные обязательства и другие ограничения. В то время как существующие законы по защите конфиденциальности и безопасности могут естественным образом ограничить распространение некоторых правительственных данных, любые ограничения должны быть исключением, но не правилом. В некоторых странах (но не США) правительственные данные могут распространяться под защитой авторского права (иногда это называется королевским копирайтом). В таких странах открытые данные должны быть явно отнесены ко всеобщему достоянию, или лицензированы таким образом, чтобы обойти ограничения копирайта (см. May & Steinberg 2007, стр. 33). Должны быть приложены все усилия к (пере)публикации закрытых документов в соответствии с этими принципами, которые являются ужесточенной версией требований OKD «перераспределение» и «повторное использование».
К восьми указанным принципам мы добавим рекомендации к открытому государству, опубликованные Ассоциацией Вычислительной Техники в феврале 2009.
Original (English): Open Data is Civic Capital: Best Practices for "Open Government Data"
