Листопад 2021

ПРОТОКОЛИ АВТОМАТИЗОВАНОГО РОЗПОДІЛУ СУДОВИХ СПРАВ МІЖ СУДДЯМИ:
АУДИТ НАБОРУ ДАНИХ

Автор:
Ренат Насрідінов,
аналітик Українського центру суспільних даних
Вступ
Чинною на момент дослідження редакцією постанови Кабінету Міністрів України «Про затвердження Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних» від 21.10.2015 № 835 на Державну судову адміністрацію України (ДСА) покладено обов'язок оприлюднення набору даних «Протоколи автоматизованого розподілу судових справ між суддями» (протоколів авторозподілу). Цей набір даних було додано в постанову змінами [1], що набрали чинності 28.04.2021.

Зауважимо, що хоча обов'язок оприлюднення цього набору даних покладено на ДСА, остання своїм наказом [2] поклала обов'язок безпосереднього оприлюднення наборів даних на ДП «Інформаційні судові системи».
Дані
Протоколи авторозподілу судових справ можна отримати на запит від судів або ж від державного підприємства «Інформаційні судові системи».

На вебпорталі «Судова влада України» у розділі «Стан розгляду справ» доступні звіти автоматизованого розподілу, які є більшими за обсягом інформації, аніж протоколи [3]. Однак користувач не може повноцінно завантажити звіт до стадії розгляду справи, оскільки:
  • звіт доступний лише для кожної стадії розгляду справи окремо;
  • для доступу до звіту про автоматизований розподіл потрібно проходити тест CAPTCHA;
  • звіт про автоматизований розподіл можна лише роздрукувати або зберегти як файл PDF.

Оприлюднення
Державна судова адміністрація України оприлюднює протоколи авторозподілу як на Єдиному державному порталі відкритих даних (Портал ВД) [4], так і на у розділі «Відкриті дані» вебпорталу «Судова влада» у розділі «Набори відкритих даних» [5].

Протоколи авторозподілу оприлюднюються ДСА щодоби у вигляді ZIP-архівів з ім'ям виду YYYYMMDD000000_YYYYMMDD000000.zip, де рядок YYYYMMDD зліва від _ збігається з датою оприлюднення файлу, а рядок справа від _ збігається із датою, що передує даті оприлюднення архіву.

Крім цього, після перевірки вмісту архівів було встановлено, що дати внесення інформації до системи автоматизованого розподілу, зазначені у протоколах, які містяться в архіві, значно відрізняються від дат, із яких складається ім'я файлу. Наприклад, у файлі 20210728000000_20210729000000 знаходяться протоколи автоматизованого розподілу не лише за 27-28.07.2021, а і ще за понад 600 різних дат.

Всупереч вимогам постанови Кабінету Міністрів України № 835, ані на сторінці набору даних на Порталі ВД, ані на сторінці із даними у розділі «Відкриті дані» вебпорталу «Судова влада» не розміщено інформацію про структуру даних, тож користувачам про структуру набору та зміст даних залишається лише гадати.
Формат та структура
Кожен ZIP-архів містить збережений у файл об'єкт JSON [6], який має такі ключі: CAUSE_NUMBER, DOC_CREATE_DATE, DOC_DBID, DOC_ID, EDRSR_CODE_2007, JUDGES, DOC_HTML.

Хоч відповідна документація відсутня, завдяки спостереженням вдалося визначити значення окремих ключів:
  • CAUSE_NUMBER – номер справи;
  • CAUSE_PROC_NUM – номер провадження;
  • DOC_DBID – невідомо;
  • EDRSR_CODE_2007 — код суду з довідника судів;
  • JUDGES – перелік суддів, розділених комами;
  • DOC_HTML – див. нижче;
  • DOC_ID — ідентифікатор документа;
  • DOC_CREATE_DATE – дата (в умовах відсутності опису набору важко визначити, датою чого саме вона є) у форматі Unix Timestamp з мілісекундами [7], додатково див. розділ «Розбіжності метаданих»
Ключ DOC_HTML
Державна судова адміністрація використала настільки оригінальне рішення для оприлюднення файлів протоколів автоматичного розподілу, що це заслуговує окремого розділу.

На відміну від способу, що застосовується під час оприлюднення Єдиного реєстру судових рішень, коли на Порталі ВД та сайті оприлюднено лише метадані рішень з посиланнями для завантаження файлів з текстом рішень (тобто, самі рішення фактично не оприлюднюються ні на Порталі ВД, ні на сайті), для оприлюднення протоколів було використано інший спосіб.

Файли протоколів оприлюднюються разом із усіма метаданими. Для цього їх стиснуто у ZIP-архів (один файл — один архів), після чого цей архів (який є двійковим файлом) перекодовано у звичайний текст за допомогою кодування Base64 [8], і вже отриманий текст є значенням ключа DOC_HTML у файлі JSON.

Тобто, значенням ключа DOC_HTML у файлі JSON є Base64-представлення ZIP-архіву, що містить протокол авторозподілу.

У кожному ZIP-архіві міститься один HTML-файл з протоколом авторозподілу. Ім'я файлу має формат {EDRSR_CODE_2007}_{DOC_ID}.html*, наприклад 827_19176133.html.
*
Фігурні дужки додані автором дослідження для візуального відокремлення символу підкреслення у назві ідентифікаторів від символу підкреслення, який присутній у назві файлу.
Файли
На момент дослідження ДСА оприлюднила 3,2 млн протоколів, останній архів з якими був оприлюднений 06.11.2021, судячи з його назви.

Слід відзначити, що кількість архівів з файлами JSON у розділі «Відкриті дані» вебпорталу «Судова влада» значно менша, ніж на Порталі ВД. Якщо на вебпорталі «Судова влада» оприлюднено 194 архіви із файлами JSON, то на Порталі ВД — 3 627.

Для аналізу було завантажено файли з порталу судової влади, які, з огляду на їх назви, містять дані про протоколи автоматизованого розподілу за 28.04-07.11.2021.

Розбіжність у кількості файлів пояснюється тим, що на Портал ВД файли з даними за один день завантажувалися більше одного разу.

Так, до прикладу, файл з даними протоколів авторозподілу за 20.10.2021 було завантажено на Портал ВД 397 разів, за 21.10.2021 — 341 раз, і так далі. Загалом більше одного файлу з однаковою назвою було завантажено на Портал ВД для 169 файлів зі 195 з однаковими назвами.

Вибірковий контроль показав повну ідентичність окремих файлів, що мають однакові назви. Так, файли 20211024000000_20211025000000.zip виявилися ідентичними, контрольна сума md5 кожного з них — ee183a76c7f64fcb067750585b74536d, а з 4 файлів 20210428000000_20210429000000.zip, що завантажені на Портал ВД, однаковими виявилися лише 3.

Перевірка показала, що різні файли відрізняються кількістю протоколів у них. Так, в одному файлі 20210428000000_20210429000000.json містилися дані про 9 342 протоколи, а в іншому — про 19 860; у двох файлах 20210708000000_20210709000000.json — про 11 755 та 23 955 протоколів.

Розрізнити ці файли можливо лише за ключем "hash" у відповіді API Порталу ВД який визначається для файлу не завжди.

Ситуації з дублікатами можна було би уникнути за умови дотримання правильної схеми розміщення файлів на Порталі ВД. Організація зберігання файлів у сховищі даних, яке по суті є каталогом (яким, зокрема, є і портал відкритих даних), має здійснюватися за принципом каталогізації, з логічним розділенням на набори даних та ресурси.

Зберігання даних на сучасних порталах відкритих даних дуже нагадує зберігання файлів у папці на Google Drive:
  • набір даних є папкою
  • файли у ній — ресурсами
  • версії одного і того ж файлу — ревізіями ресурсу

З урахуванням цієї концепції, набір файлів за 365 днів складався б лише з 365 файлів, а для випадків, коли протягом доби оприлюднено кілька файлів з різною кількістю протоколів у них (як згаданий вище 20210708000000_20210709000000.json), всі такі файли за добу стали би ревізіями, що значно спростило би пошук та завантаження потрібних файлів і дозволило б уникнути плутанини.
Дублікати записів
Хоча протоколи авторозподілу і оприлюднюються окремими файлами JSON, у наборі даних наявна значна (216763) кількість дублікатів протоколів, причому частина з них присутня у наборі більше, ніж 2 рази. Так, 3 документи у наборі даних зустрічаються 52 рази кожен, 14 документів — 50 разів, 38 документів — 48 разів тощо.

Хоча перевірка і показала повну ідентичність цих файлів, ми залишили їх у наборі, оскільки досліджується якість даних набору, а не окремі аспекти автоматизованого розподілу справ.
Оприлюднення протоколів судів різної юрисдикції
Для визначення юрисдикції судів був використаний перелік суддів у судах системи судоустрою України станом на 14.01.2021, наданий ВККС на запит [9].

В розрізі юрисдикції найбільша кількість протоколів авторозподілу очікувано належить загальним судам (2,1 млн, 65,7%). Протоколи адміністративних судів становлять 27,6%, господарських — 6,5%, спеціалізованих — 0,2%.

Разом з цим, проведений аналіз оприлюднення* протоколів авторозподілу протягом інтервалу часу з початку 2011 року по листопад 2021 (з урахуванням факторів, викладених у розділі «Неспівпадіння метаданих набору») показав, що протоколи авторозподілу судів різної спеціалізації оприлюднювалися доволі нерівномірно.

Так, протоколи господарських судів до листопада 2019 року у наборі даних наявні у кількості менше ніж 100 шт. за кожен місяць, при цьому, наприклад за 2013 рік у масиві даних 48 протоколів, а за 2014 — 67.

Протоколи адміністративних судів за 2011 - 2012 рік оприлюднені фрагментарно (за цей період у наборі міститься усього 51 протокол).

По загальних судах протоколи почали з'являтися у наборі лише починаючи з травня 2018 року (усього за 2018 рік оприлюднено 17,1 тис. протоколів), а по спеціальних — з вересня 2019.
*
«Оприлюднення» в цьому випадку означає наявність у наборі хоча б одного протоколу авторозподілу за відповідний період часу.
Придатність до використання
Повнота інформації
Завантажені файли з набору даних містять метадані про 3 212 042 протоколи; однак до цих метаданих додається лише 3 211 761 файл, оскільки у 281 об'єкті JSON ключ DOC_HTML взагалі відсутній.

На сайті судової влади користувачу по кожній окремій справі пропонується переглянути «Звіт про автоматизований розподіл» або «Звіт повторного автоматизованого розподілу», у той час як HTML-файли містять 45 унікальних варіантів назв документів, набір даних з якими називається «Протоколи автоматизованого розподілу судових справ між суддями». Тому тут і далі під назвою «протокол автоматизованого розподілу» мається на увазі будь-який з цих 45 видів документів.

Більше ніж 80% загальної кількості становлять такі документи:
  • Протокол автоматизованого розподілу – 1 828 015, або 56,9%
  • Протокол передачі судової справи – 514 445 (16,0%)
  • Витяг з протоколу автоматизованого розподілу – 351 794 (11,0%).

На жаль, не маючи у своєму розпорядженні повного масиву звітів про автоматизований розподіл із сайту судової влади, ми не можемо здійснити повноцінний аналіз їх змісту для порівняння із масивом даних, оприлюдненихв якості відкритих даних.
Натомість вибіркове дослідження показало, що у даних «звіту про автоматизований розподіл» на сайті судової влади в більшості випадків наявні такі дані:
  • спеціалізація
  • кількість суддів, що розподіляється (і яких визначено на поточну спеціалізацію)
  • складність справи
  • інформація про учасників судового процесу (крім випадків, коли згідно вимог ЦПК, КАСУ, ГПК та КПК України сторони процесу та суть справи не відображаються)
  • інформація щодо визначення судді за випадковим числом
  • дата та час початку та закінчення автоматичного розподілу
  • інформацію щодо вибору доповідача
  • коефіцієнти навантаження
  • версії клієнта, БД та час виконання
  • кількість суддів, яких визначено на поточну спеціалізацію
  • кількість суддів, що розподіляється
  • складність справи
  • інформація про учасників судового процесу
  • інформація про вибір доповідача (перелік виключених суддів та причин виключення — відрядження, відпустка тощо)
  • інформація про суддів, з яких проводиться вибір, коефіцієнти навантаження, інтервали та приведена вага
  • інформація щодо визначення судді за випадковим числом
  • час початку та закінчення автоматизованого розподілу (дата, години, хвилини)

Натомість у цих файлах міститься лише така інформація, що відповідає звіту про автоматизований розподіл:
  • суть судової справи (спеціалізація)
  • головуючий суддя (суддя-доповідач)
  • склад колегії суддів

Файли протоколів передачі судової справи раніше визначеному складу суду, що складаються з 15 рядків, є цілком аналогічними, за винятком:
  • файл HTML з порталу відкритих даних судової влади додатково містять інформацію про підстави передачі, в той час як ця інформація відсутня у звіті про автоматизований розподіл.

На відміну від більшості файлів із незначною кількістю рядків, файли, що мають значну кількість рядків, додатково можуть містити:
  • інформацію про учасників справи
  • склад колегії суддів
  • інформацію про виключених суддів та суддів, серед яких відбувався вибір

Однак таких файлів поки що значно менше, ніж протоколів у яких відсутня важлива для користувачів інформація.
Вміст файлів
Усі оприлюднені у наборах відкритих даних файли протоколів авторозподілу по суті є файлами HTML, усі файли мають власну внутрішню таблицю стилів.

В процесі дослідження вдалося виявити два варіанти таблиці стилів CSS:
  1. Із назвами класів виду rvps<цифра> та rvts<цифра> (rvts87, rvps2 тощо)
  2. Із назвами класів виду ps<цифра> та fs<цифра> (ps2, fs45 тощо)

При цьому помітно, що різні назви CSS-класів використовуються для своєрідної розмітки сутностей у протоколі авторозподілу.

Так, для першого варіанту стилей клас rvts21 позначає тест з ім'ям судді, клас rvts23 — по батькові, а rvts25 — прізвище; rvts13 позначає назву суду, rvts15 — номер судової справи, rvts89 — дату внесення до системи автоматизованого розподілу.

Для другого варіанту fs52 позначає єдиний унікальний номер справи, fs49 — головуючого, fs53 — назву суду тощо.

Існує також третій варіант розмітки, заснований на другій схемі іменування класів: fs37 позначає єдиний унікальний номер справи, fs35 — головуючого, fs38 — назву суду тощо.

Ці особливості використання класів CSS не документовані, і жодних пояснень цій системі розмітки ДСА в описі наборів не надає.
Метатеги
Цінність будь-якого набору даних визначається тим, наскільки потрібною для користувачів є інформація у ньому, а його якість — від того наскільки легко цю інформацію отримати.

У попередніх версіях оприлюднених HTML-файлів були присутні метатеги, затверджені Інструкцією про порядок виготовлення, надсилання, реєстрації, обліку та зберігання копій судових рішень, що підлягають внесенню до Єдиного державного реєстру судових рішень, (додаток 3 до наказу ДСА 14.05.2008 N 37) [10].

Цим наказом визначено 29 метатегів. Як видно з переліку, ці метатеги містять важливу для користувача інформацію у вже виокремленому вигляді як пари ключ-значення — перелік суддів у рішенні з їх кодами (існування яких ДСА заперечує), тип позивача та відповідача, закрите чи відкрите засідання, код категорії справи та ін.

Наявність цієї інформації у вигляді чітких пар була надзвичайно цінною властивістю HTML-файлів, оскільки дозволяла з легкістю отримати основну інформацію по справі, на відміну від спроб отримання інформації безпосередньо із тексту рішення, спираючись на недокументовані та непостійні назви класів CSS.

Метатеги були присутні у HTML-файлах протоколів ще на початку вересня 2021 року. У нашому розпорядженні є файл 2070_5995650.html, що містився у складінабору даних, завантаженого з порталу судової влади 7 вересня 2021 року, що містить метатеги. Однак якщо завантажити цей файл зараз (як з Єдиного державного порталу відкритих даних, так із порталу судової влади), то метатегів там вже немає.

Відповідний файл JSON з'явився на Порталі ВД 22.10.2021, отже метатеги було видалено із файлів протягом вересня-жовтня 2021 року. Замість метатегів у деяких файлах можна зустріти у коді HTML-файлів коментар "here goes DSS meta".
Зміна обсягу інформації
Непрозорість розпорядника в питаннях оприлюднення цього набору даних, відсутність інформації щодо структури протоколів авторозподілу, опису інформації, яка оприлюднюється, не дає можливості чітко виокремити зміни в порядку оприлюднення протоколів авторозподілу.

Однак певні маркери все ж дозволяють визначити зміну обсягу інформації у файлах. Одним з них є наявність у тексті інформації про категорію справи у вигляді рядка, який починається зі слів Категорія справи:, за яким слідує назва категорії.

Аналіз вмісту файлів протоколів авторозподілу показав, що за І півріччя 2021 року включно частка протоколів авторозподілу, де зазначається категорія справи, була мізерною і не перевищувала 1,5% по судах усіх спеціалізацій, причому по загальних судах за цей період не було оприлюднено жодного протоколу авторозподілу із зазначенням категорії справи.
З липня починається оприлюднення протоколів, у яких вже зазначається категорія справи — загальні, господарські та адміністративні суди оприлюднюють близько 10% таких протоколів авторозподілу, а починаючи з серпня частка таких протоколів авторозподілу досягає половини загальної кількості у адміністративних судах та перевищує третину у загальних та господарських.

Слід відмітити, що з липня 2021 року у текстах протоколів також масово почали з'являтися відомості про дату та час початку та закінчення розподілу: якщо за все перше півріччя 2021 року таких протоколів у наборі даних 5,8 тисячі, то за липень їх вже 12,4 тис., а за липень-жовтень 2021 року — 226,9 тис. шт.
Розбіжності у метаданих набору
Державне підприємство «Інформаційні судові системи» листом від 25.09.2020
№ 4651/6/14-20-20 повідомило, що за період з 21.01.2011 по 01.01.2015 протоколи авторозподілу у системах документообігу судів не формувалися.

Незважаючи на це, у метаданих наборів (ключ JSON об'єкту DOC_CREATE_DATE) вказані дати за періоди до 01.01.2015, а саме з 06.06.2000 по 31.12.2010 (131 протокол), з 12.01.2011 по 30.12.2014 (595 протоколів).

Перевірка протоколів, для яких дата в метаданих набору є меншою, ніж 21.01.2011, показала, що дата із протоколів відрізняється від дати у метаданих набору, і справжня дата проведення авторозподілу лежить в межах 2021 року.

Справжня дата проведення авторозподілу була отримана із тих файлів, для яких це можливо, і врахована під час проведення аналізу оприлюднення протоколів судів різної юрисдикції (два записи, 2270_695425 та 5021_842213 було виключено із масиву для аналізу, оскільки відповідний HTML-файл у наборі для них відсутній).
Основні недоліки набору даних
  1. Головним недоліком набору є його непридатність для машинної обробки. Незважаючи на наявність певних схем маркування сутностей у тексті за допомогою класів CSS, ці схеми недокументовані у повному обсязі, і можуть змінитися без попередження.

  2. Описаний в попередньому пункті недолік не був би настільки критичним, якби ДСА не видалила із документів метатеги — їх наявність дозволила би швидко отримати структуровану інформацію.

  3. До набору даних на єдиному державному веб-порталі відкритих даних не надається інформація про структуру даних набору: не описані ключи об'єктів JSON, відсутня інформація про креативний підхід зберігання ZIP-архівів із протоколами у кодуванні Base64. Відсутність опису метаданих набору лише породжує нові питання: що означає дата у ключі DOC_CREATE_DATE, якщо іноді вона не збігається із датою внесення в систему автоматизованого розподілу? Чому назва ZIP-архіву із файлом JSON містить дві дати — сьогодня і вчорашня, а протоколи всередині можуть бути за багато років?

  4. Більш ніж половина оприлюднених станом на початок листопада протоколів автоматизованого розподілу містять так мало корисної інформації, що непридатні для використання у якості даних для судової аналітики. На порталі судової влади користувачам у звітах авторозподілу пропонується більший обсяг корисної інформації.

  5. Масив містить дублікати файлів, що збільшує час попередньої обробки.
Рекомендації
  1. Привести набір даних у відповідність вимогам постанови Кабінету Міністрів України «Про затвердження Положення про набори даних, які підлягають оприлюдненню у формі відкритих даних» від 21.10.2015 № 835 насамперед в частині оприлюднення структури набору даних (п. 6 Положення).

  2. Забезпечити більшу придатність даних для машинної обробки, повернувши у протоколи автоматизованого розподілу метатеги.

  3. Розпочати оприлюднення звітів авторозподілу у формі набору даних з огляду на те, що вони містять значно більше інформації про процедури авторозподілу.
пПублікацію видано в межах Ініціативи з розвитку аналітичних центрів в Україні, яку виконує Міжнародний фонд «Відродження» у партнерстві з Ініціативою відкритого суспільства для Європи (OSIFE) за фінансової підтримки Посольства Швеції в Україні.

Думки та позиції викладені у публікації є позицією ГО "Фундація DEJURE" та не обов'язково відображають позицію Посольства Швеції в Україні, Міжнародного фонду «Відродження» та Ініціативи відкритого суспільства для Європи (OSIFE).