Publiczne dokumenty jako dane

Oświadczenia majątkowe bez przekopywania skanów.

ktomaco zbiera publiczne oświadczenia majątkowe, odczytuje PDF-y i ręcznie wypełnione skany, a potem zamienia je w dane, które można wyszukiwać, porównywać i sprawdzać przy źródle.

Co finansuje wsparcie

tokeny i przetwarzanie AI
hosting, baza danych i cache
nowe źródła i naprawy scraperów
Wesprzyj projekt

Wsparcie

Jedna wpłata pomaga przetworzyć paczkę dokumentów. Stała wpłata utrzymuje tempo.

Największy koszt to nie sam serwis, tylko regularne pobieranie, transkrypcja i strukturyzacja nowych deklaracji.

Pokrycie źródeł

Baza rośnie źródło po źródle.

Szacunki pokrycia pokazują, ile źródeł jest już w bazie i jak duża część pracy została do zrobienia.

Parlament

Sejm i Senat

100%
2/2pełny katalog

Urzędy centralne

KPRM, MSWiA, SN i kolejne indeksy

38%
3/8brakuje 5

Sądy

sądy apelacyjne

64%
7/11brakuje 4

Prokuratury

okręgowe, regionalne i krajowa

12%
7/58brakuje 51

Miasta

miasta na prawach powiatu

14%
9/66brakuje 57

Jak to działa

Od publicznego PDF-u do porównywalnej bazy.

AI rozwiązuje problem znajdywalności i porównywalności, ale każdy etap zostawia metadane, źródła i informacje o jakości.

01

Źródła

Scrapery zbierają dokumenty z BIP-ów, Sejmu, Senatu, sądów i urzędów.

02

Transkrypcja

PDF-y i skany trafiają do tekstu z metadanymi jakości i śladami problemów.

03

Ekstrakcja

Modele AI mapują treść na wspólny schemat: aktywa, dochody, długi i źródła.

04

Baza

Dane są normalizowane, przeliczane i wystawiane w rankingach oraz wyszukiwarce.

Metodyka

Najważniejsze jest nie tylko co pokazuje baza, ale skąd to się wzięło.

Każdy rekord zaczyna się od publicznego dokumentu. Pipeline zapisuje źródło, transkrypcję, wynik ekstrakcji, informacje o jakości skanu i koszty przetwarzania, żeby dało się wrócić od liczby do dokumentu.

Dane z oświadczeń bywają niepełne, odręczne albo niespójnie opisane, dlatego ktomaco pokazuje ograniczenia zamiast udawać pełną pewność: brakujące kwoty, korekty, jakość transkrypcji i ręcznie zweryfikowane wartości.

Kontakt i kod

Pomysły, błędy w danych, współpraca redakcyjna albo techniczna.