Aktuální vydání

celé číslo

07

2024

Elektrické, hydraulické a pneumatické pohony; polohovací mechanismy

Kamerové systémy a zpracování obrazu

celé číslo

Datové sklady při kontinuální výrobě

číslo 7/2003

Datové sklady při kontinuální výrobě

Článek se zabývá použitím datových skladů jako součásti výrobního informačního systému v podnicích s kontinuální výrobou. Vysvětluje základní kroky při tvorbě těchto specifických datových skladů s upozorněním na zásadní význam validace dat. Na konkrétním příkladu softwarového senzoru ukazuje principy dolování z dat v odvětvích s kontinuální výrobou.

1. Úvod

Za datový sklad (DS) se považuje integrovaný soubor databází optimalizovaný z hlediska využití pro potřeby rozhodování. Dalšími vlastnostmi DS jsou stálost (data jsou pouze ukládána a jsou k dispozici dlouhodobě) a zaměření na konkrétní problém [1]. V našem případě je konkrétním problémem podpora výroby v průmyslových odvětvích s kontinuální výrobou [2] (zpracování ropy, chemie, energetika apod.). Pro datové sklady obsahující mj. technologická (provozní) data z kontinuální výroby (pod vlivem angličtiny se často používají českému jazyku cizí označení „procesní data“, „procesní průmysl“ apod. – pozn. red.) se vžila zkratka PDW (Process Data Warehouse).

Datové sklady byly dosud popisovány zejména v oblasti podpory obchodních procesů (obchod obecně, bankovnictví, telekomunikace). Jejich použití jako součásti výrobního informačního systému v podnicích s kontinuální výrobou přitom má množství specifik, která znemožňují přímou aplikaci klasických postupů. V článku jsou proto pro zájemce podrobněji představeny základní kroky při vytváření těchto specifických DS.

Předem ještě poznamenejme, že plnění DS se označuje zkratkou ETL (Extraction, Transformation and Loading) a že v případě PDW hraje klíčovou roli též validace dat.

2. Zdroje primárních dat

Možné zdroje dat pro DS jsou uvedeny na obr. 1. Jejich zřejmě nejdůležitějším zdrojem jsou řídicí systémy výrobních jednotek, ať už jde o distribuované řídicí systémy (Distributed Control System – DCS) nebo programovatelné automaty (Programmablde Logic Controller – PLC) atd., které jsou v současné době běžně vybaveny relativně krátkodobými databázemi historických provozních dat (průtoky, teploty, tlaky apod.). Jedná se většinou o nerelační databáze okamžitých dat (Real Time DataBase System – RTDBS), které bývají pro úsporu paměti komprimovány. V některých podnicích mohou existovat relativně samostatné systémy pro měření a regulaci nosičů energie (tzv. utilit), jako jsou elektřina, topné plyny apod., které se však z hlediska zpracování dat neliší od výrobních jednotek. Počet veličin měřených a zaznamenávaných ve středně velkém podniku se pohybuje v řádu desítek tisíc a požadavky na kapacitu paměti jsou značné.

Obr. 1.

Pro průmysl zpracování ropy a chemii jsou typické sklady tvořené desítkami až stovkami zásobníků. Moderní sklady mívají automatické měření stavů hladin zpracovávané samostatným informačním systémem, který vypočítává hmotnost látek v zásobnících z přímo měřených parametrů. Měření zásob má význam zejména pro bilancování výroby a stanovování ztrát.

Dalším důležitým zdrojem informace jsou laboratoře. Předpokládáme, že laboratorní data jsou uchovávána v rámci LIMS (Laboratory Information Management System). Na rozdíl od provozních dat, která jsou snímána nepřetržitě, jsou laboratorní data k dispozici poměrně řídce a jejich dlouhodobá archivace nepředstavuje problém. Přesto tato data bývají dosti pestrá a počty stanovovaných analytických znaků se mohou pohybovat v rozsahu tisíců až desetitisíců. Pořizovat laboratorní data je dosti nákladné a lze pozorovat přesun k využívání automatických analyzátorů a softwarových senzorů (Quality Estimators – viz dále).

Údaje o příjmu surovin a expedici výrobků přes železniční nebo silniční terminály je možné získat z příslušných informačních systémů, které vedle množství též obsahují další informace (kvalitu produktů, zákazníky apod.). Objem těchto dat je opět řádově menší než objem dat provozních.

V praxi se vyskytují též další zdroje informací, které je účelné zařadit do DS (informace od zákazníků, systémy informací týkajících se životního prostředí aj.).

Charakteristickým rysem DS je různorodost ukládaných dat. Jedná se jak o výsledky měření nepřetržitě měřených veličin, tak o pravidelně i nepravidelně získávaná data z laboratorních a transakčních systémů. To klade značné nároky na logiku dalšího zpracovávání dat, kdy je třeba současně zpracovávat data získávaná s různou frekvencí.

3. Transformace dat

Transformací dat se rozumí výpočty dalších veličin z primárních (surových) dat. Může se jednat o širokou škálu výpočtů, jednoduchými aritmetickými operacemi počínaje a složitými modelovými výpočty konče.

Na nejnižší úrovni se jedná např. o korekce údajů průtokoměrů na stavové podmínky, které nebyly z různých příčin provedeny již měřicím nebo řídicím systémem. Integrovaný DS umožňuje využít veškeré dostupné informace, např. kombinovat výsledky přímých měření s daty z laboratoře apod.

Jiným druhem korekcí jsou přepočty stavových veličin technologických médií na standardní podmínky. Jako příklad může sloužit destilační kolona, u níž je kvalita produktu určena teplotou na určitém patře. Toto však platí pouze za předpokladu, že tlak v koloně je udržován na konstantní hodnotě. Pokud tomu tak není, lze naměřenou teplotu výpočetně korigovat na hypotetickou hodnotu, která odpovídá nominálnímu tlaku.

Současná výpočetní technika dovoluje rutinně provádět složité výpočty vlastností látek vycházející z databanky fyzikálně-chemických vlastností. Lze též provádět simulační výpočty zaměřené na přímo neměřitelné parametry výrobních procesů (účinnost zařízení, vnitřní toky v aparátech apod.). Důležité jsou bilanční výpočty umožňující jednak dopočítat neměřené toky, jednak vyrovnat přímo měřené toky tak, aby výsledky odpovídaly přírodním zákonům (viz dále).

Některé z uvedených transformací lze teoreticky realizovat i v rámci vlastních měřicích a řídicích systémů. Přepočet prováděný v rámci transformace dat je však často jednodušší a v případě složitějších transformací i jediná reálná cesta.

4. Agregace dat

Jak již bylo zmíněno v úvodu, jsou DS optimalizovány z hlediska jejich využití a ne z hlediska minimálních požadavků na rozsah databáze. Ukládají se do nich proto i údaje redundantní, které by bylo možné odvodit z jiných dat (bylo by to ale časově náročné).

Prvním krokem je agregace v časové dimenzi, kdy se z okamžitých dat vytvářejí data charakteristická pro pevně stanovená časová období. Nejčastější statistickou charakteristikou je střední hodnota, méně často hodnota na konci intervalu, extrémní hodnota apod. Běžně se uchovávají data hodinová, denní a měsíční, méně často šestiminutová, třicetiminutová nebo směnová. Pouze krátkodobě se uchovávají data okamžitá.

Probíhá též agregace v jiných dimenzích. Příkladem může být třeba kumulace spotřeby různých nosičů energie (utilit) na určitou výrobní operaci (kumulace spotřeby paliva, páry atd.). Zajímavé mohou být zjednodušené ekonomické bilance, peněžní vyjádření spotřebovaných utilit apod. V oblasti skladů se agregují zásoby produktů různé kvality, produktů podle skupin a podskupin apod.

5. Validace dat

Jedná se zřejmě o nejobtížnější činnost při vytváření DS. Důvěra v DS je bohužel přímo úměrná kvalitě dat v DS obsažených. Na rozdíl od obchodu, kde se výrobky i polotovary většinou počítají, při kontinuální (a popř. vsádkové) výrobě se produkty měří a váží. Základním problémem je zde přesnost uskutečňovaných měření a častý výskyt systematických i hrubých chyb. Pouze malá část chyb přitom bývá způsobena při vlastním plnění DS (v etapě ETL). Většina chyb vzniká při styku složitého, výkonného a mnohdy také citlivého přístrojového vybavení se syrovou průmyslovou realitou.

I jednoduché měřicí systémy přitom vybavují naměřenou hodnotu příznakem, který může signalizovat poruchu měření. U pokročilejších měřicích a řídicích systémů se lze setkat s dalšími prvky validace dat. Je možné stanovit meze, ve kterých by se měla nacházet správná hodnota. Lze sledovat drobné fluktuace výstupního signálu měřidla, které jsou známkou jeho funkceschopnosti. Použitelnost těchto metod je však omezena na ověření základní funkční schopnosti měřicího systému. Hlavním problémem při měření fyzikálně-chemických veličin jsou systematické chyby (bias) proměnné v čase. Nejpropracovanější metodou v tomto směru je konfrontace dat s matematickými modely, které platí mezi skupinami veličin.

Mezi mnoha veličinami platí empiricky zjištěné korelace, např. korelace mezi analytickými znaky zjištěnými na jednom vzorku. Jiným příkladem mohou být korelace mezi teplotami naměřenými řadou teploměrů v reaktoru. Jestliže tato korelace poklesne nebo zmizí, signalizuje to poruchu jednoho nebo několika měřidel.

Nejmocnějším nástrojem při validaci dat je konfrontace naměřených údajů s exaktně platnými matematickými modely. Nejčastěji jsou zde využívány základní přírodní zákony vycházející z principu zachování hmoty a energie [4]. Jsou to zejména bilance:

  • celkové hmotnosti,
  • množství látek,
  • energie, popř. entalpie,
  • hybnosti.

Vlastní validaci předchází vyrovnání dat, známější pod anglickým označením Data Reconciliation (DR, viz [5], [6]), založené na statistickém vyrovnání naměřených dat na základě matematických modelů (zejména bilančních). Vedle vlastního vyrovnání a zpřesnění naměřených hodnot a dopočítání hodnot neměřených veličin tvoří DR základ pro eliminaci hrubých a systematických chyb měření a analýzu jejich šíření a pro optimalizaci měřicích systémů.

Validace dat probíhá ve třech krocích:

  1. Detekce přítomnosti hodnoty nebo hodnot zatížených hrubou chybou.
  2. Lokalizace, tj. nalezení těchto chybných hodnot.
  3. Oprava chyb, popř. jejich odstranění z DS.

V této oblasti existuje mnoho propracovaných metod. Pouze zřídka však lze již zmíněné kroky plně automatizovat a lidský faktor je zde zatím nenahraditelný. Metody validace se proto většinou používají pod lidským dohledem u důležitých aplikací (zejména bilanční systémy). Takto konsolidovaná data tudíž většinou tvoří malý zlomek všech dat v DS, o to větší je však jejich význam, a tím i sledovanost.

6. Prezentace dat

Nezbytnou podmínkou úspěšnosti DS je jednoduché a efektivní poskytnutí dat uživatelům.

Přestože vývoj spěje k interaktivnímu využívání dat, kdy uživatelé mají značnou volnost při vytváření různých pohledů na data, význam neztrácejí ani předdefinované pohledy na data a dotazy připravené správcem DS. Takovéto předem připravované sestavy mohou být též automaticky generovány a zpřístupněny v podnikové síti nebo intranetu.

Těžiště přístupu uživatelů k datům již nyní ovšem spočívá v maximální volnosti jednotlivých uživatelů při využívání dat. Každý uživatel by měl mít vyhrazen vlastní prostor a maximální možnosti pro své soukromé aktivity (samozřejmě s výjimkou modifikace dat v DS). Konečnou formu prezentace je nejlepší přenechat uživateli v prostředí MS Office a nesnažit se tomuto prostředí konkurovat dokonalostí prezentace ve vlastním DS. Znamená to maximálně usnadnit exporty dat. Odměnou bude uvolnění správce a podpory DS od neustále narůstajících požadavků uživatelů DS.

Pro vlastní přístup k datům existuje velké množství prostředků, nástroji databází, na nichž jsou DS realizovány, počínaje a řešeními „ušitými na míru“ konče. Šlágrem poslední doby je tzv. tenký klient představovaný internetovým prohlížečem.

7. Dolování v datech

7.1 Význam pojmu
Pojem dolování v datech (popř. dolování dat) značí získávání dosud neznámých vztahů a souvislostí ukrytých v datech, jejichž potenciál lze využít při sledování, řízení a optimalizaci výrobního procesů [3]. Obecně se jedná o široké spektrum technik často spadajících do oblasti umělé inteligence (neuronové sítě, genetické algoritmy apod.). V praxi lze dosáhnout dobrých výsledků i klasickými metodami, zejména pokročilými metodami statistického zpracování dat [7].

Principy dolování dat v prostředí s kontinuální výrobou osvětluje příklad uvedený v následující kapitole.

7.2 Princip dolování v datech – vývoj softwarového senzoru (Quality estimator)
Principy dolování v datech v prostředí kontinuální výroby si osvětlíme na příkladu destilační kolony při využití možností nabízených prostředím databáze Oracle.

Předpokládejme, že všechna potřebná data z kolony jsou uložena v tabulce databáze Oracle o sloupcích QE, F, T, P, R a dalších. Přitom sloupec QE (Quality Estimator) obsahuje hodnoty koncentrace klíčové složky v destilátu kolony QE, sloupec F hodnoty nástřiku suroviny do kolony F, sloupce T a P hodnoty teploty T, popř. tlaku P v hlavě kolony, sloupec R hodnoty refluxního poměru R atp.

Skutečné hodnoty QE se zjišťují laboratorně, tj. nepříliš často, a protože je chceme předvídat v kterémkoliv okamžiku, pokusíme se jejich hodnotu „vydolovat“ z datového skladu. Příslušnou závislost lze vyjádřit vztahem

QE = f(F, T, P, R, …)     (1)

kde f bude nejspíše lineární funkce. V takovém případě je možné závislost (1) zapsat konkrétně v podobě lineárního modelu

QEm = a + bF + cT + dP + eR     (2)

přičemž QEm je koncentrace získaná výpočtem podle modelu a parametry a až e lze získat aplikací vícenásobné lineární regrese. Takovýto přímočarý postup však má svá úskalí, protože je zjevné, že veličiny figurující na pravé straně modelu nejsou navzájem nezávislé. Při identifikaci modelu je tedy nutné postupovat obezřetně a celý postup rozdělit do několika kroků.

V prvním kroku zjistíme, která z „nezávislých“ veličin je nejvíce korelována s veličinou QE. K tomuto účelu poskytuje Oracle analytickou funkci CORR, která vrací hodnotu korelačního koeficientu K pro specifikovanou dvojici veličin (sloupců tabulky).

Ve druhém kroku pro dvojici veličin s největší hodnotou K vyhodnotíme parametry lineární regrese. V Oracle jsou k dispozici analytické funkce REGR_INTERCEPT, popř. REGR_SLOPE. K tomu lze ještě stanovit tzv. koeficient determinace K2 (funkce REGR_R2). Předpokládejme, že výpočet R ukazuje na rozhodující vliv teploty T a že výsledek regrese je možné vyjádřit např. takto

QE,T = a1 + c1T     (3)

V případě, že absolutní hodnota K je menší než 1 (tedy v praxi vždy), se ještě pokusíme „vysvětlit“ odchylky lineárního modelu (3) od skutečnosti.

Ve třetím a čtvrtém kroku tedy zopakujeme kroky 1 a 2, přičemž hodnotu nezávislé veličiny QE zmenšíme o hodnotu předpovídanou výchozím lineárním modelem (2). Výsledek je možné zapsat takto

QE – QEm = a2 + e2R     (4)

Budou-li hodnoty koeficientu determinace K2 i nyní dostatečně významné, je možné výsledky kroků 1 až 4 zkombinovat do rovnice

QE, T, R = a1 + a2 + c1T + e2R     (5)

V případě potřeby lze naznačeným způsobem dále pokračovat.

Jakmile je právě popsaným způsobem kvantifikován vztah mezi veličinami modelu, lze daný model využívat k předpovědi kvality práce kolony v kterémkoliv okamžiku, aniž je třeba čekat na výsledek laboratorní analýzy.

8. Aplikace DS

Aplikací DS máme na mysli službu uživateli, která mu opakovaně přetváří data v informaci. Datové sklady by měly představovat spolehlivý zdroj údajů pro posuzování chodu výroby. Příklady některých aplikací typických pro kontinuální výrobu jsou uvedeny na obr. 2. Samozřejmou podmínkou pro úspěšnost aplikací je jejich dokonalá integrace s DS.

Obr. 2.

Základem sledování funkce výrobních systémů jsou tzv. operační okna, což jsou oblasti, ve kterých se mají udržovat provozní veličiny. Oblasti mimo operační okna znamenají neoptimální nebo jinak nevhodný provoz. Hranice těchto oblastí mohou být konstantní, závislé na provozovaném režimu nebo dynamické, jako funkce jiných provozních veličin. Datové sklady umožňují vyhodnocovat chod výroby a upozorňovat na situace, kdy jsou hodnoty sledovaných provozních veličin mimo operační okna. Podobným způsobem je možné sledovat chod výroby i z dalších hledisek.

Již zmíněný koncept Quality Estimation (QE) představuje modelování údajů o fyzikálně-chemických vlastnostech produktů z jiných, snáze měřených veličin (teplot, tlaků atd. ve výrobním zařízení). Je tak možné nahradit řadu laboratorních stanovení, která bývají k dispozici pouze s malou frekvencí a jsou dost nákladná. Proto se o aplikacích QE také někdy hovoří jako o softwarových senzorech (software sensors). Podmínkou vzniku dobrých modelů pro QE jsou právě historická data z DS.

Datové sklady tvoří též základ pro implementaci norem ISO řady 9000 a 14000 – DS lze chápat jako evidenci dat se vztahem k životnímu prostředí ve smyslu požadavků environmentální legislativy.

Datový sklad by měl rovněž představovat jednotnou konsolidovanou databázi pro bilancování všech výrobních procesů v podniku. Spotřeba materiálu a energie představuje v odvětvích s kontinuální výrobou rozhodující část výrobních nákladů. Sledování výtěžků a měrných spotřeb energie je proto důležité i pro dobré ekonomické výsledky podniků.

Literatura:

[1] HUMPRIES, M. a kol.: Data warehousing. Computer Press, Praha, 2002.

[2] SIEGEL, P.: Data Warehousing in the CPI. Chemical Enginering, 55, July 2001.

[3] HARMON, L. –SCHLOSSER, S.: CPI Plants Go Data Mining. Chemical Engineering, 96, May 1999.

[4] VEVERKA, V. V. – MADRON, F.: Material and Energy Balancing in the Process Industries. Elsevier, Amsterdam, 1997.

[5] MADRON, F.: Data reconciliation – metoda zpracování dat z technologických procesů. Automa, 2002, roč. 8, č. 6, s. 40–41.

[6] VEVERKA, V. V.: Balancing and Reconciliation Minibook. Ústí nad Labem, 2001, http://www.chemplant.cz

[7] HIMMELBLAU, D. M.: Process Analysis by Statistical Methods. John Wiley & Sons, New York, 1970.

Ing. František Madron,
Ing. Miloslav Hošťálek,
ChemPlant Technology, s. r. o.
(chemplant@unl.pvtnet.cz)

Článek je redigovanou verzí příspěvku Datové sklady v procesním průmyslu předneseného autory na firemní konferenci Informační systémy průmyslového podniku (pro podnikovou úroveň řízení) pořádané agenturou AD&M v hotelu Devět skal na Vysočině od 23. do 24. dubna 2003.

Inzerce zpět