Hangazonosítás
témakörében készített referátum
Készítette: Horváth Dóra
HODPAAA.PTE
2. szemeszteres hallgató
A Hangazonosítás c. szemináriumon megismerkedtem a kriminológia egy új ágával, az igazságügyi hangazonosítással. Érdeklődni kezdtem a hangazonosítás technikai oldaláról, a hang fizikai tulajdonságairól és milyenségéről.
Munkámban általános összefoglalót kívánok nyújtani a fenti témákkal kapcsolatban.
Mi is az a hangazonosítás?
Az emberi beszédhang vizsgálata, összehasonlítása nemcsak a bűnügyi gyakorlatban, hanem a mindennapokban is megjelenik, hála a technika vívmányainak. Egyre többen kerülünk kapcsolatba olyan hangazonosító rendszerekkel, melyek egy tárolt hangminta segítségével azonosítják a beszélőt.
Külföldön egyre gyakoribbak az ilyen szisztéma szerint működő beléptető rendszerek, biztonsági kapuk. Az így felvett hang optimális minőségű, a személyek tudtával és közreműködésével készül, az ő céljaikat szolgálja. Így a természetes hangjukon beszélnek, és az azonosítás könnyen működik. A beszédhangot azonban könnyen befolyásolja egy megfázás, légúti fertőzés, vagy fogászati beavatkozás, így ez a rendszer nem tökéletes.
Mi magunk is kerülhettünk már kapcsolatba hangazonosító rendszerrel, ha nem is voltunk ennek tudatában. A legtöbb mobiltelefonon ugyanis, amelyek hangrögzítővel rendelkeznek, megadhatunk rövid hangparancsokat, így könnyítve a telefon kezelését. Ez a rendszer a fent említetthez nagyon hasonló, egy rögzített hangminta segítségével történik a hangparancs azonosítása.
Igazságügyi hangazonosítás
Az igazságügyi területen végzett hangazonosítás ennél sokkal összetettebb és bonyolultabb. A bűnügyben keletkezett hangfelvétel természetesen nem összehasonlítás végett készült. A minta rögzítésekor ugyanis a gyanúsított gyakran manipulálja a hangját, megnehezítve a nyomozást. Problémát jelent a felvétel alapzaja is (pl. telefonvonal vagy hangrögzítő rendszer hibái), ezen bizonyos mértékig lehet javítani.
Az összehasonlító vizsgálat spektografikus (hangszínkép-elemzéses) módszeren alapszik. Matematikai vizsgálatokat végeznek (FFT, FFTW, CEPSTRUM, SPECTOGRAM, LCP, LCPW analízis).
Alapvető kérdés, hogy a spektrális vizsgálat során felfedezett hasonlóságok milyen mértékű azonosságot mutatnak. A hangazonosság valószínűsége nem egyenlő a személyazonosság valószínűségével. Probléma lehet az időfaktor is, hiszen hangunk az életkor előrehaladtával változik. A beszédhang alapján viszont következtethetünk a beszélő korára, megjelenésére, fizikumára, nemére, sokszor társadalmi hovatartozására is.
A képen fent a hangjel, alul párhuzamosan a spektogram látható.
A "Kukac felmászott a fára" mondat spektrogramja.
Jól látható a mássalhangzók aperiodikus szerkezete és a magánhangzók periodikus struktúrája.
A hangfelvétel manipulálása
Editálásnak vagy montírozásnak nevezzünk azt, hogy hang editor rendszer segítségével a felvételből részeket emelünk ki, vagy vágunk bele, így megváltoztatva annak értelmét.
A hangfelvételt kétféleképpen lehet manipulálni: fizikai úton (pl. hangszalag vágása) és digitális úton (számítógépes rendszer segítségével).
A fizikai úton befolyásolt felvételt könnyű feltárni, sokszor laikus számára is egyértelmű a manipulálás. A vizsgálatok során a feltételezett vágási pontokból szoktak kiindulni. Elsősorban zajugrásokat, akusztikai elemek változását keresik. Minél hosszabb az ilyen felvétel, annál nagyobb az esély a lelepleződésre.
Hangutánzás
Az emberi beszédhang utánzásának kérdésköre igen érdekes. Sok hazai és külföldi komikus próbálkozott már meg mások hangjának, hangszínének imitálásával. Titka elsősorban az egyedi stílusjegyek átvételében rejlik. Különleges, egyedi beszédstílusú embereket sokkal könnyebb utánozni.
Mivel hangképzésünk elemei, jellemzői igen kötöttek, így csak kis mértékben tudunk változtatni azokon. Spektrális összehasonlító elemzéskor a legjobb hangutánzásra is fény derül. Viszont rövid, esetleg sérült hangfelvétel vizsgálatakor nem biztos, hogy ilyen egyértelműen fel lehet fedni a csalást.
Más a helyzet, ha azonos nemű testvérekről vagy egypetéjű ikerpárról van szó. Az ő esetükben a hangminták összehasonlítása problémát jelenthet, hangképzésük nagyfokú hasonlósága miatt. Ilyen esetekben, mint a gyakorlat is mutatja, sokszor nem lehet megállapítani a különbséget.
Mesterséges beszédhang
Az emberi beszédhang mesterséges előállítására számos kísérlet történt – mindeddig eredménytelenül. A beszéd hangzóiból mintát véve - azokat variálva -, ugyan létre lehet hozni érthető szöveget, de ez a szöveg mentes lesz az emberi beszédre jellemző hangsúlyoktól, stílusjegyektől. Monoton, gépi hang jön létre ilyen módon. Az ilyen szintetikus szövegről a laikus is könnyen megállapíthatja a manipulációt. (Ilyen szöveg pl. a pontos idő felhívásakor hallott hang.)
A digitális hangrekonstrukció
A digitális technológia új megközelítést igényel. Az igazságszolgáltatásban vizsgált analóg felvételeket előbb digitalizálni kell. A digitalizált jel jellemző paraméterei a mintavételi frekvencia és a felbontás. A CD audio szabvány 44,1 kHz mintavételi frekvenciát és 16 bit felbontást határoz meg. A mintavételi tétel alapján a mintavételi frekvenciának nagyobbnak kell lennie, mint a mintavett jel sávszélességének - a jel legnagyobb frekvenciájú összetevőjének - a kétszerese. Vagyis pl. egy 22 kHz-es hangjelállomány a 44,1 kHz-es mintavételi frekvenciával még átvihető.
A kriminalisztikában szereplő hangfelvételek sávszélessége igen kicsi, 3-5 kHz-es. Ez ugyan alulmarad a CD szabvány maximális átviteli értékétől, azonban sokkal jobb hangrekonstrukció érhető el, ha a mintavételi frekvenciát az analóg felvétel sávszélességének kétszeresénél jóval nagyobbra állítjuk. A hangfelvételi zavarok, hibák sokkal jobban elkülönülnek a hasznos információktól, könnyebben feldolgozhatók lesznek.
A szélessávú zajszűrés összetett feladat, a felhasználó hallása, érzéke és szaktudása döntő jelentőségű.
Az ábrán fent az eredeti, alatta a zajszűrt és zavarmentesített felvétel részlete.
A sikeres zajszűrés az analízis minőgégén, illetve a zajszűrés beállításainak paraméterein múlik. A helyreállított, alacsonyabb zajszintű felvételen a beszédérthetőség lényegesen jobb.
A szakértői rekonstrukció során a legfontosabb a zajcsökkentés mértékének meghatározása. A zaj csökkentésének mértékével ugyanis, egy bizonyos idő után, a hasznos jelek is torzulni fognak. A torzulás elfogadható, ha a rekonstrukció célja az volt, hogy a beszéd minél érthetőbb legyen, és nem számít, hogy a beszélő természetes hangja már-már gépi hanggá torzul.
Vegyük például azt az esetet, hogy a hatóság relatíve nagy távolságból képi- és hangfelvételeket készít, egy bizonyos esemény rögzítésére. Ha a képen felismerhetők a célszemélyek, akkor a hangfelvétel célja nem a beszélők azonosítása lesz, hanem az, hogy minél érthetőbb legyen a felvétel. Ilyenkor a beszéd ugyan érthetővé válik, de a digitális helyreállítás után nem lesz alkalmas a beszélők azonosítására.