Entrevista
con Daniele Gullà
Carlos G. Fernández
Daniele
Gullà es ingeniero en electrónica y un especialista
en reconocimiento de voces e imágenes. Actualmente trabaja,
junto con expertos del Tribunal de Bologna y con la Policía
italiana, en el análisis forense de voces e imágenes.
Es consejero técnico en Biomedicina en el Departamento de
Biofísica en la Universidad de Bologna y recientemente fue
designado Experto de Sonido en Identificación de la Voz por
la Justicia de los Tribunales de Modena (Italia), y Experto en la
Identificación de rostros por los Tribunales de Cassino (Italia).
Con este currículum y los más sofisticados medios
técnicos a su alcance, se atrevió a buscar en las
entrañas del fenómeno psicofónico.
1-
¿Un análisis informático puede determinar si
una voz es de origen humano o paranormal?
Efectivamente, hoy en día un análisis informático
puede decirnos muchísimo sobre las características
de una voz humana o presunta paranormal. Podemos reconstruir completamente
las características fisiológicas de las cavidades
de resonancia y obtener información sobre los órganos
del habla con una simulación de ordenador. Es posible, por
ejemplo, conocer las dimensiones y el espesor de las cuerdas vocales,
la densidad de los tejidos blandos, de las cavidades nasales, presión
del aire y malformaciones estructurales de la cavidad laríngea,
etc. Todo esto es posible bajo una condición esencial - la
calidad y la cantidad de material audio disponible tiene que ser
muy alta para permitir la medición de los éstos parámetros
con cierto margen de certeza. Estas condiciones están muchas
veces presentes en los análisis de las voces humanas pero
muy pocas veces se encuentran en las presuntas voces paranormales
que frecuentemente no poseen los requisitos para poder efectuar
un análisis científico y objetivo. Consecuentemente,
no puedo contestar a tu pegunta con precisión pues todo depende
de la calidad y de la cantidad de material audio. En algunos casos
es posible afirmar con seguridad que la señal vocal examinada
no contiene importantes elementos estructurales propios de la voz
humana. En este caso hablamos de 'anomalías' o características
acústicas 'raras' que no pertenecen al rango de conocimiento
de la electroacústica tradicional aplicada al lenguaje humano.
2
- ¿Que diferencias hay entre una voz normal y una paranormal?
Hay varias características que fueron medidas por investigadores
en todo el mundo y por mi mismo. Las anomalías acústicas
fueron:
-Ausencia
o presencia parcial con fragmentación múltiple de
la frecuencia fundamental.
-Ausencia de las vibraciones de las cuerdas vocales en los sonidos
tímbricos con o sin la presencia de la frecuencia fundamental.
-Algunas veces la estructura de las formantes está reemplazada
por un espesor del ruido en el rango pertinente evidenciando un
movimiento no sinusoidal o considerablemente alterado.
-Aumento anómalo de la intensidad de la señal en la
segunda formante (F2) y fortalecimiento de los armónicos
superiores con pobre textura melódica y fragmentación
espectral.
-Anomalías en las frecuencias con valores excesivos para
la frecuencia fundamental y para las formantes más altas.
-Anomalías en la distribución de energía en
el tiempo en toda la estructura de la señal que parece ser
formada por muchos pequeños paquetes de energía, uno
seguido del otro, situación que causa dificultades al aislar
los varios componentes estructurales espectrales.
-Anomalías en la periodicidad de la señal en el análisis
de auto- correlación.
-Variaciones anómalas en el desarrollo de la densidad espectral.
-Anomalías en el discurso que dificultan la elaboración
de un mapa acústico.
-Anomalías temporales con súbita lentitud o aceleración
del discurso.
-Elisión parcial o total de las consonantes.
-Distorsión de los armónicos.
3
- ¿Un análisis informático puede determinar
objetivamente que es lo que dicen las psicofonías?
Si la señal es de buena calidad, los análisis informáticos
basados en la posición de las frecuencias y en el desarrollo
temporal de las formantes pueden indudablemente establecer la tipología
de los fonemas en las vocales y en las consonantes. Aun así,
frecuentemente el material paramétrico de las voces psicofónicas
(EVP) no es claro y es muchas veces aleatorio. Esto significa que
en muchos casos no es posible determinar con seguridad la posición
del fonema utilizado, por ejemplo una 'A' percibida por un experimentador
de EVP, cuando se analiza con software apropiado puede sonar como
entre una 'A' y una 'E'. Todo esto depende no solamente del oyente,
sino también del idioma utilizado por el presunto comunicador
paranormal. Esta imprecisión determina un cierto grado de
escucha psicoacústica dependiente de los oídos de
quién escucha. Algunos entenderán el sonido de una
'A' otros escucharán una 'E'. A través de un análisis
de probabilidades el ordenador puede ayudar a establecer si en el
idioma específico utilizado el sonido pertenece a una u otra
vocal. Sin embargo es necesario no olvidar que existe aun un problema
relacionado con la distorsión de la señal o con un
valor demasiado bajo o demasiado alto en el muestreo de la señal.
El muestreo de la señal debería siempre poseer la
más alta calidad y no presentarse con los valores audio comunes
suministrados por defecto en los ordenadores domésticos,
pues estos pueden introducir un cierto margen de error en las medidas
e interpretación de los sonidos lingüísticos,
además obviamente de las características propias de
los 'canales de comunicación'. En este área hay programas
predecibles que utilizan el HMM (Hidden Markov Model) el cual puede
corregir automáticamente de un modo probabilística
la señal audio de entrada.
4
- Las comparaciones entre voces de una persona viva y las psicofonías
obtenidas después de muertas, ¿Que eficacia tienen?
En el test de identificación de una voz o de un espectro
desconocido con la muestra de una voz o de un espectro conocido
(cepstrum en las formantes o área de dispersión de
F1…F5) determinamos como objeto la siguiente tarea: ¿Existe
en la base de datos una imagen del espectro modelo biométricamente
identificable? O mejor, ¿existe un mapa gráfico de
las áreas de dispersión de las formantes similar o
identificable con las del segmento desconocido con cierto margen
de certidumbre (más de 95%)? ¿Nuestros oídos
y cerebro humano han reconocido correctamente el timbre vocal como
perteneciente a una persona fallecida o es al mejor una percepción
psicoacústica errónea o un artefacto?
Este problema es con frecuencia recurrente en un Tribunal y puede
ser resuelto en ciertas condiciones con la ayuda de sistemas A.I.
(Artificial Intelligence) que utilizan los modelos Neuronal Networks
(NN) y Hidden Harkov (HMM). La firma, la escritura o la voz humana
tienen características dinámicas y no estáticas,
como es el caso de las huellas dactilares o el volumen craneal.
No podemos subestimar este problema pues repercute en la precisión
del peritaje y muchas veces no permite la identificación
de la identidad de quien habla con total seguridad, permite solamente
la atribución de valores porcentuales de probabilidad.
Los métodos de análisis estadísticos informatizados
basados en las frecuencias de las formantes han adelantado en parte
relativamente a estos problemas. Aun así, la validez del
método está decisivamente aumentada si el perito en
reconocimiento vocal puede apuntar a muestras homogéneas
como, por ejemplo, las frecuencias de las formantes en vocales estables
o los índices de coarticulación media presentan variaciones
que pueden ser reducidas significativamente cuando las comparaciones
pueden ser ejecutadas en frases iguales pronunciadas de la misma
manera.
La metodología utilizada en el procesamiento de datos es
la siguiente:
En el conjunto de datos de formantes se calcula la distancia Mahalanobis
D2X1-X2 de acuerdo con la siguiente relación (1):
(1)

donde
X1 y X2 son las medias de los valores de las formantes relacionadas
con los dos sujetos que estamos comparando (conocido 1 - desconocido
2) y S-1 es el inverso de la matriz de co-variación de la
muestra, extrapolada de los valores deducidos del experimento.
Se calcula entonces el T2 de Hotelling de acuerdo con la relación
(2):
(2)
donde N1 y N2 son los números de las vocales homólogas
consideradas para los dos sujetos (e.g. 7 vocales "A"
para el sujeto conocido 1, y 9 vocales "A" para el sujeto
desconocido 2) y D2 es la distancia Mahalanobis definida en (1).
El valor numérico T2 obtenido de la relación (2) debe
de ser comparado con el valor crítico definido en la relación
(3):
(3)
donde
N1 y N2 son elementos ya definidos en la ecuación (2), p
es el número de grados de libertad, correspondiente al número
de los varios parámetros usados (e. g. si consideramos los
valores de F0 y de las tres formantes F1, F2, F3 el valor p = 4)
y Falpha(...) corresponde al valor crítico de la función
de Fisher definida para la significación y parámetros
p y (N1 + N2 - p - 1) que se pueden encontrar en tablas apropiadas,
en el cual tenemos el valor crítico para alpha= 0.05 correspondiente
a un reconocimiento de probabilidad de 95%.
La hipótesis de coincidencia de los sujetos que hablan es
aceptable cuando el valor T2 definido en (2) resulta menor que el
T2 crítico definido en (3).
En realidad
para su total fiabilidad el test de reconocimiento de voz no puede
exceptuar ninguno de los elementos arriba mencionados i.e., la calidad
de la señal original, la fiabilidad de la fase de muestreo
y los tres criterios de evaluación i.e., el espectrográfico
(espectrograma), estadístico (T2 por Hotelling) y el perceptivo
(testes de audición).
Muchas
veces utilizamos también modalidades estadísticas
con carácter de probabilidad. Estas consisten en el uso de
varios algoritmos que muestran las características distintas
de cada sujeto hablante a través de la modulación
de las propiedades del lenguaje, tales como los sonidos sostenidos
de las vocales o los sonidos efímeros de las consonantes
y la transición entre ellos. Cada uno, utilizando métodos
diferentes, junta un determinado conjunto de vectores N, lo deposita
en una cifra para ser más tarde comparado con todas las secuencias
numéricas de los varios sujetos hablantes que se encuentran
en la base de datos.
En nuestro
laboratorio utilizamos principalmente las llamadas técnicas
mixtas de correspondencia de modelo (pattern-matching). Estas técnicas
incluyen la ejecución de la media de las características
a largo plazo del VQ (Vectorial Quantification), del HMM (Hidden
Harkov Models) del NN (Neuronal Network) y de los sistemas de segregación.
En cualquier caso utilizamos técnicas como el Modelo Gaussiano
de Mezcla, las funciones Fourier Bessel y el mapa acústico
de probabilidad. Una característica común a todas
las técnicas de reconocimiento de voz arriba mencionadas
es que ellas ejecutan una cantidad considerable de reducción
de datos, una especie de mediación. La reducción de
datos es necesaria para obtener las características distintivas
del lenguaje de un individuo y también para que el proceso
de reconocimiento sea accesible para ejecución por el ordenador.
Es importante
tener en cuenta que en cualquier caso la posibilidad de reconocimiento
nunca facultará una certeza de 100% una vez que la voz de
cada ser humano no es completamente única (al revés
de lo que pasa con las huellas dactilares). Hay personas diferentes
con voces realmente muy similares como nosotros mismos comprobamos
cuando nos equivocamos sobre la identidad de quién nos telefonea.
La voz de un individuo tampoco es inmutable, depende de muchos factores
y la misma persona puede producir parámetros analíticos
diferentes.
Por consiguiente, para la valoración es conveniente considerar
la variante entre sujetos hablantes (i.e. las diferencias entre
las voces de distintas personas) y la variante intra sujeto hablante
(i.e. las diferencias en las características de la voz del
mismo sujeto obtenida en momentos y contextos diversos).
Consecuentemente, podremos considerar que un test de reconocimiento
de identidad de voz es fiable si las diferencias entre los datos
del desconocido y del sujeto hablante de quien se sospecha puede
ser la voz no exceden las normales diferencias intra sujeto hablante,
pero si esos valores se encuentran excedidos deberemos de considerar
que la confirmación de identidad no se puede aplicar y por
consiguiente que los sujetos hablantes son dos personas distintas.
Es práctica común y en general es también requerido
por los tribunales de justicia, presentar la tasa de porcentaje
de probabilidad de coincidencia entre el sujeto hablante desconocido
y el sujeto hablante de quien se sospecha, la cual es todavía
siempre inferior a 100%. Esta tasa es obtenida no sólo a
partir de un cierto algoritmo matemático, pero también
de consideraciones subjetivas globales deducidas de la experiencia
y de la literatura, que son facilitadas como compendio en todos
los diferentes métodos de análisis utilizados. Así
que a tu pregunta puedo contestar que la fiabilidad es relativamente
proporcional a la calidad-cantidad de los elementos examinados,
por otras palabras depende del material acústico analizado
establecer si los datos disponibles son suficientes para permitir
un veredicto a favor o en contra de la compatibilidad y de la identidad
de las voces.
5 - Si estas voces comparadas fueran a un juicio, ¿las aceptaría
un jurado como prueba de que son de la misma persona?
En algunos casos, en realidad muy pocos (yo verifiqué personalmente
solamente cerca de diez) fue posible sacar conclusiones definitivas
sobre la identificación del timbre vocal de la voz comparada
de una persona fallecida grabada cuando la persona vivía
y la voz psicofónica. En muchos otros casos fue únicamente
posible conseguir un veredicto de probabilidad, por ejemplo las
voces son compatibles en una proporción de 60% a 80%, pero
no es posible garantizar el reconocimiento de la identidad del sujeto
hablante. Como he dicho anteriormente, en un muy pequeño
número de casos conseguimos establecer indudablemente la
identidad cuando la compatibilidad de los gráficos fonéticos
excedieron el 95% de precisión. En fechas recientes (desde
junio de 2004) contamos además con la colaboración
de algunas personas que 'no pueden aparecer' y esas personas han
puesto a nuestra disposición medios informáticos utilizados
por el FBI que tienen un margen de error de 0.03%!
6
- ¿Como se comparan las imágenes paranormales? ¿Cuando
pueden considerarse que son verdaderas imágenes paranormales
y no ilusiones ópticas o desórdenes cognitivas?
Para las voces y sobretodo para las imágenes yo utilizo el
software de 'reconocimiento de modelo' (pattern recognition) el
cual es utilizado para comparar huellas dactilares o rostros humanos.
El que uso yo ahora es un programa utilizado por el FBI, el cual
puede ejecutar con extrema precisión cualquier tipo de análisis
(véase Fig. 1) en muchas áreas de la investigación
tales como:
Biométrica
Motor de Búsqueda Audio-Visual para Internet
Reconocimiento de Imagen de Satélite (Defensa)
Detección de Cáncer (Medicina)
Huellas dactilares, huellas de las palmas de la mano, reconocimiento
de rostro (procesos criminales)
Captura del contenido-base de Imagen (Librerías digitales)
Reconocimiento de Imagen Espacial (Exploración del Espacio)
Reconocimiento de rostros, huellas dactilares, huellas de la palma
de la mano (Sistema de Seguridad)
Reconocimiento de sellos (Correos)
Verificación de firmas
Identificación de espectro
Verificación de las características de identificación
de la voz.
Búsqueda de Trademark
Identificación forense
Las
metodologías implementadas en los programas de análisis
son de todos modos similares. De acuerdo con el tipo de calculaciones
a ejecutar en datos dinámicos o estáticos se utilizan
varios algoritmos basados sobretodo en el Neuronal Networks, HMM
Supervisado y no supervisado y el Modelo Gaussiano de Mezcla. El
grado de precisión depende obviamente de la complejidad del
programa y de la honestidad del fabricante. Los programas utilizados
por el FBI y por la policía científica italiana y
rusa son de los más precisos que existen en el mundo. No
es fácil explicar como procedemos para observar, comparar
y analizar la imagen de un rostro humano a través de algoritmos
tales como Neuronal Networks o Wavelets o Filtros Gabor. Es un tema
complejo que no encaja en el perfil informativo de esta entrevista.
En el área de los análisis de imágenes es muy
difícil determinar si una imagen es anómala, i.e.
paranormal, aun más difícil que en los análisis
de voz. Hoy día es posible manipular cualquier imagen con
el ordenador, por consiguiente solamente tenemos en cuenta imágenes
que cumplan con los siguientes requisitos esenciales:
1. -tener
en nuestro poder el negativo de la fotografía,
2. -disponer de imágenes RAW en el caso de fotografía
digital.
Para
el análisis de imágenes empleamos programas sofisticados
o aparatos de laboratorio como el densímetro de espectro
o análisis multi-espectrales que utilizan plataformas como
el Matlab o sistemas informáticos utilizados por la Policía
científica y la NASA.
Muchas veces las llamadas imágenes 'paranormales' no son
más que el resultado de efectos de refracción óptica
o de algún artefacto. Solamente en pocos casos (cerca de
5%) pude encontrar imágenes anómalas interesantes
que no son el resultado de efectos ópticos o de un artefacto
sino que son más bien el producto informativo de una alteración
fotónica, quizá una especie de representación
virtual de una información basada en fotones como la describió
un científico.
Esa información podría pertenecer al presente y ser
objetiva o al pasado y no estar presente de modo objetivo y espacial
pero haber más bien sido originada por la interacción-psi
entre un ser viviente y el mundo físico-químico que
le rodea i.e., ser una interacción entre psi y materia. Naturalmente
hay muchas teorías y creencias en esta área pero estamos
aún lejos de una interpretación científica
de evidencia.
Entrevista
realizada en agosto de 2004