Fonds Sonores v 1.0

Auteurs

Fabien Perrin, Nicolas Grimault

Contact

Merci de nous envoyer par e-mail vos commentaires, suggestions, demandes d’informations (fabien.perrin@univ-lyon1.fr et nicolas.grimault@olfac.univ-lyon1.fr)

Tutelles

UMR 5020 - CNRS – Université Lyon 1

Résumé

Le CD audio fonds sonores contient du matériel sonore pouvant être utilisé comme bruit de fond dans des études à but de recherche ou à but d’évaluation clinique des performances auditives dans le bruit. Ce CD audio contient des bruits standards (bruit blanc, bruit rose et « speech noise ») ainsi que des séquences dites de « cocktail party » composées de 4, 6 ou 8 locuteurs de langue française. Ces dernières sont originales de part le fait qu’elles sont constituées de signaux acoustiques contrôlés et « écologiques » (l’une des plaintes exprimée par les malentendants est justement de ne pouvoir suivre une conversation dans un environnement sonore compétitif de parole). Toutes les séquences sonores de ce CD audio ont été calibrées et ont la même énergie RMS moyenne (même dB SPL). Toutefois, des différences non négligeables peuvent apparaître à l’écoute en fonction du matériel utilisé pour la présentation des signaux. Chaque piste correspond à une condition expérimentale précise détaillée ci-dessous et peut être présentée en boucle.

Licence


someright

Fonds sonores est sous Licence Creative Commons ce qui signifie que vous êtes libres de reproduire, distribuer, communiquer au public et modifier cette création selon les conditions suivantes :
 Paternité. Vous devez citer le nom des auteurs en recopiant la mention suivante : Fonds sonores v-1.0, Perrin & Grimault (2005).
 Pas d'Utilisation Commerciale. Vous n'avez pas le droit d'utiliser cette création à des fins commerciales. Pour tout usage commercial et/ou clinique, veuillez contacter les auteurs (fabien.perrin@univ-lyon1.fr et nicolas.grimault@olfac.univ-lyon1.fr).
 Partage des Conditions Initiales à l'Identique. Si vous modifiez, transformez ou adaptez cette création, vous n'avez le droit de distribuer la création qui en résulte que sous un contrat identique à celui-ci.
 A chaque réutilisation ou distribution, vous devez faire apparaître clairement aux autres les conditions contractuelles de mise à disposition de cette création.
 Chacune de ces conditions peut être levée si vous obtenez l'autorisation du titulaire des droits.

La version intégrale du code juridique est disponible ici.

Descriptif

A- Bruits Standards

Piste 1 : Bruit blanc.

Ce bruit a une distribution spectrale égale à 1. A l’écoute, les fréquences aiguës sont donc dominantes. Il dure une minute.

Piste 2 : Bruit rose.

Ce bruit a une distribution spectrale égale à 1/f. On le qualifie parfois de bruit uniformément masquant car toutes les fréquences sont également perceptibles. Il dure une minute.

Piste 3 : « Speech noise ».

Il s’agit ici d’un bruit dont la distribution spectrale est plate jusqu’à 1kHz puis décroissante de 12 dB/octave suivant les spécifications de la norme ANSI (1989). Cette distribution spectrale mime le spectre moyen de la parole. Il dure une minute.

B- Séquences « Cocktail Party »

Les séquences « cocktail party » ont été constituées en mixant quatre, six ou huit sources de voix. Une seule voix était présente, à chaque instant, dans chacune des sources. Chaque source, enregistrée et modifiée selon le protocole détaillé en annexe I, était composée de phrases intelligibles, sans noms propres. A partir de ces sources, trois types de séquences, de 4 minutes, ont été générés :

    - « Cocktail party » : Séquences générées par mixage de plusieurs voix. Ces séquences sont décrites par l’auditeur comme un signal composé de plusieurs voix. Le nombre de locuteurs de ce bruit concurrentiel va influencer la détection d’un signal de parole pertinent. Un auditeur détecte mieux un signal de parole lorsque le bruit « cocktail party » concurrentiel contient 6 voix (Hoen et coll., 2005, annexe 3).
    - « Cocktail party » renversé : Il s’agit des séquences « cocktail party » inversées dans le temps. Ces séquences ont donc les mêmes caractéristiques acoustiques que les séquences « cocktail party » correspondantes mais deviennent inintelligibles. Bien qu’inversées, elles sont décrites comme ressemblant à de la parole.

    - « Cocktail party » bruité : Il s’agit des séquences « cocktail party » bruitées à l’aide de l’algorithme détaillé sur la figure suivante. Les spectres moyens de ces séquences sont proches de ceux des « cocktail party » d’origine et les enveloppes temporelles sont identiques. Ces séquences ont donc des caractéristiques acoustiques proches de celles des séquences d’origine. Elles sont inintelligibles et ne sont pas décrites comme ressemblant à de la parole.

L’intérêt des deux dernières conditions est de pouvoir mesurer les effets spécifiques des caractéristiques acoustiques et langagières de la séquence « cocktail party ». En contrastant par
exemple la première condition avec la deuxième, il est possible d’observer les effets dus spécifiquement aux aspects sémantiques de la séquence « cocktail party ». De façon similaire, le contraste entre la première et la troisième condition permet d’observer les effets provoqués par les aspects linguistiques (sémantiques et phonologiques) et prosodiques du signal. Hoen et al. (2005, annexe 3) ont montré que les performances de détection d’un signal de parole étaient meilleures en présence d’un bruit concurrentiel de type « cocktail party » bruité, intermédiaires en présence d’un bruit « cocktail party » renversé (à 4 voix) et les plus basses en présence d’un bruit « cocktail party » (4 voix).

B-1- Quatre voix de femmes

Piste 4 : « Cocktail party ».
Piste 5 : « Cocktail party » renversé.
Piste 6 : « Cocktail party » bruité.

B-2- Quatre voix d’hommes

Piste 7 : « Cocktail party ».
Piste 8 : « Cocktail party » renversé.
Piste 9 : « Cocktail party » bruité.

B-3- Quatre voix dont 2 de femmes et 2 d’hommes

Piste 10 : « Cocktail party ».
Piste 11 : « Cocktail party » renversé.
Piste 12 : « Cocktail party » bruité.

B-4- Six voix dont 3 de femmes et 3 d’hommes

Piste 13 : « Cocktail party ».
Piste 14 : « Cocktail party » renversé.
Piste 15 : « Cocktail party » bruité.

B-5- Huit voix dont 4 de femmes et 4 d’hommes

Piste 16 : « Cocktail party ».
Piste 17 : « Cocktail party » renversé.
Piste 18 : « Cocktail party » bruité.

Références

ANSI S3.6-1989 (1989) American national standard specification for audiometers.
Hoen, Grataloup, Grimault, Perrin, Pellegrino, Meunier, Collet (2005) Who hides behind the masks at the cocktail party? Behavioral assessment of different types of interferences occurring during speech-in-noise comprehension.” Interspeech.

Annexes

Annexe I : Protocole d’enregistrement des sources et procédure de génération des séquences « cocktail party ».

Chaque voix a été enregistrée indépendamment dans une cabine insonorisée, grâce à un microphone Røde NT1, un préamplificateur Ultragain MIC 2000 et une carte son RolandED UA-30. Les sons ont été enregistrés à une fréquence d’échantillonnage de 44100 Hz en 16 bits. Les modifications suivantes ont été alors appliquées à chacune des sources :
- Suppression des silences supérieurs à 1 seconde.
- Elimination des phrases avec erreurs de prononciation ou contenant des noms propres.
- Réduction du bruit optimisée pour signaux de parole (CoolEdit Pro© 1.1 – Dynamics Range Processing – preset Vocal limiter).
- Calibration de chaque source (Larson Davis système LD824, oreille artificielle : coupleur AEC101, casque Sennheiser HD250 linear II) en dB-A et normalisation de chaque source à 80 dB-A.
- Mixage des sources : cinq conditions ont été construites en faisant varier la quantité (nombre de locuteurs) et la qualité (timbres féminin et/ou masculin, d’âges répartis de façon homogène entre 25 et 45 ans) des sources : (1) quatre voix de femmes ; (2) Quatre voix d’hommes ; (3) Quatre voix dont 2 voix de femmes et 2 voix d’hommes ; (4) Six voix dont 3 voix de femmes et 3 voix d’hommes ; (5) Huit voix dont 4 voix de femmes et 4 voix d’hommes

Annexe II : Algorithme de bruitage

(disponible sur demande au format MATLAB©)

annexe II

Annexe III : Résumé de Hoen et al. (2005)

Since its first description by Cherry more than fifty years ago, the cocktail party phenomenon gave rise to numerous studies mainly in the domains of the neurophysiology of auditory processing and psychoacoustics. Up to now however, speech in noise comprehension and more particularly speech in concurrent speech sounds was rarely studied in the domain of linguistics or psycholinguistics. In this paper we report a study interested in the differential effects of different types of speech derived noises as multi-talker cocktail party sounds and their time-reversed pendent on the comprehension of isolated words. Results from this experiment suggest that different levels of linguistic information from concurrent speech signals can compete with linguistic information in the target signal, mainly depending on the spectral saturation caused by the increasing number of voices in concurrent signals. These results suggest linguistically specific participations in informational masking effects occurring in the context of speech in speech comprehension.

Remerciements :

Samuel Garcia et Etienne Gaudrain pour leur aide dans l’élaboration et l’enregistrement du matériel sonore. Michel Hoen pour avoir accepté de rédiger et de voir figurer ici un résumé de ses travaux.