RECHERCHE SUR LE SITE

Références
bibliographiques
avec le catalogue


En plein texte
avec Google

Recherche avancée
 

Tous les ouvrages
numérisés de cette
bibliothèque sont
disponibles en trois
formats de fichiers :
Word (.doc),
PDF et RTF

Pour une liste
complète des auteurs
de la bibliothèque,
en fichier Excel,
cliquer ici.
 

Collection « Les sciences sociales contemporaines »

Une édition électronique réalisée à partir de l'article de Gilles BOURQUE et Jules DUCHASTEL avec la collaboration de Jacques BEAUCHEMIN et Pierre PLANTE “La méthode.” In ouvrage de Gilles Bourque et Jules Duchastel, Restons traditionnels et pro-gressifs. Pour une nouvelle analyse du discours politique. Le cas du régime Duplessis au Québec, pp. 51-98. Montréal: Les Éditions du Boréal, 1988, 399 pp. [Le 11 juillet 2004, l'auteur nous a accordé sa permission de diffuser la totalité de ses publications dans Les Classiques des sciences sociales.]

[51]

Gilles BOURQUE et Jules DUCHASTEL

La méthode”.

In ouvrage de Gilles Bourque et Jules Duchastel, Restons traditionnels et progressifs. Pour une nouvelle analyse du discours politique. Le cas du régime Duplessis au Québec, pp. 51-98. Montréal: Les Éditions du Boréal, 1988, 399 pp.

1. Les choix méthodologiques
Une approche empirique constructiviste
Une méthode d'analyse du discours
Une méthodologie assistée par ordinateur
2. L'étude des textes
Les corpus
La description du texte
L'exploration des textes
La comparaison des textes
Illustration de la méthode
Liste des tableaux
Tableau 1. Lexique : occurrences simples des mots catégorisés sous l'étiquette « tradition », par zone
Tableau 2. Exemple de résultats standard : « tradition » en position de thème
Tableau 3. Exemple de protocole de traitement des résultats : covoisinage de « tradition » (MOD 5)
Schéma 1. Phrase décrite par CBSF, la grille sociologique et GDSF extraite du discours sur le budget de 1952 (p. 36)


Toute analyse de discours ne saurait faire l'économie d'un exposé de la méthode qui l'oriente. Cette exigence s'impose d'autant plus que nous nous proposons justement d'étudier la dynamique interne du discours et d'analyser la spécificité de son travail dans la production de la société. Mais ce premier objectif se double d'un second : approfondir les possibilités mêmes de l'analyse du discours. Bien qu'il ne représente qu'une facette de la réalité sociale, le discours ne doit pas être réduit à un simple reflet des autres pratiques ; il contribue à produire la société. Il est donc nécessaire de s'arrêter aussi bien sur les techniques qui permettent de rendre compte du discours, que sur l'articulation méthodologique de ces techniques à des exigences théoriques portant sur la nature de l'efficacité de celui-ci.


1. LES CHOIX MÉTHODOLOGIQUES

Nos choix méthodologiques soulèvent trois ordres de problèmes. À un niveau très général, il faudra s'interroger sur la question épistémologique du rapport à l'empirie. Ainsi, notre approche empirique-constructiviste fera l'objet des développements de la prochaine section. La seconde question, traitée dans la partie suivante, concerne nos rapports aux traditions méthodologiques de l'analyse de contenu et de l'analyse du discours. La troisième section porte sur l'importance qu'a pu prendre l'informatique dans notre démarche.

[52]

Une approche empirique constructiviste

Jean-Claude Gardin [1] a jadis posé le véritable dilemme de l'analyse de contenu. Si la totalité de ce type d'analyse consiste à produire des résultats (R) par l'application d'une méthode (M) à un texte (T), on peut douter de la validité des résultats. Ne retrouve-t-on pas nécessairement dans les données ce que la grille de lecture y a projeté ? Le point de vue radical de Gardin peut certes être critiqué en ce qu'il présuppose qu'il puisse exister une telle chose qu'une méthodologie relativement indépendante de la théorie qui la met en œuvre et capable de produire en elle-même la découverte scientifique. Or, on ne peut sortir de la dialectique nécessaire entre la construction d'hypothèses sur le réel et les modalités de leur vérification. En d'autres mots, les textes ne peuvent parler d'eux-mêmes indépendamment d'un système quelconque de décodage qui devra répondre aux exigences de la construction théorique.

Mais, Gardin n'en met pas moins le doigt sur le problème essentiel de la nature de cette dialectique. Un système rigoureux de catégories appuyé sur des hypothèses fermes et appliqué méthodologiquement à un corpus permettra de vérifier l'existence plus ou moins importante de ces catégories et d'en tirer des conclusions. Mais deux inconvénients découlent d'une telle approche : le texte sera « traduit » dans certaines catégories et non dans d'autres, en même temps qu'on n'accédera qu'à l'information sur l'importance relative de ces catégories dans les divers sous-ensembles du corpus. Pour reprendre des concepts chers à la linguistique computationnelle, nous avons affaire là à une approche descendante (du construit théorique vers le texte) et déterministe (autorisant peu de retours en arrière).

À l'extrême opposé de cette façon de faire, on pourrait adopter une attitude impressionniste, laissant le texte « parler de lui-même » et les beaux morceaux du discours se recomposer dans un nouvel univers de sens proche de l'intuition théorique. L'approche serait alors totalement ascendante (du texte vers la reconstruction théorique) et non déterministe (autorisant autant de retours en arrière qu'il en faut pour raffiner le modèle d'interprétation). Sans parler de son spontanéisme, qui laisse toute sa place à l'implicite, une telle méthodologie relève davantage de l'analyse littéraire que de la sociologie.

L'objectif premier que nous poursuivons ici est d'accroître les possibilités d'investigation et de découverte, autant à propos du contenu du discours qu'à celui de son fonctionnement. Nous adoptons en conséquence une approche que nous qualifierons d'empirique constructiviste [2] [53] située entre les deux conceptions limites qu'on vient de rappeler, et dont la première caractéristique est de permettre aussi bien la « descendance » que l'« ascendance ». Une démarche descendante rigoureuse nécessiterait une théorie forte du discours capable de formaliser des hypothèses a priori et sur le contenu et sur le fonctionnement discursifs. Mais une telle perspective ne pourrait s'appliquer qu'à des sous-ensembles empiriques limités et à des corpus fortement homogènes. Ce qui n'est pas encore permis à la linguistique, dont l'objet a été judicieusement délimité, saurait difficilement s'avérer possible dans le domaine de l'analyse du discours. En d'autres mots, il n'existe pas de telles théories capables de structurer à l'avance un champ expérimental. Une stratégie descendante demeurerait donc essentiellement partielle et peu productive au chapitre de la découverte. Une approche ascendante pure renoncerait, à l'inverse, à toute préconstruction explicite. Nous proposons plutôt de définir des domaines larges d'investigation tout en adoptant une attitude ouverte au texte. Nous ne nous contenterons pas seulement de vérifier des hypothèses définies a priori, mais nous tenterons de développer celles-ci au contact de nouvelles données, en un mouvement d'aller-retour entre les hypothèses et les explorations textuelles.

Le deuxième trait de notre méthode renvoie à un présupposé non déterministe. En linguistique computationnelle [3] la notion de déterminisme signifie que tout choix posé à un certain point de l'analyse est irréversible. Cette question renvoie à la capacité d'une méthodologie de demeurer ouverte. Nous verrons plus bas que les choix que nous avons effectués faisaient en sorte que cette ouverture demeure et que des retours en arrière puissent aisément être effectués : conservation du texte intégral et possibilité illimitée d'y retourner ; grille de catégories orientée vers le regroupement empirique d'éléments dans un même domaine sémantique, plutôt que vers l'apposition d'attributs à des mots ; mise au point d'un système permettant autant de retours en arrière que nécessaires, sous la forme de nouvelles explorations des mêmes éléments regroupés en vertu de principes différents.

La dernière caractéristique de notre approche est, comme son nom l'indique, son constructivisme. Ce terme a une valeur générale qui renvoie nécessairement aux deux traits précédents en même temps qu'à l'idée d'un procès de travail résultant de l'application d'une méthode. En d'autres mots, le constructivisme impose cette nécessité élémentaire, mais souvent méconnue, que la recherche empirique produise de nouvelles connaissances et ne soit pas la simple vérification [54] d'un ensemble préconstruit d'hypothèses plus ou moins formalisées. Ces nouvelles connaissances doivent ainsi ressortir de la confrontation de la problématique aux résultats obtenus à chaque étape de la recherche et à la reconstruction progressive des hypothèses et des « modèles » initiaux.

Quelle est maintenant l'incidence d'une méthode ainsi caractérisée sur la constitution du corpus ? Pour répondre à cette question, reprenons deux caractéristiques du discours politique que nous avons identifiées précédemment et qui ont des conséquences décisives au plan des choix méthodologiques. Le discours politique, avons-nous soutenu, est un discours de masse. Cela n'implique pas simplement qu'il ne revêt pas le caractère construit d'une philosophie politique, mais présuppose en même temps qu'il est produit à divers interstices du social. Il se loge dans la discussion publique et peut à cet égard se manifester dans des espaces différenciés. Il y a donc a priori multiplicité d'énonciateurs et multiplicité de récepteurs. La seconde caractéristique renvoie à l'aspect polémique de tout discours politique. Discours de masse, celui-ci joue de la multiplicité des représentations. Il doit être en mesure d'assimiler et de retraduire cette multiplicité. Il ne peut donc être homogène et parfaitement cohérent. Il est traversé de plusieurs discours. Jean-Jacques Courtine [4] parle à ce propos d'intertextualité. Le discours répond toujours à d'autres discours. Nous ajouterions que le discours politique est essentiellement plurivocal. Il ne produit des effets qu'au terme d'un long travail dialogique. Discours ouvert, il est susceptible d'accueillir toute nouvelle question et de se manifester dans une multitude de lieux. Discours parcellisé, il ne vise pas toujours à dégager une cohérence globale, mais s'attarde à des questions particulières. Discours segmenté, il surgit de divers appareils « politiques » ou « non politiques » et met à contribution autant de locuteurs différents.

Ces remarques étant faites, voyons plus précisément en quoi ces choix théoriques et méthodologiques ont pu influer sur la constitution de notre corpus. Il serait trivial de rappeler que les corpus ne se donnent jamais d'eux-mêmes et que, faute d'en arrêter les principes de construction, ils seront constitués selon un arbitraire quelconque. Dans notre cas, trois éléments ont contribué à fixer ces principes : la théorie du discours politique, l'hypothèse socio-historique principale portant sur la production d'un bloc social particulier et, enfin, les caractéristiques de notre méthodologie.

[55]

La théorie du discours que nous adoptons comporte quelques principes généraux qui délimitent l'espace de constitution du corpus. En sont évidemment exclus les discours théoriques, philosophiques ou doctrinaires. L'espace qui nous importe est celui de la discussion démocratique, telle qu'elle se manifeste dans des discours de masse adressés à une multiplicité de destinataires et produit d'une diversité d'énonciateurs. Notre corpus couvre bien plus par conséquent que ce qui est communément considéré comme des discours politiques. Selon leur origine, ces discours prennent diverses formes, mais ils interviennent invariablement sur la scène publique et agissent sur le procès de production et de transformation de la société. Par définition polémiques, ils sont aussi multiples autant du point de vue de leur visée (le plus souvent partielle) que du point de vue de leur source. Il importait donc de retenir les discours émanant d'appareils différents, appareils placés sous l'hégémonie de certains groupes, fractions ou classes sociales. Intervenant de façon significative dans le procès de représentation de la société, ils doivent également produire une unité relative de la représentation de l'espace, de la communauté et des rapports sociaux. Nous avons donc retenu ceux qui contribuent à produire cette unité en configurant les alliances de classes, mais aussi les contre-discours proposant éventuellement une alternative à la constitution du bloc social.

La construction empirique du corpus tient compte de ces principes généraux, mais se rapporte plus particulièrement à nos hypothèses théoriques sur le sens à donner au régime duplessiste. Ainsi, l'identification des appareils, des classes et des forces sociales d'où émergent ces discours relève avant tout de notre analyse socio-historique de la période. L'ensemble de ces principes de construction a donné empiriquement un corpus global comprenant deux grands ensembles. Le premier se rapporte directement aux institutions politiques. Il s'agit des discours du budget et du trône, des discours législatifs, électoraux et constitutionnels. Le second, « parapolitique » comprend un ensemble de discours émanant de la société civile. Nous avons retenu les discours des institutions religieuses (les mandements des évêques et les journaux d'action catholique), ainsi que les discours des organisations patronales, ouvrières et agricoles.

Nous nous sommes ainsi donné les moyens, dans le premier ensemble, de saisir la dynamique interne des diverses formes du discours des institutions politiques. En effet, nous pouvons directement [56] rendre compte de leur caractère polémique, puisque nous disposons des interventions des différents partis politiques, ou encore des divers paliers de gouvernement. Par ailleurs, le recours au discours parapolitique permet d'élargir la saisie de la discursivité politique à l'ensemble des forces sociales qui contribuent, par leur alliance ou leur opposition, à la constitution d'un bloc social dépassant largement l'espace exigu de la représentation politique institutionnellement sanctionnée.

Dans sa globalité, le corpus permet ainsi de rendre compte des grandes hypothèses issues de notre problématique, tout en correspondant dans sa particularité aux principales caractéristiques du discours politique. Mais il est clair que sans une méthodologie ouverte, supportée par les possibilités offertes par l'informatique, un tel corpus n'aurait pu être constitué. Son ampleur (près de 5000 pages) aurait découragé toute entreprise de description et d'exploration systématiques et exhaustives des textes. Le caractère partiel ou spécialisé des divers discours et l'absence de morceaux choisis pour leur densité sémantico-idéologique risquaient de la même façon d'invalider l'analyse thématique traditionnelle, précisément fondée sur la recherche de segments textuels denses. Notre méthodologie, si elle n'est pas au fondement de la constitution du corpus, autorise tout au moins les principes de sa construction. C'est ainsi que tant l'approche globale qui caractérise cette méthodologie que les caractéristiques des techniques qui en découlent ont orienté le choix des principes guidant la construction du corpus.

Le premier élément de cette approche favorise la prise en compte systématique des données empiriques dans l'administration de la preuve et le processus de la découverte. Ce préjugé favorable à  l'empirie nécessite un mouvement d'aller-retour entre les hypothèses générales et les données. L'existence de programmes informatiques capables de décrire systématiquement des données textuelles, puis d'explorer ces descriptions, permettait d'espérer l'identification de régularités textuelles sujettes à interprétation. Le second élément de notre approche est le non-déterminisme qui se traduit techniquement par la grande souplesse d'un système capable d'explorer les divers états de description des corpus et d'effectuer des allers-retours sur des données susceptibles d'être déconstruites et reconstruites selon des principes variables. De manière générale, c'est cet aspect constructiviste de la méthode qui permet de tirer parti d'un aussi vaste corpus construit sur la base d'une faible prédétermination en termes de contenu.

[57]

En résumé, l'élaboration des règles de constitution du corpus répond aux nécessités de notre recherche : nous faisons un certain nombre d'hypothèses sur la constitution d'un bloc social spécifique au Québec dans le contexte de la transition vers le capitalisme avancé ; nous nous intéressons donc au travail particulier du discours politique dans ce processus, travail que ne nous pouvons appréhender qu'à la condition d'étudier les discours d'appareils qui s'articulent à la discussion publique ; méthodologiquement, nous devons nous donner les moyens d'interroger ces discours dans leur spécificité interne et dans leurs rapports.

Passons maintenant à l'incidence de la méthode sur la construction d'une grille de catégories. Nous reviendrons plus loin sur la présentation complète de la grille de catégories sociologiques qui a été projetée sur les textes. Pour le moment, restons-en au principe général de la construction de celle-ci et du rapport qu'elle entretient avec notre méthodologie. On peut poser dès le départ la question du statut théorique d'une grille de catégories. Il serait éminemment souhaitable que l'on disposât d'une sémantique générale du discours politique. Nous aurions alors une clé pour la construction d'une grille de catégories sociologiques permettant de lire adéquatement les textes politiques. L'état de la recherche dans le domaine des sémantiques universelles (par exemple, la logique des prédicats ou encore la dépendance conceptuelle) montre toute la difficulté d'identifier des réseaux structurés de signification pouvant répondre à des règles de formation définies une fois pour toutes. Par voie de conséquence, il est encore moins probable, dans le domaine plus large des idéologies, que l'on puisse arriver à construire une telle sémantique. Aussi, il n'est pas question d'élaborer ici une grille parfaitement cohérente théoriquement et apte à épuiser le contenu du discours politique. Notre démarche a été, dans un premier temps, empirique sans pour autant ignorer les hypothèses que nous formulions à propos du duplessisme. Nous voulions, en effet, éviter de projeter sur les discours un filet dont les mailles étaient par trop définies à l'avance. Avant tout, nous désirions circonscrire la diversité du discours en tentant de rapporter des groupes de formes lexicales à des domaines sémantiques larges. Il s'agissait en somme de permettre l'exploration, de manière regroupée, des ensembles de vocables pouvant se rapporter à un même principe de classement. Nous pouvions ainsi regrouper dans une même exploration divers mots renvoyant à des réalités se rapportant [58] à un domaine large comme ceux, par exemple, de l'agriculture, des partis, ou encore de la communauté. Par ailleurs, puisque notre méthode autorisait des retours en arrière, les catégories attribuées à des mots pouvaient être ignorées et les mots explorés pour eux-mêmes.

En somme, notre grille ne visait pas à réduire le champ des interrogations du texte, mais permettait des descriptions et des explorations de domaines sémantiques plus larges que le mot. Elle a donc été construite en prenant en considération à la fois le contenu même des discours analysés et les principaux éléments de ce que nous pouvons définir comme les domaines de réalisation du discours politique, axés sur la production-transformation de la société. Empiriquement, nous avons élaboré une grille qui retenait les principales catégories économiques, politiques, institutionnelles, sociales et relevant des valeurs, telles que nous avons pu les repérer dans des lectures préliminaires du corpus. Ce travail a d'ailleurs été complété par l'application systématique de cette grille à des corpus témoins. Théoriquement, nous avons tenu compte des principales hypothèses concernant le duplessisme afin de nous assurer de leur validation éventuelle. La grille sociologique a ainsi connu plusieurs versions successives, dénotant ce travail de va-et-vient entre les exigences théoriques de notre recherche et la nécessité de retraduire le texte dans un système de catégories le plus exhaustif possible.

Cette approche ascendante-descendante et non déterministe permet de valider ou d'invalider nos hypothèses (approche descendante), mais assure également la révélation du texte dans la perspective la plus ouverte possible (approche ascendante). Nous pensons pouvoir ainsi, par l'application de modèles d'exploration définis à partir de catégories générales, faire surgir des régularités que nous n'avions pas nécessairement prévues et découvrir ce qui n'avait pas été projeté à l'avance sur les textes. D'un point de vue non déterministe, il faut rappeler que les catégories sont associées aux mots, mais ne s'y substituent pas. Il est donc possible à tout moment de retrouver les mots eux-mêmes et éventuellement de les regrouper selon d'autres principes. La grille ne prédétermine donc pas de façon définitive le sens donné à des mots. On explore les textes à partir des catégories ou des mots. Certains mots peuvent d'ailleurs être catégorisés de manière différente selon le contexte de leur énonciation. L'exploration d'une catégorie renvoie à certaines occurrences seulement d'un même mot. Par ailleurs, on peut commander l'exploration de toutes les [59] occurrences d'un même mot en les reliant ou non à une catégorie donnée. Le système laisse donc toute la souplesse à la lecture du texte.

Une méthode d'analyse du discours

On ne peut se référer au contenu ou au discours sans rencontrer deux traditions d'analyse des textes assez éloignées l'une de l'autre. La première est avant tout intéressée à identifier le contenu de la communication, afin d'en inférer des conclusions soit sur les conditions de l'énonciation, soit sur les conditions de la réception. Elle présuppose que le sens est donné dans le contenu et qu'il est interprétable directement en aval ou en amont de la communication. La seconde tradition, davantage marquée par les travaux de la linguistique, se préoccupe de la production du sens dans le discours. Pour elle, il n'y a donc pas de contenu indépendamment du fonctionnement de la langue. On cherche dès lors à repérer les modalités de ce fonctionnement. Dans les faits, ces deux traditions se sont développées dans des contextes institutionnels et disciplinaires fort différents et se sont présentées comme étant irréconciliables. La première plaide pour l'efficacité de son approche à produire de l'information sur le contenu de la communication quelle qu'en soit la forme, la seconde condamne la naïveté théorique de la première et met plutôt en avant la nécessité de saisir, sur des ensembles restreints, les mécanismes de la production du sens. Sans négliger la différence fondamentale de ces points de vue, nous pensons que les deux ordres de questionnement sont légitimes et qu'il faut en conséquence les tenir l'un et l'autre pour essentiels.

Dans notre propre approche, nous avons retenu de la tradition de l'analyse de contenu l'idée que le repérage systématique d'unités sémantiques s'imposait comme moyen de révéler les éléments constitutifs du travail idéologique. Toute lecture du texte consiste d'ailleurs à recueillir des éléments formant des sous-ensembles que le lecteur juge significatifs à partir du point de vue qu'il a adopté. La critique littéraire, l'exégèse religieuse ou le commentaire de texte procèdent tous de cette manière. Mais l'analyse de contenu a ceci de particulier qu'elle a rendu explicite ses procédures d'identification et de rétention de l'information contenue dans les textes. Ces procédures peuvent cependant varier considérablement d'une méthode à l'autre. Ainsi, les méthodes quantitatives et les méthodes qualitatives se différencieront [60] selon la plus ou moins grande rigueur de leurs procédures et la taille des unités faisant l'objet de l'analyse. Nous reviendrons plus loin sur la question, mais soulignons pour l'instant que nous avons emprunté à l'analyse de contenu le souci de repérer de la manière la plus efficace et la plus rigoureuse possible le contenu des textes analysés.

De la tradition de l'analyse du discours, nous avons retenu des préoccupations plus théoriques. Tout d'abord la nécessité de penser le statut du discours. Contrairement à l'analyse de contenu qui présuppose soit que le sens est dans un rapport biunivoque avec le mot, soit qu'il se trouve dans un au-delà du discours, l'analyse du discours pose comme hypothèse générale que le sens est la conséquence d'un travail discursif. Il faut donc rechercher dans le discours lui-même, appréhendé comme processus complexe, l'origine du sens. Un deuxième souci théorique concerne la construction des corpus. Si le discours est un processus dynamique, il ne peut se donner à lire indépendamment d'une reconstitution des éléments pertinents du procès qui le met en œuvre. Les discours ne sont jamais là indépendamment d'un choix qui doit être réfléchi. Le corpus doit donc être défini à partir du statut des différents discours dans le processus social qui fait l'objet de l'observation [5]. Le troisième ordre d'interrogation se rapporte aux modalités diverses d'identification et de saisie du travail discursif. L'analyse du discours tente justement de repérer les divers dispositifs ou mécanismes qui donnent lieu à la production de sens.

Mais revenons un instant à l'analyse de contenu et à deux problèmes qu'elle nous a posés, l'un de nature théorique, l'autre d'ordre méthodologique. L'idée implicite de l'analyse de contenu selon laquelle les mots contiennent en eux-mêmes leur propre signification contribue à disqualifier le concept d'idéologie dans son acception large, puisque cette dernière ne se donne pas à lire directement et ne constitue nullement un simple reflet de la réalité. La tradition de l'analyse de contenu a pris pour acquis que la signification des mots tenait du sens commun et que leur simple mise en relation avec l'émetteur suffisait à l'interprétation. Cette tradition origine des études empiriques de la communication qui visaient à identifier des contenus subversifs attribuables à des groupes politiques marginaux ou à des puissances ennemies. Elles présupposaient que le repérage de certains mots et le comptage de leur fréquence suffisaient à rendre compte des idées ou des positions représentatives de ces groupes. Elles avaient en cela tort et raison. Les mots sont en effet des traces incontournables qui révèlent le travail idéologique à l'œuvre dans tout discours. Mais, [61] d'une part, si leur récurrence peut apparaître significative à certains égards, puisqu'elle dénote l'importance relative qu'ils occupent dans l'espace du discours, c'est quelquefois la rareté même de certaines notions qui sera davantage révélatrice parce qu'elle renvoie au non-dit ou à ce qui doit être dit avec circonspection. Les mots sont, d'autre part et par nature, à la fois polysémiques et polémiques. Ils doivent, en conséquence, être lus en contexte d'énonciation, afin d'en circonscrire les possibilités sémantiques puisqu'ils sont toujours utilisés dans le cadre d'une interaction discursive.

La naïveté qu'on vient de relever est propre avant tout à la tradition de l'analyse quantitative. L'analyse qualitative de contenu renvoie, quant à elle, à une position théorique que l'on peut rapporter au courant subjectiviste. Celle-ci ne présuppose pas que le sens se trouve tout entier contenu dans le mot, mais qu'il préexiste dans la subjectivité du sujet énonciateur. Le mot réalise en quelque sorte l'idée du locuteur. Il est donc la trace d'une idée qui se trouve dans la subjectivité individuelle ou collective. Ce point de vue théorique n'est toutefois pas beaucoup plus argumenté que dans le cas de l'analyse quantitative et l'on ne trouve guère dans la littérature en analyse thématique de développements concernant le problème de la production du sens. Comme dans le cas de l'analyse quantitative, le problème n'est pas explicitement formulé et l'on se situe dans le même univers de présuppositions. Que le sens soit dans le mot ou dans l'idée, on ne se pose le problème ni de sa nature ni de sa capacité signifiante.

L'examen des méthodes d'analyse de contenu nous a d'autre part permis d'approfondir les questions liées aux procédures méthodologiques. Encore une fois, la confrontation des méthodes quantitatives et des méthodes qualitatives fait ressortir le dilemme méthodologique posé aux chercheurs : choisir la précision et la rigueur ou l'extension et la compréhension. L'approche quantitative a l'immense avantage de définir avec une très grande précision l'ensemble des procédures qui seront appliquées à un texte. Cela permet non seulement la reproductibilité de l'expérience par quiconque maîtrise les techniques, mais surtout la possibilité de la validation. Cette précision variera cependant selon la nature des diverses opérations. L'identification des unités de codage ou les procédures de décompte peuvent être aisément reproduites, alors que l'attribution de codes ou de catégories à des unités risque plus facilement de varier d'un chercheur à l'autre. Les méthodes autorisent enfin l'application des procédures à de larges ensembles textuels. Ce qui permet d'éviter la trop forte prédétermination [62] résultant de la sélection d'ensembles textuels restreints qui risquent d'être choisis en fonction de leur seule capacité signifiante.

L'analyse thématique se caractérise le plus souvent, au contraire, par des procédures beaucoup moins rigoureusement définies. Les modalités qui ont conduit à la définition des unités de codage, à leur repérage dans les textes sont souvent imprécises. La « qualité » est malheureusement trop souvent invoquée pour contourner l'obligation élémentaire de définir ses procédures rigoureusement. Alors que les méthodes quantitatives favorisent une approche plus empirique dans l'exploration des corpus, l'analyse qualitative se situe davantage du côté de la prédétermination théorique de la lecture des textes. Les thèmes sont en effet prédéfinis et recherchés en tant que tels et les hypothèses de lecture guident presque unilatéralement l'application des procédures. L'analyse thématique de contenu représente avec le plus d'acuité le modèle critiqué par Gardin. Elle consiste essentiellement à rechercher dans les textes les éléments qui sont définis en amont. Elle ne peut trop souvent que confirmer ou infirmer l'existence de ces éléments. Elle se donne peu de chances de découvrir d'autres données pertinentes ou encore de contredire les hypothèses de départ par la vérification de contre-hypothèses. Nous ne voulons pas laisser entendre que les analyses thématiques sont par nécessité condamnées à l'invalidité, mais qu'elles valent ce que vaut le chercheur et les hypothèses qu'il est en mesure d'élaborer.

L'analyse thématique n'en permet pas moins de sortir de l'exiguïté de l'analyse quantitative. Reposant en général sur l'étude de textes relativement courts et sémantiquement chargés, elle évite de s'enfermer dans des procédures qui, aussi rigoureuses qu'elles soient, limitent la lecture à l'accumulation d'indices de fréquence. Le texte sert en quelque sorte d'appui à l'élaboration d'hypothèses interprétatives de la société. En somme, il s'agit d'une démarche très proche de celle que nous conduisons à tout moment dans le travail intellectuel, c'est-à-dire l'application de procédures herméneutiques à la production conceptuelle.

La tradition plus récente de l'analyse du discours qui s'est développée en France à la fin des années soixante regroupe, de son côté, un certain nombre d'approches méthodologiques assez différentes et d'origine disciplinaire variable [6]. Michel Pêcheux [7] les qualifiait de paralinguistiques, non seulement parce qu'elles prennent naissance dans l'environnement de la linguistique, mais surtout parce qu'elles adoptent le postulat quasi linguistique que la production de sens ne [63] peut être comprise indépendamment du fonctionnement de la langue. Maingueneau regroupe sous l'analyse du discours aussi bien ce qu'il est convenu d'appeler l'école française d'analyse du discours, que l'analyse de l'énonciation, l'analyse pragmatique, l'analyse actantielle et toutes les analyses d'inspiration structuraliste. Les procédures ne sont certes pas les mêmes dans chaque cas, mais la visée commune est d'identifier les diverses modalités du fonctionnement discursif en tant qu'il produit du sens, en même temps qu'il est partie d'un processus de communication plus large. La tradition d'analyse du discours proprement dite, telle qu'elle a été, entre autres, formalisée par Michel Pêcheux, se distingue des autres perspectives par cette volonté de développer un cadre théorique permettant d'intégrer le travail proprement discursif au procès socio-historique de signification.

On retrouve là le premier ordre de réflexion que cette tradition nous a permis de conduire. On pouvait identifier deux lacunes dans l'analyse de contenu, soit la double absence d'une théorie du fonctionnement discursif et du rapport entre le discours et l'ordre symbolique. Dans le premier cas, le travail de description de la surface textuelle est réduit à sa plus simple expression par le repérage de mots et de leur contexte ou, dans le cas de l'analyse thématique, par la sélection de segments significatifs en dehors de toute considération sur les règles de leur structuration. Dans le second cas, il y a discontinuité entre le texte et l'ordre de la signification. L'analyse de contenu décrypte un contenu du texte pour en inférer des conclusions sur la situation de communication. Elle ne propose aucune hypothèse sur les modalités de la relation entre le discours et les autres ordres de réalité, que celle-ci soit symbolique ou matérielle. Comme nous l'avons suggéré plus haut, le discours est pris comme le reflet d'une autre réalité. On ne connaît cependant rien de ce qui l'articule à cette dernière.

Au contraire, l'analyse du discours a inspiré le développement de notre problématique du discours politique. Nous saisissons le discours comme réalité matérielle ayant ses propres règles de fonctionnement contribuant concrètement à la production et à la transformation des rapports sociaux. C'est à l'identification de ces règles que s'adonne l'analyse du discours lorsqu'elle tente d'élaborer des modalités de lecture qui tiennent compte des divers niveaux de fonctionnement de la langue. Qu'il s'agisse de la structuration syntaxique, morphologique, lexicale, pragmatique ou sémantique, nous avons affaire à des lieux du travail discursif aboutissant à la production du sens dans des [64] contextes socio-historiques. Il est évidemment impossible de tenir compte de l'ensemble de ces niveaux. On peut cependant chercher à approfondir certaines de ces descriptions textuelles afin de repérer progressivement les mécanismes du discours. C'est donc à ce deuxième ordre de réflexion que l'analyse du discours nous a conduits. Nous avons ainsi choisi de décrire la syntaxe du texte, sans ignorer que la production du sens ne se limite pas au seul fonctionnement syntaxique.

Nous avons enfin essayé de combler une lacune caractéristique de l'analyse du discours. Celle-ci s'est en effet contentée d'étudier des corpus réduits et à haute densité sémantique, en raison même d'une approche axée sur un travail complexe de description textuelle. On s'est donc orienté vers les beaux morceaux avec le résultat, entre autres, que de nombreuses procédures développées dans un tel cadre restreint demeurent difficilement applicables dans l'analyse de vastes ensembles textuels. De plus, l'intérêt socio-historique porté à la fonction politique du discours a conduit les chercheurs à retenir des discours se donnant eux-mêmes comme des discours politiques, sans souci de réfléchir aux critères théoriques pouvant les définir. Le résultat de cette double restriction au plan de la construction des corpus a réduit substantiellement la valeur démonstrative de telles recherches. C'est pour obvier à ces difficultés que nous avons élaboré notre définition du discours politique et que nous avons tenté d'expliciter les principes de construction de nos corpus.

Michaïl Bakhtine a critiqué, à son époque, deux philosophies du langage qui perdurent étrangement dans les conceptions contemporaines dont il est ici question. Il s'opposait à deux écoles apparemment antagonistes : le subjectivisme, qui trouvait l'explication de la langue dans la conscience des acteurs, et l'objectivisme, manifeste dans la linguistique moderne naissante, qui considérait la langue elle-même comme un système immanent. À la conscience, il opposait l'idéologie et à la langue, l'interaction verbale. Il suggérait trois règles pour dépasser ces conceptions restreintes du langage : « 1. Ne pas séparer l'idéologie de la réalité matérielle du signe (en la plaçant dans le champ de la conscience ou toute sphère fuyante et indéfinissable). 2. Ne pas couper le signe des formes concrètes de la communication sociale (étant entendu que le signe fait partie d'un système de communication sociale organisé et n'a pas d'existence en dehors de ce système, sinon comme objet physique). 3. Ne pas couper la communication et ses formes de leur base matérielle (l'infrastructure) [8]. »

[65]

Ces principes demeurent étonnamment valables aujourd'hui. La critique de Bakhtine s'applique aux traditions évoquées ci-haut. En analyse de contenu, l'analyse thématique se rapporte tout entière au courant subjectiviste puisqu'elle renvoie le plus souvent le sens dans un au-delà du discours, dans le règne des idées. L'analyse quantitative, quant à elle, semble dans un premier temps relever de la perspective objectiviste. dans la mesure où le sens est présumé entièrement contenu dans les mots. Mais le quantitativisme se rapporte ultimement au subjectivisme puisqu'il est également présupposé que les mots reflètent un au-delà de la pensée. Répétons-le cependant, la tradition de l'analyse de contenu a très peu théorisé l'ensemble de ces questions et c'est avant tout par défaut qu'elle se retrouve du côté du subjectivisme. Au contraire, l'analyse du discours n'a pas fait l'économie d'une réflexion théorique sur ces questions. Son postulat de base pose la nécessité de rendre compte de la réalité matérielle de la langue dans le travail discursif. Cette tradition se situe ainsi dans une perspective objectiviste, mais elle pose en même temps, à l'encontre de la linguistique saussurienne, la nécessité de sortir des frontières de la langue afin d'étudier les conditions de l'énonciation. On pourrait donc affirmer que cette linguistique discursive échappe à la critique de Bakhtine, puisqu'elle tient aussi bien compte du travail de la langue comme système que du rapport que celle-ci entretient avec les autres ordres de la réalité. L'analyse du discours n'en est pas moins perpétuellement menacée de retomber dans l'objectivisme élémentaire critiqué par Bakhtine. Les efforts qu'elle déploie pour dépister avec le plus d'acuité possible le fonctionnement linguistique du discours la porte tout naturellement à se satisfaire de la seule analyse du travail de la langue et a négliger l'inscription sociale de cette dernière, risquant ainsi de renouer avec la perspective immanentiste.

Les réflexions de Bakhtine posent les principes fondamentaux d'une méthodologie qui veut analyser l'ordre du discours en le rapportant aux conditions de sa production et de sa réception. Nous en avons donc tiré une approche méthodologique puisant aux diverses traditions évoquées plus haut. L'importance de notre corpus imposait une approche capable de traiter de grands ensembles textuels avec le plus de rigueur et de régularité possible. Nous avons donc choisi d'étudier le comportement des mots (les noms et les adjectifs) et de leur environnement, en soumettant le texte à une description formelle susceptible d'être explorée. Nous présumons par là qu'une partie du [66] travail de production du sens peut être repérée à travers la lecture systématique des structures syntaxiques qui organisent les mots du texte. Quant aux rapports que ces structures signifiantes entretiennent avec l'ensemble de la réalité sociale, nous mettons à l'œuvre des hypothèses de lecture qui se rapportent à notre théorie du discours politique et à l'analyse concomitante que nous avons pu faire de la réalité socio-historique entourant la formation discursive duplessiste. Ainsi espérons-nous produire une lecture du signe qui tienne compte au moins partiellement du système linguistique au sein duquel il s'insère, tout autant que de son rapport aux idéologies en tant qu'elles participent au procès de production et de transformation de la société.

Une méthodologie assistée par ordinateur

Le corpus de notre recherche est relativement important. La problématique l'exige. Notre intention étant de repérer l'idéologie dans des discours de masse objets d'une large diffusion, nous nous trouvons forcément devant des ensembles discursifs relativement vastes. D'un autre côté, notre définition du discours politique et la particularité de notre objet commandent de retenir des formations discursives issues de plusieurs appareils « politiques » ou « parapolitiques ». Il nous faut donc multiplier le nombre de sous-corpus et augmenter d'autant la quantité totale de pages devant faire l'objet de l'analyse.

Le choix d'une méthode d'analyse conventionnelle nous aurait conduits à renoncer aux exigences méthodologiques que nous nous étions fixés. L'analyse thématique ne nous aurait permis qu'un rapide survol du corpus, avec un minimum de rigueur méthodologique. Nous aurions dû définir a priori un certain nombre de thèmes et ensuite en explorer le contexte d'émergence dans les divers sous-ensembles de notre corpus. Cette méthode n'aurait en somme permis que de confirmer ou d'infirmer des hypothèses posées au point de départ. Il nous aurait été, d'autre part, impossible d'appliquer la plupart des techniques d'analyse du discours à des ensembles aussi importants, renonçant ainsi au dépistage de certains dispositifs produisant du sens dans le discours.

L'assistance de l'informatique s'est pour ainsi dire imposée d'elle-même. Il importe d'approfondir ici cette question, souvent encore source de malentendus. Ne craignons pas de l'écrire, le recours à l'informatique peut s'avérer pure mystification, tant et aussi long [67] temps que l'on ne précise pas les modalités de son usage. Si un vaste corpus et la volonté de l'explorer de manière rigoureuse, systématique et extensive nous a orientés vers l'informatique, c'est l'accessibilité à un système informatique particulier permettant des manipulations complexes des données qui a décisivement influencé notre choix.

Quelles étaient en effet nos exigences ? Il nous fallait traiter de grands ensembles textuels avec le plus de rigueur méthodologique possible. L'informatique a cette caractéristique qu'elle oblige à la définition rigoureuse de toutes les opérations appliquées aux données. On retrouve ainsi toujours la trace d'opérations qui peuvent faire l'objet de vérifications régulières. De telles procédures peuvent de plus être systématiquement reproduites sur l'ensemble des données. Au-delà de la première exigence liée à la taille de notre corpus, s'ajoutait donc l'obligation de développer des algorithmes capables de produire des descriptions élaborées des textes. Si nous voulions dépasser les analyses strictement lexicographiques, il nous fallait ajouter aux techniques de repérage et de comptage des mots d'autres procédures plus complexes, visant la description de diverses modalités de structuration de ces mots dans le discours. Il importait enfin de pouvoir procéder à l'exploration et à la comparaison systématiques des données décrites, à l'intérieur des sous-ensembles textuels (les discours du budget d'avant et d'après-guerre, par exemple), aussi bien qu'entre les divers corpus eux-mêmes (par exemple, le discours électoral et celui du mouvement ouvrier).

Il est important de souligner que l'informatique connaît une évolution extrêmement rapide. Lorsque nous avons commencé la recherche, au début des années quatre-vingt, nous ne pouvions espérer traiter nos données autrement qu'en recourant à un ordinateur de grande puissance (le DEC 10). Aujourd'hui, nous arrivons à traiter une partie de nos données sur micro-ordinateur. Cette évolution fulgurante des équipements informatiques est accompagnée d'une transformation tout aussi impressionnante des logiciels disponibles. Lorsqu'on parle donc du contexte de l'utilisation de l'ordinateur dans le domaine de l'analyse de textes, il faut user de prudence. Il est tout de même utile de situer notre approche dans le contexte des dernières années.

L'informatique a longtemps été utilisée en analyse de textes de la même manière qu'on l'utilisait pour le traitement de tout genre de données en sciences humaines. En somme, il s'agissait de soumettre à des traitements statistiques des données textuelles transformées à [68] l'aide de codes. On ne traitait donc pas des textes directement, mais des codes numériques correspondant à des valeurs attribuées à des variables.

La véritable origine du traitement de données textuelles correspond aux premiers programmes d'indexation et de concordance. Bien que très inégalement performants, ces programmes sont destinés à dresser le lexique de textes et de prévoir des procédures capables de restituer des contextes d'apparition de ces mots, à partir de l'appel d'un mot ou d'une catégorie pouvant être associée à ce mot. Les procédures d'indexation elle-même consistent à attribuer à certains mots un rôle pivot dans les procédures ultérieures de repérage. L'ensemble de ces procédures présente un intérêt décisif comme outil de travail pour ceux qui doivent étudier particulièrement certains mots ou concepts. Dans la foulée de ces recherches, il faut mentionner l'analyse lexicographique qui s'appuie substantiellement sur les mêmes programmes informatiques. Il s'agit, dans ce cas, de dresser des lexiques ou sous-lexiques des corpus retenus, à partir de l'occurrence simple des mots dans le texte ou en fonction de mots qui covoisinent avec un ou des mots objets de l'intérêt du chercheur. On applique par la suite un ensemble de statistiques plus ou moins sophistiquées sur ces lexiques en s'assurant de pouvoir comparer des sous-ensembles entre eux.

L'informatique est encore utilisée dans le domaine de la recherche linguistique pure ou appliquée. La linguistique computationnelle tente de simuler à l'aide de programmes informatiques la structure grammaticale de la phrase, des processus d'acquisition du langage ou encore des processus cognitifs. Dans des domaines spécialisés, il y a eu, par exemple, plusieurs tentatives pour développer des systèmes de traduction automatique, systèmes qui effectuent des manipulations complexes de la langue. Il existe également de nombreuses recherches dans le domaine des langues naturelles dans le contexte large des développements en intelligence artificielle appliquée. Ces recherches portent sur les diverses procédures de reconnaissance, d'analyse, voire même de synthèse des langues naturelles afin d'accroître l'intelligence des machines consacrées à des tâches diverses. Évidemment, ces travaux sont souvent à l'état embryonnaire si on les examine du point de vue des objectifs qu'ils se fixent. Nous ne les avons mentionnés que pour situer le contexte général de l'utilisation actuelle de l'informatique en analyse du discours.

[69]

Lorsque nous avons adopté la stratégie informatique pour l'analyse de nos données, nous l'avons fait avant tout d'un point de vue instrumental. Il s'agissait d'utiliser des outils performants, capables de décrire certaines structures discursives et de les explorer systématiquement. À l'usage, il nous est apparu que le recours à cette technologie avait des conséquences sur les modalités futures de notre travail d'analyse. Déjà l'analyse du discours favorise une certaine interdisciplinarité entre la linguistique, la sociologie et l'histoire. Dans la mesure où l'informatique est apte à traduire des préoccupations linguistiques ou paralinguistiques dans l'étude des textes, elle contribue également à ce projet multidisciplinaire. L'analyse de textes par ordinateur se présente donc comme une nouvelle pratique d'analyse mettant en contact toutes ces disciplines. La linguistique, particulièrement ce que nous pouvons dénommer la linguistique discursive [9], contribue à développer des modèles de description des fonctionnements de la langue sur le plan de la syntaxe, de la morphologie, du lexique, de la sémantique ou encore de la pragmatique. En analyse de textes par ordinateur, cette linguistique doit recourir à des modèles de programmation qui relèvent de l'informatique. Celle-ci impose en quelque sorte des prescriptions d'écriture et favorise en même temps la formalisation des règles et des procédures de description linguistique. D'un autre côté, l'informatique ne peut contribuer au développement des machines d'exploration et de traitement des contenus qu'à partir des exigences de la sociologie qui, en retour, se doit de formaliser ses hypothèses pour les retraduire dans le langage informatique.

Si l'on dit que l'analyse de textes par ordinateur est une nouvelle pratique d'analyse, il ne faut pas pour autant croire qu'elle est en elle-même une unique méthode. C'est plutôt la conglomération de moyens disciplinaires divers pouvant être combinés à profit dans des stratégies données d'analyse. L'informatique apporte sa rigueur dans la définition des procédures et dans leur application. Elle permet le traitement d'ensembles textuels plus importants, en donnant l'assurance de la constance des procédures. La linguistique discursive définit des hypothèses de description qui ont l'avantage d'être systématiquement appliquées et testées. La sociologie propose des corpus construits et des hypothèses devant guider les explorations et les comparaisons les plus signifiantes. C'est donc l'apport et les contraintes mutuels de ces diverses disciplines qui conduisent au développement de cette nouvelle pratique de l'analyse de textes par ordinateur.

[70]

Dans la pratique, le développement de notre méthodologie d'analyse de textes par ordinateur tient à la coexistence, dans un même cadre de travail, d'un système général de programmation et de l'expertise de plusieurs chercheurs spécialisés dans les diverses disciplines évoquées jusqu'à maintenant. Nous avons eu recours au système informatique Déredec. L'auteur du langage, Pierre Plante, le définit comme un « environnement de programmation permettant la simulation des modèles et la vérification des hypothèses linguistiques, l'analyse de contenu de textes ainsi que la mise au point de systèmes-experts en langage naturel [10] ». Ce logiciel a été développé à l'UQAM au cours des années soixante-dix et comprenait déjà au moment où nous avons commencé à l'utiliser l'essentiel de ses propriétés. Le Déredec est un logiciel général se rapprochant d'un langage de programmation qui peut donner lieu à l'écriture de programmes dessinés pour des fins précises. Il a ainsi donné naissance à plusieurs progiciels dont l'objectif était de décrire des textes de langue française d'un point de vue syntaxique. Comme nous le verrons plus loin, nous avons utilisé ces systèmes dans le cadre de nos analyses. Essentiellement, le Déredec  comprend deux familles majeures de procédures permettant les manipulations du texte. La première se rapporte à des procédures d'automates qui produisent automatiquement des descriptions du texte, quelle que soit la nature de celles-ci. La seconde comprend des procédures algorithmiques qui rendent possible l'écriture de modèles d'exploration des textes ainsi décrits. D'un côté, il existe donc des moyens informatiques permettant la transcription de procédures particulières d'analyse du discours et, de l'autre, la possibilité d'explorer les textes selon les diverses caractéristiques générées par ces premières analyses. L'objectif demeure toujours d'obtenir des procédures automatisées au maximum.

Il y a beaucoup de confusion sur le rôle précis que peut prendre l'ordinateur dans la recherche. La simple évocation des possibilités offertes par les récents développements informatiques peut laisser croire que l'ensemble des objectifs souhaitables dans ce domaine seraient déjà atteints. L'analyse de textes par ordinateur n'en est qu'à ses débuts et le programme de recherche demeure très chargé. Il ne faut donc pas substituer à la réalité actuelle les objectifs futurs, bien que ceux-ci paraissent déjà réalistes. Mais, d'une manière encore plus mythique, il arrive que l'on prête à l'informatique des vertus théoriques ou pragmatiques qu'elle n'a pas. L'informatique ne peut remplacer ni la linguistique ni la sociologie. Elle n'est pas pour autant une [71] simple technique. Elle fonctionne à partir d'un ensemble de règles et de préceptes qui lui sont propres. En cela, il existe bel et bien une discipline informatique qui fixe des exigences et des limites à l'élaboration de modèles d'analyse. C'est de ce point de vue que nous disions que l'informatique détermine en un sens les modèles opératoires de recherche en sociologie. Mais, cette détermination est avant tout bénéfique en ce qu'elle oblige à une très grande rigueur dans la définition de ces modèles.

À la faveur de cette confusion entretenue à propos du rôle de l'informatique, on lui prête ou on lui conteste, ce qui revient au même, la capacité d'interpréter le texte. On a affaire là au sommet de la mystification qui peut entourer l'ordinateur. Il n'est pas besoin de réduire l'informatique au statut de technique pour contester un tel point de vue. Nous l'avons répété, l'informatique fonctionne à l'intérieur d'un paradigme logique ayant déjà défini ses principales lois. Mais, en aucun cas, ces lois s'adressent-elles aux problèmes de l'herméneutique. L'informatique, à l'image de la mathématique par exemple, supporte des disciplines comme la linguistique ou la sociologie dans l'élaboration de modèles opératoires de recherche. Elle contribue ainsi à la production de résultats qui demeurent interprétables à part entière. L'ordinateur interprétera des données le jour où nous posséderons des modèles de simulation de l'intelligence assez puissants et programmables. On voit d'ici l'ampleur scientifique d'un tel problème et cela donne toutes les raisons d'apaiser ceux qui auraient pu croire ou craindre que l'ordinateur ne se substitue à l'homme. Le recours à l'informatique est donc avant tout pour nous un moyen efficace d'atteindre des objectifs de description et d'exploration de nos corpus afin d'autoriser des analyses qui relèvent finalement des potentialités interprétatives autorisées par les différents aspects de notre démarche sociologique.


2. L'ÉTUDE DES TEXTES

Avant d'aborder la question des procédures de cueillette, d'échantillonnage et d'édition qui ont été appliquées aux divers corpus, rappelons que nous n'avons retenu dans le présent ouvrage que le discours sur le budget. Ce discours présentait des difficultés particulières en même temps que des avantages. Si, en effet, sa nature partiellement technique nous fait craindre sa faible densité sémantico-idéologique, cela représente, en même temps, un test de l'efficacité de notre méthode et de [72] sa capacité à repérer du sens dans les discours les moins idéologiquement chargés. Par ailleurs, le caractère exhaustif du corpus (l'entièreté du discours sur le budget) appelait un minimum d'interventions sur les textes. Enfin, nous avons considéré l'importance en soi du discours sur le budget dans le cadre de l'institution parlementaire. Nous nous donnions, en effet, les moyens d'analyser une des plus importantes déclarations d'intention que le gouvernement est amené à faire dans l'exercice du pouvoir. Nous faisions le pari que ce discours ne nous instruirait pas seulement sur les objectifs économiques du gouvernement, mais tout autant sur les manifestations contradictoires de l'idéologie dans le processus de constitution du bloc social.

Les corpus

Il est utile de présenter succinctement les principales procédures qui ont dû être mises en œuvre pour constituer matériellement nos différents corpus. Ces procédures se ramènent à la cueillette, à l'échantillonnage et à l'édition des textes, c'est-à-dire aux diverses modifications des textes originaux nécessaires à leur manipulation dans le processus de l'analyse.

La cueillette consiste avant tout à repérer et à recueillir des textes représentatifs provenant de diverses institutions politiques, religieuses ou corporatives. La nature de ces textes peut varier en fonction de l'institution. Certaines produisent directement des discours dont la fonction est de représenter officiellement les positions de l'appareil ; songeons au discours sur le budget, au discours du trône ou encore aux mandements des évêques. D'autres s'expriment à travers des médias, par exemple les divers journaux d'action catholique, syndicaux ou patronaux. Dans certains cas, les discours ont une forme orale et ne sont pas colligés de manière systématique, mais rapportés par les journaux. Nous renvoyons, par exemple, au discours entourant le processus législatif pour lequel il n'existe pas de compte rendu officiel au cours de la période étudiée. Nous nous en remettons alors au discours rapporté par les journalistes. Il en est de même pour le discours électoral. C'est donc une multiplicité de modalités discursives que nous avons recueillies.

Dans tous les cas, nous respectons d'abord la représentativité de ces discours, autant en synchronie qu'en diachronie. Sur le plan synchronique, nous nous assurons que le genre de texte retenu représente de manière adéquate l'institution émettrice. Faute de pouvoir [73] retenir des ensembles textuels aptes à rendre compte, avec toutes les nuances, de l'idéologie d'une institution, nous tentons d'arrêter un choix pour lequel le caractère de représentativité est le plus fort. Sur le plan diachronique, nous devons nous assurer que les discours choisis ont leur équivalent à travers le temps. Nous devons vérifier que telle ou telle institution s'exprime pendant toute la durée de la période étudiée, afin de permettre ainsi l'analyse longitudinale des corpus (en eux-mêmes et les uns par rapport aux autres). Ce problème s'est davantage posé pour les institutions les moins structurées. Les institutions politiques et l'Église perpétuent à travers le temps des formes équivalentes d'intervention. Les organisations patronales, ouvrières ou agricoles n'ont souvent pas la même constance.

La seconde procédure, complémentaire de la première, renvoie aux diverses modalités d'échantillonnage que nous avons retenues en fonction de la nature des textes et de leur importance numérique. Certains corpus sont constitués d'un nombre relativement restreint de discours dont la taille est également limitée. C'est le cas des discours du trône et du budget qui inaugurent chaque session législative. Il est alors indiqué de retenir la totalité de ces discours. Par ailleurs, certains corpus sont composés de textes de nature variée, ayant une importance variable et trop volumineux pour qu'il soit possible de retenir l'ensemble. Les journaux syndicaux ou patronaux sont de ceux-là. Il faut alors identifier les unités les plus représentatives, comportant la plus forte probabilité de persister, sous cette forme, à travers le temps, et déterminer la périodicité qui sera considérée. Par exemple, nous avons retenu les éditoriaux, ou ce qui en tenait lieu, dans les journaux se rattachant à divers appareils ou groupes sociaux, à des intervalles réguliers.

Les principes qui ont guidé notre choix des différents corpus sont les mêmes que ceux retenus pour déterminer les procédures d'échantillonnage. Nous reviendrons sur les procédures appliquées à chaque corpus dans les publications correspondantes. Qu'il nous suffise d'indiquer pour le moment la direction dans laquelle nous avons travaillé. Sur le plan synchronique, nous nous sommes assurés de la plus grande représentativité des unités examinées par rapport au fonctionnement idéologique de chaque appareil. Ce principe général nous a conduits à la constitution de corpus de nature fort diverse. Par exemple, nous avons retenu les éditoriaux dans le cas des journaux syndicaux ou d'action catholique, alors que c'est le titre principal d'un quotidien qui nous a fait choisir les discours rapportés de la scène [74] électorale. Dans le cas des éditoriaux, nous pensons qu'ils représentent le lieu de prédilection du discours de type militant dans des appareils comme les syndicats ou les mouvements d'action catholique. Le reportage est, quant à lui, la seule façon de retracer le discours parlé des candidats à une élection et le titre principal nous permet de sélectionner l'événement qui a le plus attiré l'attention. Dans le cas du discours constitutionnel, nous avons retenu les discours prononcés par le premier ministre canadien et les premiers ministres de certaines provinces aux conférences constitutionnelles. En résumé, nous avons tenté de satisfaire au critère de la représentativité aussi bien au plan qualitatif, en identifiant les sous-ensembles les plus significatifs de corpus globaux, qu'au plan quantitatif, en retenant un nombre suffisant de pages pour ne pas laisser échapper la substance de ces textes.

Du point de vue diachronique, nous avons sélectionné des unités à des intervalles réguliers, en nous assurant de couvrir pour chaque sous-corpus l'ensemble de la période étudiée. La périodicité retenue varie en fonction de l'importance quantitative de chacune des unités et de la particularité de chacun des sous-corpus. Ainsi, la périodicité du discours sur le budget dépend de la régularité des sessions législatives, alors que celle des discours constitutionnels dépend de la convocation des conférences elles-mêmes. Là où nous pouvons découper les périodes en fonction d'une unique mesure, nous le faisons. C'est le cas, par exemple, des mandements des évêques ou des éditoriaux qui sont régulièrement répartis dans le temps.

La troisième procédure dont il faut dire un mot touche aux opérations nécessaires à la préparation des documents avant de les saisir sur support magnétique. L'informatique ne nous oblige en rien, sur le plan technique, à modifier le texte d'origine. Mais, pour diverses raisons liées à la manipulation future de ces textes, soit leur description, leur exploration ou leur analyse, nous avons choisi d'apporter certaines modifications aux textes originaux. Ces dernières ont revêtu plus ou moins d'importance en fonction des difficultés que les textes pouvaient représenter. Ainsi, les textes du budget ont été amputés des tableaux statistiques et des titres et intertitres. Dans le premier cas, nous ne voyions pas l'intérêt de traiter des tableaux chiffrés avec des méthodes destinées à décrire du texte. Dans le second cas, nous ne voulions pas accroître la redondance en reproduisant des titres qui sont en général ignorés lors de la diffusion du discours. Dans des cas plus complexes, par exemple les discours rapportés par les journalistes, nous avons établi des procédures visant à redonner au discours son [75] caractère direct. Ainsi, ces discours ont été épurés des interventions journalistiques. Ce choix méthodologique, que nous commenterons ailleurs, présentait l'avantage de restituer, avec plus ou moins de bonheur, le discours d'origine à partir duquel nous pouvions espérer procéder à des inférences. C'est aussi à cette étape que nous avons procédé à la liaison d'expressions composées de plusieurs mots (locutions sémantiques). Cette procédure consiste à marquer ces expressions de telle sorte qu'elles apparaissent comme des mots uniques. Nous évitions ainsi de gonfler artificiellement les occurrences de certaines catégories et de fausser des relations de dépendance contextuelle dans la description des séquences du texte. Les noms propres ou les noms de compagnie ou de parti appartiennent à ces expressions, ainsi que des locutions courantes comme « chemin de fer ».

En ce qui concerne le discours du budget, qui seul nous occupe dans les pages qui suivent, le corpus comprend les discours prononcés par les ministres des Finances de 1934 à1960 et édités par l'imprimeur de la province de Québec. Ils sont découpés en sept zones représentant autant de législatures, à l'exception de la première qui ne comprend que les derniers discours du régime libéral précédant l'arrivée de Duplessis au pouvoir. Les procédures d'échantillonnage sont donc nulles et les procédures d'édition ont consisté à la suppression des tableaux statistiques, des titres et intertitres et à l'édition des mots liés dans des locutions.

La description du texte

Pour chacun des corpus, nous obtenons une image informatique représentant le texte tel qu'il a pu être échantillonné, segmenté et édité. Le texte informatisé est composé de phrases complètes équivalentes à celles du texte original. L'information textuelle est donc entièrement conservée, sous réserve des modifications qui ont contribué à l'établissement du corpus lui-même.

Les méthodes plus traditionnelles de traitement de cette information nous auraient permis de compter les occurrences des mots et leur covoisinage. Nous aurions pu ainsi établir des lexiques de fréquence et appliquer diverses statistiques pour comparer les sous-ensembles textuels. Les moyens logistiques dont nous disposons permettent de dépasser ce type de traitement et d'explorer non seulement les mots, mais les mots et les phrases tels que décrits.

Nous avons retenu deux niveaux de description. Le premier se rapporte à la syntaxe. Il permet d'identifier la position de chaque mot [76] dans la phrase et d'établir un certain nombre de relations de dépendance contextuelle entre ces mots. Le second concerne l'univers sémantique du texte du point de vue sociologique. Voici les diverses procédures qui ont été appliquées pour obtenir ces descriptions.

Catégorisation grammaticale. La première étape consiste à attribuer à chaque mot d'un texte une catégorie syntaxique de base du français. Le nombre de catégories retenues est de dix-huit qui correspondent en gros aux catégories grammaticales traditionnelles : les noms, les pronoms, les divers temps des verbes, les adjectifs, les prépositions, les déterminations et l'ensemble des signes de ponctuation. L'objectif est de permettre dans une étape ultérieure de procéder à une description de la structure de surface de toutes les phrases des corpus.

Techniquement, cette catégorisation a été effectuée à l'aide d'un algorithme de catégorisation de base syntaxique du Français (CBSF) [11] qui a lui-même connu une évolution au cours de la période de traitement de nos données. Les procédures visent avant tout l'attribution automatique de catégories au plus grand nombre de mots possible. Au début de la recherche, cette attribution se faisait à l'aide d'un dictionnaire de formes lexicales comportant une catégorie syntaxique correspondante, déterminée indépendamment du contexte. Ce dictionnaire était apparié au texte devant recevoir la catégorisation. Cet algorithme s'est complexifié depuis en un ensemble de règles morphologiques, permettant le dépistage de plusieurs suffixes du français et l'attribution d'une catégorie aux mots qui les renferment. Un dictionnaire d'exceptions à ces règles complète la catégorisation automatique. Dans tous les cas, les meilleurs résultats obtenus oscillent entre 80% et 85% des mots recevant une catégorie de manière totalement automatique. Un certain nombre d'autres mots reçoivent des catégories temporaires, la forme « le » par exemple dont on ne peut être assuré qu'il s'agit d'un pronom ou d'un article. Ces catégories seront désambiguïsées lors de l'application des premières procédures d'analyse syntaxiques. Enfin, dans tous les cas où aucune catégorie ne pouvait être appliquée hors contexte, nous avons procédé à une attribution manuelle. Nous avons eu recours à un programme interactif qui fait dérouler le texte et s'arrête aux mots n'ayant pas reçu de catégorie. Il est dès lors facile de décider de la catégorie appropriée. Nous verrons plus bas en quoi l'attribution de catégories syntaxiques permet l'application d'un progiciel de description des structures syntaxiques de la phrase.

[77]

Catégorisation sociologique. Le caractère automatique des procédures est ici considérablement réduit. Il est en effet très difficile d'attribuer hors contexte une catégorie sémantique à un mot donné, bien que cela soit possible pour certains mots comme « agriculteur » ou « finance ». Ces mots ont été compilés dans un dictionnaire qui, appliqué à un texte, permet de déterminer automatiquement leur catégorie sociologique dans une proportion ne dépassant pas 15%. Tous les autres mots doivent recevoir leur catégorie dans un processus interactif, similaire à celui de la catégorisation syntaxique en contexte. La procédure a nécessité cependant une concertation entre les chercheurs de manière à assurer l'uniformité de l'attribution des catégories. Ce travail comporte une dimension théorique, en ce qu'il exige une même compréhension de la problématique, et une dimension empirique, dans la mesure où chaque codeur doit expérimenter concrètement les difficultés particulières liées à la catégorisation de certains mots. C'est pourquoi la catégorisation a fait l'objet, tout au long de la recherche, de rigoureuses procédures de contrôle et de révision.

Après avoir effectué des prétests sur des sous-ensembles du corpus du discours sur le budget, nous avons choisi de ne retenir que les noms, les adjectifs et les participes passés aux fins de la catégorisation. Cette décision repose sur le fait qu'une catégorisation portant sur toutes les formes eût été coûteuse sans pour autant donner de résultats significatifs. D'une part, les formes fonctionnelles ne sauraient trouver place dans un système de catégories sociologiques. Elles sont, en quelque sorte, des opérateurs de la langue et ne nous renseignent que très peu sur le contenu idéologique. D'autre part, les formes verbales comportent des caractéristiques propres qui auraient nécessité l'établissement d'une deuxième grille de catégorisation. Nous avons, en effet, imaginé à l'étape du prétest une grille des verbes comportant deux classes d'opposition : la première distingue les verbes d'action des verbes d'état, la deuxième, les verbes à caractère technique ou, au contraire, de nature plus évaluative. Cette grille nous permettait d'obtenir des résultats intéressant sur le plan de la comparaison de divers sous-ensembles textuels, mais nous éloignait trop de nos objectifs spécifiques de recherche. Mentionnons en terminant qu'un certain nombre de noms, d'adjectifs ou de participes passés ne correspondant à aucune de nos catégories sociologiques n'ont pas été catégorisées.

Notre grille de catégories sociologiques consiste en une série de domaines sémantico-idéologiques qui correspondent aussi bien à des dimensions socio-historiques qui sont mises à l'œuvre dans notre [78] problématique qu'à des dimensions fondamentales du discours en société. La grille n'est pas exhaustive et on aurait pu imaginer d'autres ensembles sémantiques correspondant à une manière différente de saisir le discours. Ainsi, il est clair qu'elle dépend aussi bien de notre cadre conceptuel que du travail empirique de prélecture qui nous a permis de tester sa capacité de saisir le contenu. Mais une fois la grille établie, peu de noms ou d'adjectifs ne recevant pas de catégorie ont subsisté.

Les domaines sémantico-idéologiques peuvent être regroupés en un nombre limité de familles de catégories et, à l'intérieur de chaque famille, il est aussi possible de définir des sous-ensembles correspondant à des critères théoriques de classement. Parmi les six familles, trois renvoient à des domaines socialement constitués ou, si l'on préfère, à des sphères institutionnalisées. La première de ces familles touche à tout ce qui relève de l'économie. Le discours sur le budget comportait, comme on pouvait s'y attendre, de nombreuses références au domaine général de l'économie. Dans cette première famille, nous avons donc défini un certain nombre de catégories générales pouvant être attribuées à des expressions reliées aux finances, au budget, au marché et à l'économie en général. Un deuxième sous-ensemble se rapporte à des notions économiques de nature plus conceptuelle : par exemple, le capitalisme, le corporatisme ou le socialisme. Un autre groupe de catégories fait référence à la réalité du développement régional. C'est le cas, entre autres, de l'agriculture, des ressources naturelles et des transports et communications. Un dernier ensemble est formé par des notions reliées au phénomène général de l'industrialisation : par exemple, les industries, les sciences et les technologies et le travail salarié.

La deuxième famille de catégories se rapporte à la question de l'État. Il peut s'agir des institutions générales de l'État, comme la constitution, le système électoral ou l'armée, mais aussi de catégories conceptuelles corollaires de l'État, tel le droit ou le pouvoir, ou encore de notions qui se rapportent aux acteurs qui œuvrent dans les appareils, ainsi les élus-représentants ou les fonctionnaires.

La troisième famille regroupe des catégories associées à des institutions sociales. Dans un premier groupe, on retrouve des institutions à caractère général comme les diverses manifestations de l'opinion publique, les partis politiques ou l'éducation. Les autres institutions peuvent être regroupées, étant donnée la particularité de notre corpus, sous deux chapitres qui ne sont pas nécessairement mutuellement [79 ]exclusifs : les institutions traditionnelles, comme l'Église ou la famille, et les institutions posant plus directement le problème de l'interventionnisme de l'État, comme le domaine social et la santé.

La quatrième famille, que nous avons nommée univers social, diffère en ceci que ses catégories ne correspondent pas, à proprement parler, à des sphères institutionnalisées, mais qu'elles renvoient à des dimensions anthropologiques fondamentales. Ces dernières apparaissent dans tout discours social et traversent l'épaisseur de toutes les institutions spécialisées. Un premier sous-ensemble se rapporte aux dimensions spatiales et temporelles de l'existence. Un deuxième se réfère aux dimensions de nature démographique caractérisant les populations, par exemple l'âge ou le sexe. Un troisième regroupe des dimensions fondamentales de l'identité, comme l'appartenance à une communauté ou à une langue et les signes de distinction de classe ou de profession.

Les valeurs forment la cinquième famille de catégories, qui ont été réparties en cinq sous-ensembles. Il faut mentionner que ces sous-ensembles ont été constitués après coup, à la suite du repérage systématique d'un grand nombre de valeurs qui apparaissent dans les divers discours à l'étude. Il ne s'agit donc pas d'une construction théorique ayant la prétention de proposer, de quelque manière que ce soit, une taxinomie des valeurs dans la société capitaliste avancée. Par contre, il nous a semblé utile de produire des regroupements à partir d'une recension relativement exhaustive des différentes valeurs mises en œuvre dans le discours, aux fins de rendre utilisable ces données dans nos analyses. Un premier groupe se rapporte aux valeurs traditionnelles, telles la religion et la tradition. L'ensemble suivant délimite des valeurs typiques de la société bourgeoise. Certaines de ces valeurs sont associées au fonctionnement de l'État bourgeois. Ce sont la démocratie, le privé, le public et la légitimité. D'autres ont un caractère plus général tels le progrès, la propriété, la liberté, l'égalité, la rationalité ou la nature. Un troisième groupe est composé de ce que nous appelons des valeurs existentielles, comme le bonheur, l'espérance et l'amour. Le quatrième sous-ensemble renvoie à la discipline personnelle. On y retrouve la valeur du travail, la fidélité, la dignité, la vertu... Enfin, le contrôle social caractérise le dernier groupe. Il y est question d'ordre, de subversion, de collaboration et de stabilité.

Une dernière famille de catégories a été conçue en fonction de notions qui n'ont pas directement une valeur sociologique, mais qui [80] représentent des éléments essentiels à la modulation du discours. Nous pourrions dire que ces catégories appartiennent davantage à une sémantique générale ou encore à une mode de valorisation du discours. Nous les appellerons catégories évaluatives dans l'analyse. Comme pour les valeurs, les catégories ont été retenues empiriquement. Le long processus de la mise au point de notre grille nous a permis d'identifier un grand nombre de notions couramment employées. Nous avons opéré a posteriori une classification de ces expressions dans des sous-ensembles que nous ne ferons qu'énumérer ici, quitte à ce que le lecteur soit témoin de leur utilisation dans l'analyse à venir. Les groupes sont : les qualités des choses, par exemple, la nécessité, l'importance, l'objectivité ou l'évidence ; les états d'une chose, tels la conservation, l'accroissement ou la complexité ; les qualités attribuables à des personnes, comme la force, la confiance, la beauté ou le courage ; les états d'esprit, ainsi les sentiments, le désir, le bon sens ou la crainte ; des états d'être, comme la paix, la fête ou le malheur ; enfin des opérateurs conceptuels, comme la théorie, la pratique ou les fonctions.

Grammaire du texte. Toutes les formes du texte ayant reçu une catégorie syntaxique de base du français, nous sommes à même d'appliquer un programme dont l'objectif est la description grammaticale des textes. Cette grammaire de surface du français (GDSF) a été conçue et développée par Pierre Plante (1979, 1980, 1983) [12]. Elle permet de décrire les structures syntaxiques de surface des phrases écrites en français courant. De façon générale, elle pratique une segmentation de la phrase en ses principaux constituants syntagmatiques et réussit à ce niveau a séparer les propositions indépendantes, principales et coordonnées. Elle permet d'obtenir un graphe arborescent où les principaux mots de la phrase sont restructurés selon les relations privilégiées qui les unissent. Elle peut dépister pour toute phrase française le thème et le propos (Focus-Comment), deux types de compléments verbaux (les directs et les circonstanciels), et plusieurs types de déterminants nominaux. Cette description peut être obtenue de façon automatique pour toutes les phrases d'un texte.

Nous aurons l'occasion de préciser plus loin que nous avons privilégié, dans le cadre de nos explorations de textes, les relations thèmes-propos et de détermination nominale. La grammaire de surface identifie pour toute phrase le groupe nominal et, selon les cas, le groupe propositionnel qui contient le thème de la phrase. Si ce thème

[81]

Schéma 1
Phrase décrite par CBSF, la grille sociologique et GDSF,
extraite du discours sur le budget de 1952 (p. 36)
.



Catégories syntaxiques

C 21     Prépositions faibles
C 32     Ponctuations fortes
D 11    Déterminants verbaux
D 12    Déterminants nominaux
D 13    Déterminants adjectivaux
N 1       Noms communs

Relations de dépendance contextuelle

D         Relations de détermination
P 1      Relations de complément
T/P     Relations thème/propos

Catégories syntagmatiques

GD 11     Groupes déterminants
GN           Groupes nominaux
GP            Groupes propositionnels
GV 1        Groupes verbaux

Catégories sociologiques

EC 3       Industries
US 1       Classes
US 7       Espace
UV 2       Progrès


est très souvent le sujet grammatical de la phrase, ce n'est pas toujours le cas. Dans la perspective de Halliday [13], le thème est ce qui est posé au point de départ d'une phrase et correspond à la raison d'être de cette phrase. Le propos est le développement de la phrase entourant le thème. De la même manière, la grammaire identifie les relations de détermination, identifiant les groupes nominaux recevant la détermination, aussi bien que les éléments déterminants (adjectifs, groupes nominaux ou groupes propositionnels). En somme, après avoir procédé a toute cette description, nous obtenons une structure arborescente [82] pour chaque phrase dans laquelle les groupes nominaux, les groupes verbaux et les groupes propositionnels sont identifiés et les diverses relations de dépendance contextuelle indiquées. De plus, pour chaque mot de la phrase, nous avons la catégorie grammaticale et, pour les noms, les adjectifs et les participes passés, la catégorie sociologique correspondante. Le schéma 1 illustre, à partir de l'exemple d'une phrase, l'ensemble de cette description.

L'exploration des textes

En appliquant cette grammaire à tous nos textes, l'objectif était de complexifier les diverses explorations de manière à permettre de retracer certains fonctionnements discursifs. Habituellement, l'analyse automatique du contenu aboutit à des lexiques de mots ou de catégories regroupant des ensembles propres à telles ou telles parties du corpus. Ces lexiques peuvent alors être comparés entre eux. Toute description, qu'elle soit sociologique ou syntaxique, conduira en plus à la production de lexiques qualifiés, c'est-à-dire relatifs à une propriété donnée. Ainsi, on peut imaginer des lexiques de mots dont la propriété commune serait d'avoir reçu une ou plusieurs catégories sociologiques. De la même façon, les propriétés générées par la grammaire pourront être retenues comme critère de constitution de lexiques. Ainsi, nous pourrons obtenir le lexique de tous les mots thématisés, ou le lexique de l'ensemble des déterminants d'un mot donné, ou encore le lexique de tout ensemble de mots comportant une quelconque propriété ou appartenant à un syntagme donné. Les possibilités d'exploration sont ainsi très étendues.

Les modèles. L'exploration des textes consiste à repérer l'information que l'on recherche et à la compiler de sorte qu'elle puisse être étudiée et faire l'objet de comparaisons. La fouille de certains mots dans des textes ou encore du contexte de ces mots est une pratique connue. Le Déredec permet, au-delà de ce repérage élémentaire, d'identifier les mots ou les syntagmes qui ont fait l'objet d'une description préalable. Lorsque ces mots ou ces syntagmes sont repérés, ils peuvent être regroupés dans des lexiques.

Il est possible de définir un grand nombre de ces modèles d'exploration [14] en faisant varier le type d'élément qu'on veut repérer (mots, catégories, groupes de mots...) et la nature de la contrainte attachée à cette fouille (une propriété quelconque définie par les descriptions préalablement obtenues). Parmi les six modèles d'exploration [83] que nous avons défini, le premier, MOD 1, permet d'établir l'importance quantitative des différents mots ou catégories dans les textes. Ce modèle permet aussi bien de connaître le nombre d'occurrences d'un mot donné dans divers sous-ensembles du corpus que d'établir le lexique de tous les mots, ou des seuls mots regroupés sous une catégorie. Il dresse donc des listes de fréquences lexicales et il offre la possibilité de faire des fouilles indifféremment à partir des mots eux-mêmes ou à partir des catégories qui lui ont été accolées. Nous avons nommé ce premier patron de fouille modèle d'occurrence simple.

Deux autres modèles d'occurrence sont plus complexes, en ce qu'ils se réfèrent aux caractérisations syntaxiques des phrases du texte. L'un, MOD 8, permet de dresser les lexiques qualifiés des mots ou des catégories occupant la position de thème dans la phrase décrite. Ces lexiques permettent ainsi d'évaluer l'importance de la thématisation de tout mot donné. Par exemple, le mot « taxe » a une importance moyenne en termes d'occurrence simple, alors qu'il n'est pratiquement jamais thématisé dans le discours du budget. La thématisation étant définie comme la mise en évidence de certains mots dans la phrase, il nous est permis d'interpréter une thématisation faible accompagnant une occurrence moyennement forte comme témoignant aussi bien de l'importance de ce mot dans le discours que de son caractère relativement subordonné dans le fil de l'argument.

L'autre modèle, MOD 6, dresse le lexique des mots ou catégories qui reçoivent une détermination. Il sélectionne, parmi toutes les occurrences d'un mot ou d'une catégorie, les occasions où ces mots reçoivent une détermination quelle qu'en soit la nature. Si l'on parle du « chef » indépendamment de toute détermination, cela peut signifier qu'un certain consensus social existe autour de la définition de ce mot. Certains mots peuvent recevoir beaucoup de déterminations parce qu'ils ont un rôle fonctionnel dans le discours. Ce serait le cas du mot « essor » qui doit presque nécessairement être défini dans un discours sur le budget (l'essor du Québec, l'essor de l'agriculture...). D'autres mots peuvent indifféremment être déterminés ou non. On fera alors l'hypothèse qu'un certain travail de sémantisation est à l'œuvre sur ce mot.

À ces trois modèles d'exploration des occurrences correspondent trois modèles de cooccurrence. Ces modèles repèrent les mots qui apparaissent dans le voisinage des lexèmes ou des catégories qui font l'objet de la fouille. Les mots du covoisinage seront eux-mêmes [84] regroupés dans des lexiques pouvant faire l'objet du même traitement analytique que tout autre lexique. Le plus simple de ces modèles, MOD 5, fonctionne sur le principe de l'appartenance commune d'un ensemble de mots à un même espace. On retrouve ici l'équivalent des techniques lexicographiques de cooccurrence. Le chercheur a le choix, à l'aide de celles-ci, de déterminer l'amplitude désirée d'un segment textuel considéré comme le contexte d'un lexème et dans lequel on retiendra les mots formant ce contexte. Les limites de ce segment correspondront à un nombre choisi de mots situés en amont et en aval du lexème, objet de la fouille, ou encore aux extrémités mêmes de la phrase le contenant.

Notre modèle a ceci de particulier que le critère servant à déterminer le segment textuel est de nature grammaticale. Il ramène tous les mots appartenant au même groupe propositionnel qui domine, dans l'arbre syntagmatique, le groupe verbal ou nominal où se trouve le mot objet de la fouille. Ce modèle peut ramener la phrase entière, mais il exclut certains groupes propositionnels, lorsque ceux-ci n'ont pas de rapport immédiat avec le syntagme contenant le mot en fonction duquel s'effectue la recherche.

Les deux autres modèles de cooccurrence dépendent des relations de dépendance contextuelle que nous avons privilégiées. L'un, MOD 3, construira les lexiques des mots qui appartiennent au propos associé au groupe syntagmatique contenant un thème donné. Par exemple, nous pouvons établir la liste des mots qui font partie de ce qui est dit à propos de certains lexèmes appartenant à la catégorie « communauté », précisément lorsque ces lexèmes sont en position de thème dans la phrase. L'autre, MOD 4, établira les lexiques des mots déterminant les lexèmes qui reçoivent cette détermination. L'ensemble de ces modèles illustre la souplesse du logiciel utilisé pour produire des explorations qui tiennent compte des caractéristiques grammaticales et sociologiques d'un texte.

Traitement de l'information. En raison même des possibilités qui nous étaient offertes de multiplier à l'infini les explorations de notre corpus, nous avons dû établir une stratégie générale de fouille et de procédure visant à faciliter l'exécution des modèles « à l'entrée » et le traitement de l'information « à la sortie ». L'analyse du discours sur le budget comportant un caractère expérimental, nous avons exécuté un très grand nombre d'explorations. Sans adopter une attitude empiriste qui [85] aurait consisté à épuiser toutes les possibilités logiques de fouille, nous avons tout de même exploré le comportement d'un très grand nombre de catégories, selon un scénario allant du général au particulier. Nous avons obtenu, au point de départ, les lexiques généraux de toutes les catégories et de tous les mots que celles-ci recouvrent pour l'ensemble du corpus du budget, et pour chacune des périodes (zones) qui découpent le corpus global. Nous avons, de même, obtenu le lexique de ces catégories ou de ces mots lorsque ceux-ci occupaient une position de thème et un dernier lexique lorsque ceux-ci recevaient une détermination.

En plus de donner un aperçu général du corpus, ces opérations ont permis d'établir trois mesures. La première, désignée sous le nom de coefficient général de participation, estime l'importance relative de l'ensemble des mots et des catégories pour chaque zone retenue et pour le corpus entier. Tout en donnant une image très générale de l'importance relative de chaque période, ce coefficient permet de fixer la base à partir de laquelle la distribution de tout mot ou de toute catégorie dans les divers sous-ensembles du corpus peut être évaluée. La deuxième mesure est l'indice de thématisation calculé pour tous les mots et catégories, pour chaque zone et pour l'ensemble du corpus. Cet indice est obtenu en rapportant le nombre des occurrences thématisées au nombre des occurrences simples. Enfin, l'indice de détermination pour tous les mots et toutes les catégories, par zone et pour l'ensemble, représente la troisième mesure générale : le rapport entre le nombre d'occurrences de l'unité en tant qu'elle reçoit une détermination et le nombre d'occurrences totales sert à établir cet indice.

Par la suite, nous avons procédé à des fouilles systématiques par familles de catégories. Nous avons exploré presque toutes les catégories, en prenant soin, d'une part, de regrouper certaines d'entre elles dans les sous-ensembles définis plus haut, et, d'autre part, de poursuivre l'exploration de certains mots privilégiés recouverts par ces catégories. Cela veut dire, par exemple, que nous avons regroupé certaines catégories appartenant au sous-ensemble « développement industriel » dans des fouilles uniques et que nous avons redoublé ces explorations en procédant à des fouilles de mots particulièrement significatifs dans cet univers sémantique, tels « industrie » ou « travail salarié ».

Cette stratégie globale d'exploration commandait que nous disposions de procédures extrêmement souples facilitant la définition des [86] modèles. Cette procédure « à l'entrée » (appelée STENUI) consiste en un programme menu offrant diverses options pour définir les paramètres de fouille.

La procédure « à la sortie » consiste en un protocole de traitement de l'information recueillie à l'aide des modèles d'exploration. Comme nous l'avons dit plus haut, les modèles rapportent toujours des lexiques, quels que soient les paramètres retenus. Ces lexiques sont des listes alphabétiques d'un ou de plusieurs mots ou catégories. Ils comportent une ou plusieurs colonnes, correspondant aux zones qui ont été définies selon le principe de découpage du corpus retenu au moment de l'exploration. De plus, six coefficents sont automatiquement calculés pour chacune des colonnes de la matrice lexicale. La lecture de ces données, par trop complexe, a nécessité la programmation d'un protocole de réduction de l'information, afin qu'elle puisse être facilement interprétable à un premier niveau, quitte à ce que nous retournions aux données brutes dans un deuxième temps.

La comparaison des textes

L'intérêt particulier de l'analyse de textes ressort de la comparaison. Nous pouvons décrire le « comportement » de nos textes pris un à un, mais la richesse de l'analyse découle avant tout de la mise en rapport de ces descriptions.

Deux facteurs sont intervenus dans le choix du type de comparaisons faites dans cet ouvrage : un corpus à locuteur unique et les méthodes statistiques. Le discours du budget est, par définition, réservé au parti au pouvoir. Il en découle que durant une législature, il provient d'une source unique et ne peut être immédiatement comparé à un discours équivalent [15]. Au cours de la période à l'étude (1934-1960), deux périodes sont libérales, les cinq autres unionistes. Il est dès lors très difficile de départager le poids relatif des facteurs allégeance et durée dans l'explication de la variation interdiscursive. Aussi avons-nous été très prudents devant ce genre de comparaison. Nous avons souvent préféré étudier la variation temporelle du seul discours unioniste. De ce point de vue, comme nous le verrons plus bas, nous avons pondéré les coefficients afin de tenir compte de la taille inégale des discours de chaque période.

L'autre facteur tient au type d'appareillage statistique utilisé. Nous avons déjà présenté, dans les pages précédentes, les diverses modalités de description appliquées aux textes et les divers modèles d'exploration de ces descriptions. Nous avons également appliqué des [87] coefficients et des indices aux divers résultats ainsi obtenus afin de mesurer l'écart entre les divers sous-ensembles du texte. Bien que ces mesures aient pu contribuer à étayer nos analyses comparatives des sous-ensembles textuels, nous n'avons pas eu recours dans ce premier ouvrage à un système de traitement statistique très développé, consacrant l'essentiel de nos efforts au problème de la description discursive. On peut affirmer que la lexicographie se distingue de notre démarche par le développement d'un appareil complexe de statistiques, mais appliqué à des matrices de données qui n'ont pas reçu de description. Nous prévoyons dans l'avenir faire concourir les deux démarches dans un traitement plus complet de l'information textuelle.

La mesure appliquée aux textes. Revenons maintenant à nos principaux coefficients. Une première famille de coefficients, nommés coefficients de participation [16] indique l'importance relative d'un ou de plusieurs mots ou catégories appartenant à un sous-ensemble textuel par rapport à l'ensemble de ces mots ou catégories dans le texte entier. Les coefficients nous informent, par exemple, sur le poids relatif d'une même catégorie dans chacune des législatures de la période duplessiste. Le coefficient de participation brut est calculé dans l'absolu et ne tient pas compte de l'importance inégale de tel ou tel sous-ensemble par rapport au corpus global. Par exemple, la zone de 1937 à 1939 est quantitativement moins importante que celle de 1945-1948. Voilà pourquoi nous avons retenu un second coefficient pondéré qui tient compte de l'importance relative des divers sous-ensembles. Ainsi le coefficient brut pourra indiquer que telle catégorie a une grande importance numérique dans telle législature, alors que le coefficient pondéré montrera que la valeur relative de cette catégorie est atténuée en raison de la faiblesse numérique globale de ce discours par rapport aux autres.


Deux autres familles de coefficients sont aussi disponibles : il s'agit des coefficients d'originalité et d'intégration [17], calculés en termes absolus ou relativement à la participation. Nous n'avons pas fait abondamment usage de ces derniers, aussi n'en donnerons-nous qu'un aperçu sommaire. Dans le premier cas, il s'agit d'une mesure qui tient compte de la rareté d'une expression donnée dans un sous-ensemble par rapport aux autres sous-ensembles du corpus. Plus un sous-ensemble comporte de mots rares, plus le coefficient sera élevé. La version relative de ce coefficient s'appuie sur l'importance de chaque zone du point de vue de sa participation au corpus global. Ce [88] coefficient tient compte de l'écart entre l'originalité et la participation mesuré pour une même zone. Dans le cas du coefficient d'intégration, c'est la logique inverse qui s'applique. Plus une zone comportera de mots semblables à ceux qui existent dans d'autres zones, plus le coefficient sera élevé. La forme relative de ce coefficient est pondérée par le coefficient de participation attribuable à cette zone.

Cheminement de la démonstration. La mise en œuvre de la méthodologie qu'on vient d'exposer a favorisé abondamment les mouvements d'aller-retour dans l'exploration des données. Le mode de démonstration a suivi le même chemin. Faute de résultats synthétiques qui auraient pu provenir d'un traitement statistique complexe, nous avons procédé par accumulation d'éléments de démonstration. L'interprétation des indices ou coefficients, ou encore des rangs occupés par telle ou telle catégorie dans tel ou tel lexique généré par tel ou tel modèle n'a souvent que peu de valeur probante à elle seule. La force de la démonstration apparaît donc à travers un processus d'addition de ces résultats allant dans un même sens.

Il faut souligner la quantité impressionnante de résultats obtenus par l'application de nos modèles d'exploration. Ces résultats ont fait l'objet d'un traitement et d'un examen exhaustifs. Nous ne pouvions retenir, bien sûr, que quelques-unes de ces données pour étayer notre démonstration. Nous avons d'abord choisi d'effectuer un traitement très général des données globales, tirant parti des coefficients généraux de participation, des indices de thématisation et de détermination. Dans toute la deuxième partie, avant tout orientée vers l'analyse de contenu, nous avons privilégié les modèles d'occurrence et le modèle de cooccurrence large (MOD 5). C'est dire que nous avons peu insisté sur la syntaxe. Lorsque nous y utilisons les modèles rapportant la cooccurrence dans le propos ou dans la détermination, c'est davantage dans le but de confirmer la démonstration déjà amorcée. Nous parlons ainsi d'effet de renforcement, les divers modèles de cooccurrence allant dans la même direction. Nous faisons également appel aux coefficients de participation particulièrement dans les sections consacrées à l'étude du discours économique et de la valorisation. Nous ne déployons pleinement les résultats de la description syntaxique que dans la troisième partie. Il faut cependant comprendre que subsiste un nombre considérable de résultats supportant notre démonstration dont il aurait été difficile de rendre compte de façon exhaustive.

[89]

Ainsi, nous pensons pouvoir parler du caractère cumulatif de notre démarche dans l'interprétation des données. L'approche mixte ascendante-descendante favorise ce mode de démonstration puisqu'elle combine des explorations motivées par des hypothèses et d'autres qui proviennent du processus de la découverte empirique. Sans trop abuser du terme, nous pourrions parler d'une interprétation qualitative de données mixtes. Nous disposons de lexiques interprétables au niveau sémantique ; ces lexiques sont constitués à partir d'une double description du texte ; enfin, ils fournissent des indications chiffrées, elles-mêmes retraduites dans des indices et des coefficients.

Nous ne saurions trop insister en terminant sur le caractère essentiellement différent d'une lecture de données et d'une lecture de texte. Les descriptions produites sur le texte, leur exploration systématique et la masse d'information qui en résulte représentent un autre texte qui n'est plus immédiatement celui du départ. C'est ce texte transformé, ne répondant plus aux mêmes règles de formation, qui est l'objet d'analyse. Les deux modalités de lecture nous apprennent des choses différentes d'une même source. On fera l'expérience de cette différence en comparant l'information qui ressort de nos analyses à celle qui est directement présente dans l'appareil de citations dont nous avons truffé l'ouvrage. Ces citations n'ont été retenues qu'aux seules fins d'illustrer notre démarche et de rendre la lecture du texte moins aride. Elles ne devraient donc pas être confondues avec la logique de nos données.


ILLUSTRATION DE LA MÉTHODE

Au moment de rendre compte de l'analyse des données, il nous est apparu que nous ne pourrions reproduire que la pointe de l'iceberg que représente la masse des résultats générés dans la recherche. Nos analyses viennent en quelque sorte livrer des grandes conclusions. Afin de permettre au lecteur de se faire une idée de la nature et de la complexité des données, nous présentons ci-après quelques exemples de résultats obtenus.

Comme nous l'avons dit, nous n'obtenons en dernière analyse que des lexiques qui résultent de l'application des divers modèles d'exploration. Ces lexiques sont ou ne sont pas qualifiés par la syntaxe, c'est-à-dire qu'ils sont constitués à partir d'une fouille qui tient ou ne tient pas compte du comportement syntaxique des mots. C'est le [90] chercheur qui détermine la nature de la fouille et, en bout de piste, le résultat consiste en une liste de mots ou de catégories avec leur fréquence et leur distribution par zones temporelles. C'est sur ces listes que des opérations mathématiques sont appliquées afin de mesurer les variations.

Le tableau 1 présente un lexique non-exhaustif, constitué des mots catégorisés sous l'étiquette « tradition ». On obtient ainsi l'importance relative de chaque mot ayant reçu cette catégorie dans l'ensemble des discours du budget et l'intensité de la présence de chacun dans les diverses zones que nous avons retenues.

L'examen de ce tableau permet d'apporter quelques précisions à ce qui a déjà été dit. D'abord, en ce qui concerne la catégorisation, on peut observer concrètement le résultat de l'application de la grille sur ce corpus. On note en un premier temps la forte redondance de certaines notions alors que d'autres mots se trouvent très peu représentés. Ici toutes les formes des mots « ancêtre », « coutume », « héritage », « patrimoine », « survivance » et « tradition » représentent 76,26% des occurrences de la catégorie tradition. Soulignons que l'emploi de l'étiquette « tradition » pour désigner cet ensemble sémantique découle du caractère générique de ce terme. Il faut admettre cependant que ces choix demeurent arbitraires. Nous avons toujours tenté de retenir la dénomination la plus socialement déterminée ou la plus générale du point de vue sémantique. On observe ici, sur le plan empirique, que les formes découlant du vocable « tradition » expliquent à elles seules 33,8% de toutes les occurrences de la catégorie.

Attardons-nous pour terminer sur la présence de mots qui pourraient laisser le lecteur perplexe. Ainsi le mot « passé » ne devrait-il pas être catégorisé sous temporalité plutôt que sous tradition ? Il faut rappeler que la catégorisation sociologique se faisait en contexte et que le mot « passé » peut très bien être utilisé sous l'enseigne du traditionalisme, par exemple dans l'expression « notre maître le passé ».

La lecture du tableau 1 suggère une seconde observation. On peut y lire en abscisse les diverses zones temporelles que nous avons retenues. Il s'agit des législatures. Le découpage nous permet d'une part de distinguer les périodes durant lesquelles les libéraux étaient au pouvoir (34-36, 40-44) des autres zones unionistes [18]. Cela nous permet d'autre part de considérer des variations longitudinales tout au long de la période. Il faut comprendre qu'en tout temps il nous est loisible de générer des lexiques avec un autre principe de découpage ou, tout simplement, en supprimant certaines zones. Nous avons ainsi

[91]

Tableau 1
Lexique : occurrences simples des mots catégorisés
sous l'étiquette « tradition », par zone

Expressions

Total

34-36

37-39

40-44

45-48

49-52

53-56

57-60

Ancêtres

17

-

-

-

3

5

6

3

Attachements

1

-

-

-

-

-

16

-

Commémoratives

1

-

-

-

-

1

-

-

Conservés

1

-

-

-

-

-

1

-

Conservateur

1

-

-

-

1

-

-

-

Coutume

6

1

1

2

-

1

-

1

Coutumes

12

-

-

-

9

1

-

2

Coutumière

1

1

-

-

-

-

-

-

Descendants

3

-

-

-

1

-

1

1

Destinées

1

-

-

-

-

1

-

-

Devanciers

1

-

-

-

-

-

-

1

Folklore

2

-

-

-

-

1

-

1

Garde

1

-

-

-

-

1

-

-

Hérité

1

-

-

-

-

-

1

3

Héritage

10

-

-

-

7

-

2

1

Héritiers

3

-

-

-

3

-

-

-

Habitudes

-

-

-

-

-

-

1

-

Légendaire

1

-

-

-

-

-

-

1

Légende

2

-

-

-

-

-

2

-

Légué

2

-

-

-

2

-

-

-

Léguée

1

-

-

-

-

-

1

-

Leçons

1

-

-

-

-

-

-

1

Lignée

2

-

-

-

-

1

-

1

Mémoire

3

-

-

-

3

-

-

-

Mémorable

2

-

1

-

1

-

-

-

Mœurs

1

-

-

-

1

-

-

-

Morts

1

-

-

-

1

-

-

-

Origines

1

-

-

-

-

-

1

-

Pères

1

-

-

-

1

-

-

-

Passé

5

-

-

1

2

-

2

-

Patrimoine

13

-

1

-

2

5

-

5

Séculaire

1

-

-

-

-

-

-

1

Souche

1

-

-

-

-

1

-

-

Sources

1

-

-

-

-

-

1

-

Souvenir

4

-

-

-

-

-

4

-

Souvenirs

1

-

-

1

-

-

-

-

Survivance

21

-

-

-

5

7

6

3

Traces

1

-

-

-

1

-

-

-

Tradition

11

-

-

1

4

3

2

1

Traditionnel

2

-

-

-

-

-

1

1

Traditionnelle

5

-

-

2

1

1

-

1

Traditionnelles

1

-

-

-

-

-

-

1

Traditionnels

2

-

-

-

-

1

1

-

Traditions

46

1

1

-

10

10

18

6

Usage

1

-

-

1

-

-5

-

-

Voix

1

-

-

1

-

-

-

-

Total

198

3

4

8

59

40

52

32


[92]

Tableau 2
Exemple de résultats standard :
« tradition » en position de thème

Menu

Quel MOD ? : MOD 8.

Quelle expression ? : « UV14 » (étiquette de Tradition).

Liste des fichiers ?

Liste des constantes ? :1.48, 1.97, 2.94, 30.54, 20.69, 25.62, 15.76.

Seulement des catégories ? : Non.

Une seule catégorie ? : Oui.

Restriction de catégorie ? : Non.

Troncature ? : Non.


Indice de redondance

Rubriques

Total

34-36

37-39

40-44

45-48

49-52

53-56

57-60

Types différents

Occurrences totales

Indice de redondance

43,8 %

-

-

-

30,9 %

26,7 %

22,9 %

30,0 %


Coefficients : Types

Zones

CIIT

CP

CO

CPIP

CPOP

CPPC

34-36

-

-

-

-

-

-100,00

37-39

-

-

-

-

-

-100,00

40-44

-

-

-

-

-

-100,00

45-48

20,00

33,33

36,71

-40,00

10,13

36,28

49-52

21,50

27,27

27,22

0,83

-0,21

50,84

53-56

25,00

21,21

20,25

17,86

- 4,52

4,96

57-60

27,50

18,18

15,82

51,25

-12,97

-10,04


Coefficients : Occurrences

Zones

CIIT

CP

CO

CPIP

CPOP

CPPC

34-36

-

-

-

-

-

-100,00

37-39

-

-

-

-

-

-100,00

40-44

-

-

-

-

-

-100,00

45-48

25,69

36,96

40,93

-30,47

10,76

51,09

49-52

27,08

26,09

25,74

3,82

1,35

44,29

53-56

22,22

17,39

15,69

27,78

9,80

- 13,95

57-60

25,00

19,57

17,65

27,78

9,80

-3,19


[93]

Tableau 2 (suite)

Expressions

Total

34-36

37-39

40-44

45-48

49-52

53-56

57-60

Ancêtres

8

-

-

-

3

3

1

1

Commémoratives

1

-

-

-

3

3

1

1

Coutumes

6

-

-

-

4

-

-

2

Descendants

1

-

-

-

1

-

-

-

Destinées

1

-

-

-

-

1

-

-

Héritage

1

-

-

-

1

-

-

-

Héritiers

1

-

-

-

1

-

-

-

Légende

1

-

-

-

-

-

1

-

Légué

1

-

-

-

1

-

-

-

Mémoire

1

-

-

-

1

-

-

-

Origines

1

-

-

-

-

-

1

-

Patrimoine

3

-

-

-

-

3

-

-

Sources

1

-

-

-

-

-

1

-

Survivance

6

-

-

-

-

1

3

2

Tradition

4

-

-

-

3

1

-

-

Traditionnelle

1

-

-

-

-

1

-

-

Traditionnelles

1

-

-

-

-

-

-

-

Traditions

5

-

-

-

-

1

1

3

Voix

1

-

-

-

1

-

-

-

Total

45

-

-

-

16

12

8

9


Légende : Co : Coefficient d'originalité
CP : Coefficient de participation
CPIP : Coefficient pondéré d'intégration sur la participation
CPOP : Coefficient pondéré d'originalité sur la participation
CPPC : Coefficient de participation pondéré par une constante
CIIT : Coefficient d'intégration intertextuelle

souvent considéré diverses périodisations pour l'analyse du discours unioniste : la période d'avant-guerre, l'immédiat après-guerre, l'apogée (49-56) et la fin de régime.

Le tableau 2 reproduit de manière synthétique les résultats standard qui sont disponibles à la suite de l'application d'un modèle d'exploration. Ici, nous avons retenu l'exemple de l'application d'un MOD 8, c'est-à-dire un modèle cherchant toutes les occurrences de la catégorie « tradition » en position de thème dans les phrases. De telles fouilles de résultats sont générées par tous nos autres modèles.

[94]

On y retrouve d'abord un rappel de chaque choix que nous avons effectué lorsque la procédure d'exécution des modèles (appelée STENUI) nous proposait un menu à choix multiples. La première question au menu porte sur le nom du modèle (existant par ailleurs dans une banque de modèles). Ici, nous avons répondu MOD 8. La deuxième question concerne le patron de la fouille ou, si l'on veut, l'unité qui sera l'objet de la fouille. Cette unité peut être une catégorie, un groupe de catégories, un mot, un groupe de mots ou toute combinaison d'unités. Ici, nous avons donné l'étiquette de la catégorie « tradition », soit « UV14 ». La question concernant la liste des constantes concerne très spécifiquement le coefficient de participation pondéré. La base de pondération variera en fonction du modèle. Ici, nous donnons les valeurs du coefficient de participation obtenu lors de l'application du modèle d'occurrence simple (MOI) 1). En effet, il nous intéressera de connaître l'importance relative de chaque zone sur le plan de la thématisation en la rapportant à l'importance relative de toutes les occurrences de la catégorie. La question suivante (liste des fichiers ?) porte sur la ou les parties du corpus qui doivent faire l'objet de l'exploration. Veut-on des résultats sur l'ensemble ou à partir d'une ou de plusieurs zones définies préalablement ?

Il faut ensuite décider si les lexiques rapportés ne comprendront que les catégories ou également la liste des mots que celles-ci rassemblent. La présence des mots offrent évidemment plus de matière à interprétation, mais elle a également une incidence sur les coefficients d'originalité et d'intégration. Que l'on choisisse les catégories seules ou les mots et les catégories, le coefficient de participation demeure le même puisque, en nombre, les catégories ne font que redoubler les mots ceux-ci recevant nécessairement une catégorie. Par contre, l'originalité ou l'intégration tenant à la variation des unités, la présence des mots augmente le raffinement de la mesure. Soulignons, en terminant, que dans le cas des modèles d'occurrence d'une catégorie unique, le choix des mots s'impose, puisque autrement le lexique ne comprendrait qu'une valeur, celle de la catégorie recherchée. Dans les modèles de cooccurrence, on choisit selon les besoins de la démonstration l'une ou l'autre option.

La question « une seule catégorie ? » permet de rechercher la cooccurrence d'une catégorie particulière, après la formulation d'une hypothèse. La question « restriction de catégorie ? » permet au contraire d'exclure des résultats certaines catégories. Ainsi, en mode de cooccurrence, [95] on peut vouloir exclure des résultats la catégorie objet de la fouille qui, selon le modèle, aurait tendance à se ramener elle même, contaminant ainsi les résultats. La dernière question autorise de faire des fouilles sur des expressions tronquées ou, si l'on veut, sur le lemme de certains mots. Si l'on demande « nation » en position tronquée, on obtiendra tous les mots commençant par cette forme, tels nation, national, nationalisme, nationalisation...

La feuille de résultats donne également un indice de redondance qui découle du rapport entre le nombre de formes lexicales différentes (types) et le nombre d'occurrences totales (Tokens). Cet indice donne un aperçu de la richesse ou de la variété du vocabulaire. Cette mesure est disponible pour chacune des zones et pour l'ensemble. On obtient par la suite les divers coefficients selon qu'on les calcule en fonction des types ou des occurrences. Lorsqu'un coefficient est fondé sur le calcul des types, chaque forme différente compte, dans tous les cas, pour une seule unité. Au contraire, lorsqu'on tient compte des occurrences, chaque occurrence de chaque forme est comptabilisée. Pour notre part, nous avons toujours utilisé les coefficients basés sur les occurrences.

On obtient enfin le lexique des mots et des catégories avec leur distribution de fréquence. C'est sur ce lexique que les calculs mentionnés ci-haut ont été effectués. On comprendra que ces lexiques peuvent varier considérablement en taille selon le modèle. Dans le cas des modèles de cooccurrence large, ils pourront atteindre des centaines de formes. Dans le tableau 2, on observera que le lexique est un sous-ensemble du lexique du tableau 1. En effet, le modèle demande ici la liste des mots ayant reçu la catégorie « tradition », tout en étant en position thématisée. La comparaison des deux lexiques permet d'obtenir un indice de thématisation, c'est-à-dire le rapport du nombre de fois que la catégorie est en position de thème sur l'ensemble de ses occurrences.

La complexité de ces résultats est donc considérable. Voilà pourquoi nous avons imaginé un protocole automatique de réduction de ces données. Le tableau 3 résume le format de ce protocole à propos d'un modèle de cooccurrence large (MOD 5) en regard de la catégorie « tradition ». Le lexique produit par ce modèle ramène tous les mots associés dans le groupe propositionnel qui domine le groupe nominal ou verbal dans lequel se trouve la catégorie « tradition ». Essentiellement, le protocole synthétise deux ordres d'information. D'abord, il ramène la valeur numérique des coefficients à cinq valeurs

Tableau 3
Exemple de protocole de traitement des résultats :
covoisinage de « tradition » (MOD 5)

Rang et importance des coefficients par zone

Coefficients

34-36

37-39

40-44

45-48

49-52

53-56

57-60

R

I

R

I

R

I

R

I

R

I

R

I

R

I

CPPC

7

- -

6

- -

4

-

3

+

2

+

1

+

5

-

CPIP

2

+ +

1

+ +

3

+

6

-

5

=

7

-

4

+

CPOP

6

-

7

-

5

-

2

=

3

=

1

+

4

-


Importance relative de chaque famille de catégories (ici exemple :
« Univers social ») et de chaque zone pour chaque famille dans le covoisinage de « tradition »

Rubrique

total

34-36

37-39

40-44

45-48

49-52

53-56

57-60

HO

30%/100%

2,9

6,4

7,5

16,3

19,6

31,6

15,5

Occurrence

342

3

10

15

80

78

112

44

% obs.

35,6

0,9

2,9

4,4

23,4

22,8

32,7

12,9

CPPC

18,7

6,9

54,7

41,3

43,5

16,3

3,5

-16,8


[97]

Lexique des dix premières catégories « Univers social » d'accompagnement de « tradition », au total et par zone

Catégorie

HO

total

34-36

37-39

40-44

45-48

49-52

53-56

57-60

R

N

R

N

R

N

R

N

R

N

R

N

R

N

R

N

Temporalité

1

1

96

-

1

5

1

12

2

19

2

17

2

28

1

15

Espace

2

2

95

1

2

2

3

3

1

1

2

1

22

1

38

2

9

Communauté

3

3

49

2

1

-

2

2

3

14

3

14

3

14

5

4

Conflit

6

4

27

-

3

1

-

4

10

5

5

5

6

3

5

Langue

9

5

23

-

-

-

5

8

4

7

4

7

7

1

Personnages

5

6

18

-

-

-

6

5

8

2

5

6

3

5

Âge

10

7

9

-

3

1

-

8

1

-

7

4

6

3

Population

7

8

8

-

-

-

-

6

4

7

4

-

Classes

4

9

7

-

-

-

8

1

9

1

9

2

7

1

Professions

8

10

5

-

-

-

8

1

9

1

9

2

7

1


[98]

ordonnées (- - , -, - , + , + +) et établit le rang de chaque zone eu égard à la valeur numérique des coefficients. Pour la participation, par exemple, on saura quelle zone arrive en tête et quelle est son importance.

La seconde opération consiste à réduire l'information concernant le lexique. Dans le cas des modèles d'occurrence, le protocole nous ramène dans l'ordre la liste des dix mots les plus fréquents dans l'ensemble du discours ainsi que la fréquence et l'ordre pour chaque zone. On peut ainsi analyser cette distribution générale et ses variations temporelles. Dans le cas des modèles de cooccurrence, nous obtenons pour chaque famille de catégories associée au patron de la fouille les renseignements suivants : l'importance relative de chaque famille de catégories et de chaque zone dans le covoisinage du patron de fouille ; le lexique des dix premières catégories de chaque famille.

Le tableau 3 illustre ces résultats pour la famille des « univers social » (US). Il est entendu que les résultats globaux font également connaître les quatre autres familles de catégories. L'importance de chaque famille de catégories nous indique, dans l'exemple du tableau 3, l'importance de la coprésence de l'« univers social dans le voisinage de « tradition », en la comparant à l'importance habituelle de cet univers dans l'ensemble du corpus. Cette comparaison se traduit par un coefficient pondéré positif ou négatif. Ici, on comprend que les catégories de l'« univers social » augmentent de 18,7 % par rapport à leur valeur attendue. Le même tableau indique la répartition horizontale des catégories par zones. Cette répartition est comparée à la répartition théorique (c'est-à-dire la répartition dans l'ensemble du corpus) et donne un coefficient pondéré positif ou négatif.

Dans le cas des modèles de cooccurrence, on obtient cinq lexiques des principales catégories de chaque famille. Comme pour le lexique des mots, on obtient la fréquence et le rang pour l'ensemble et pour chaque zone. On obtient également le rang théorique des catégories d'une même famille dans l'ensemble du corpus. Cette dernière précision est importante, puisqu'elle nous a servi de base systématique de comparaison. Ainsi, dans l'analyse on trouvera souvent des tableaux composés de deux colonnes de données. La première énumère des catégories dans leur ordre d'importance pour l'ensemble du corpus. C'est ce que nous appelons l'hypothèse zéro (HO). La seconde énumère dans l'ordre observé les catégories ramenées par le modèle. Cette comparaison permet de noter la présence, l'absence, le renforcement ou l'affaiblissement de certaines catégories dans des contextes donnés.



[1] Jean-Claude Gardin, Les analyses de discours, Neuchâtel, Delachaux et Niestlé, 1974.

[2] En adoptant le terme de constructivisme, nous ne visons pas à nous inscrire à l'intérieur d'un courant théorique ou philosophique prédéfini. Ce vocable a désigné un mouvement esthétique dans les années vingt qui a caractérisé une nouvelle approche de la sculpture. Il a aussi été utilisé dans la théorie didactique de Piaget. Il est actuellement utilisé en théorie de la connaissance et de l'apprentissage (voir, par exemple, Ernst Von Glasersfeld de l'Université Georgia). Nous nous contentons de nous y référer en ce qu'il suggère que tout objet de pensée est la résultante d'un processus interactif de construction.

[3] Voir Jean-Yves Morin, « Théorie syntaxique et théorie du parsage : quelques réflexions », Revue québécoise de linguistique, 14 : 2, 1985 ; M. Marcus, A Theory of Syntactic Recognition for Natural Language, MIT Press, 1980.

[4] Jean-Jacques Courtine, « Analyse du discours politique »,  Langages, op. cit.

[5] Nous avons souligné dans le premier chapitre le peu de cas que la tradition de l'analyse du discours a fait d'une définition explicite du discours politique. Nous notons en effet que le questionnement sur la constitution du corpus est venu assez tard dans ce courant. Voir J.J. Courtine, op. cit.

[6] Dominique Maingueneau, Initiation aux méthodes de l'analyse du discours, Paris, Hachette, 1976.

[7] « À côté des méthodes précédemment décrites, qui sont non linguistiques en tant qu'elles évitent le niveau spécifique du signe, et relèvent de méthodologies psychologiques ou sociologiques, il en existe d'autres d'apparition plus récente, qui, au contraire, se réfèrent ouvertement à la linguistique moderne, et apportent une autre réponse à la question du sens contenu dans un texte », Michel Pêcheux, Analyse automatique du discours, op. cit., p. 5.

[8] Mikhaïl Bakhtine, Le marxisme et la philosophie du langage, Paris, Les éditions de Minuit, 1977 (1ère édition en russe, 1929), p. 41.

[9] Nous nous référons ici aux travaux de la linguistique qui s'intéressent, au-delà de la phrase, aux structures et fonctionnements du discours.

[10] Pierre Plante, « La structure des données et des algorithmes en Déredec », Revue québécoise de linguistique, 14 : 2, 1985.

[11] Le progiciel CBSF, dans sa version la plus récente, a été développé par Lucie Dumas dans le cadre des travaux du Centre d'analyse de textes par ordinateur de l'UQAM.

[12] Pierre Plante, GDSF, Une grammaire de surface du français, service de l'informatique de l'UQAM, version octobre 1983.

[13] Dominique Maingueneau rapporte ainsi la thèse de M.A.K. Halliday : « Le linguiste anglais M.A.K. Halliday, après beaucoup d'autres, insiste sur l'existence de deux composantes dans la phrase, le thème et le rhème ; le thème est, en quelque sorte, le « sujet psychologique », c'est-à-dire l'élément sur lequel s'accroche le reste de la phrase, l'élément essentiel, mis en valeur le plus souvent par sa position initiale. Dans la plupart des cas, le thème coïncide avec le sujet grammatical et le rhème avec ce qui en est dit. » Dominique Maingueneau, Initiation aux méthodes de l'analyse du discours, op. cit., page 114. Voir aussi M. A. K. Halliday, « Notes on Transitivity and Theme », Journal of Linguistics, III-1, III-2, IV-2, 1967-1968.

[14] Dans la version 1.0, datée de juin 1984, du « logiciel de traitement linguistique, d'analyse de contenu des textes et de mise au point de systèmes-experts en langage naturel, Déredec », Pierre Plante définit ainsi les modèles d'exploration : « Ces modèles sont des patrons de fouille et de dépistage (pattern-matching) arbitrairement complexes qui ont pour fonction de rassembler sous des registres ou des fichiers des éléments terminaux ou non terminaux (des sections entières d'un arbre) des EXFAD (structures de rétention des données) » (p. 17-18).

[15] À moins bien sûr de référer à la réponse au discours du budget, ce que nous avons convenu de ne pas faire, compte tenu du caractère beaucoup moins formalisé des interventions de l'opposition à ce propos.

[16] Coefficient de participation (C.P) :


[17] Coefficient d'intégration intertextuelle (C.I.I.T.) :

.

[18] Soulignons que le discours du budget de 1936 est un discours libéral.


Retour au texte des auteurs: Gilles Bourque et Jules Duchastel, sociologues, UQAM Dernière mise à jour de cette page le mardi 20 novembre 2012 13:26
Par Jean-Marie Tremblay, sociologue
professeur de sociologie retraité du Cégep de Chicoutimi.
 
Commanditaires




Saguenay - Lac-Saint-Jean, Québec
La vie des Classiques des sciences sociales
dans Facebook.
Membre Crossref