Gilles Bourque, Jules Duchastel et Jacques Beauchemin, Annexe méthodologique. La société libérale duplessiste, 1944-1960

Gilles Bourque, Jules Duchastel
et Jacques Beauchemin

Annexe 1. Méthodologie.

Un texte publié dans l’ouvrage de Gilles Bourque, Jules Duchastel et Jacques Beauchemin, La société libérale duplessiste, 1944-1960, Annexe 1 : méthodologie, pp. 337-361. Montréal : Les Presses de l'Université de Montréal, 1994, 435 pp. Collection : politique et économie, série : études canadiennes.

Introduction
Analyse du discours politique

Approche heuristique

Analyse du discours à base lexicale en contexte

Corpus

Aperçu du corpus global
Description du corpus étudié
Corpus de l'Union nationale

Le discours du trône
Le discours législatif
Le discours électoral
Le discours constitutionnel
Corpus religieux
Catégorisation

Sens de la catégorisation
Processus de catégorisation
Contenu de la grille
Utilisation des catégories dans l'analyse

Informatique

Génération d'une base de données lexicales
Partition du corpus
Module de catégorisation
Patrons de fouilles
Lexiques d'occurrences
Lexiques de cooccurrences
Concordances
Analyses de données
Fondement mathématique du test de cooccurrence

INTRODUCTION

La présente annexe fournit l'essentiel des informations nécessaires à la compréhension de la démarche méthodologique mise en œuvre pour le traitement et l'analyse du discours politique dont les résultats font la trame de ce livre. On pourra trouver ailleurs un exposé plus élaboré des fondements théoriques et méthodologiques de notre travail [1]. Nous procéderons plutôt ici à une description avant tout technique des différentes démarches et procédures de recherche. Cela ne nous dispensera cependant pas de situer notre approche dans le cadre plus général de l'analyse du discours telle que nous l'avons conçue depuis le début de nos recherches sur le discours politique, ni de donner sens à la démarche interprétative qui est la nôtre dans ce livre. Nous décrirons donc succinctement la perspective d'analyse que nous avons privilégiée avant même de présenter les divers choix méthodologiques concernant le corpus, la catégorisation et la stratégie informatique de traitement des données.

ANALYSE DU DISCOURS POLITIQUE

La perspective privilégiée dans ce livre est l'analyse de la dimension socio-sémantique du discours politique duplessiste. Afin de préciser cette approche, nous reviendrons rapidement sur notre conception de la nature du discours et de la pluralité des lectures possibles avant d'insister sur la continuité de notre approche globale.

Il serait facile de caricaturer et de dire que le discours est ou bien le reflet d'une réalité qui lui est sous-jacente et qui l'explique entièrement ou bien la réalité elle-même, en tant qu'elle se construit dans le processus de son énonciation. Dans le premier cas, on aurait affaire à une perspective d'analyse de contenu classique qui considère le discours comme une surface reflétante d'une réalité matérielle quelconque (psychologique, sociologique, politique, etc.). Dans le second, il s'agirait d'une approche strictement constructionniste qui ne suppose aucun fondement axiomatique à la réalité en dehors de sa mise en discours. Il s'agit bien là de deux conceptions opposées du discours comme pure représentation ou comme pure construction. Nous avons adopté depuis le début de nos travaux une position intermédiaire qui consiste à reconnaître dans le discours une double fonction de représentation et de production de la réalité. Nous avançons l'hypothèse que la réalité n'est pas pure représentation, mais qu'elle comporte toujours une dimension symbolique par cela même qu'elle existe. Le discours contribue à sa production et à sa reproduction sans pour autant en épuiser toute la substance.

Ceci étant dit, comment caractériser l'objet discours ? Nous dirons qu'il est à la fois objet et processus. En tant qu'objet, il a une certaine existence matérielle qui se manifeste à la fois dans des formes et des contenus, chacun pouvant donner lieu à des analyses très variées. En tant que processus, il s'inscrit dans des conditions de production/énonciation qui doivent être définies et dont l'articulation avec le discours doit être pensée. C'est à ces impératifs que nous avons tenté de répondre en proposant notre démarche méthodologique. Nous inscrivons cette démarche dans la perspective de l'analyse du discours plus que dans celle de l'analyse du contenu pour diverses raisons. Bien que nous ayons privilégié l'analyse de la dimension socio-sémantique du discours politique duplessiste dans le présent ouvrage [2], notre approche s'inscrit tout de même dans la perspective générale d'analyse du discours, et cela de trois points de vue principaux.

D'abord, la définition théorique du discours politique que nous proposons dans ce livre et l'importance théorique accordée à la construction du corpus situe notre démarche dans la tradition française d'analyse du discours [3]. En analyse de contenu classique, les discours sont uniquement rapportés à des locuteurs et à des conditions de production définie en pure extériorité. Aucune théorie de l'articulation des discours et de leurs conditions de production n'est proposée [4]. Au contraire, notre théorie du discours politique implique qu'il soit pensé comme participant aux procès d'institutionnalisation caractéristiques des sociétés modernes et contribuant en particulier, à produire un bloc social spécifique. Il émane, en ce sens, de la pluralité des institutions privées et publiques au sein desquelles s'organisent les rapports de pouvoir. Cette perspective structurante du discours politique appartient en propre à la tradition d'analyse du discours. Comme nous le verrons plus loin, le corpus n'a donc pas été constitué à partir des beaux morceaux à forte teneur thématique de quelques acteurs politiques, mais bien sur la base du discours tel qu'il est produit et travaille à l'intérieur de certaines institutions des sphères privée et publique.

Le choix des opérations que nous avons appliquées dans le processus de l'analyse situe notre démarche à mi-chemin entre l'analyse de contenu et l'analyse du discours. L'analyse du discours se distingue de la tradition de l'analyse de contenu classique par son travail de description et de repérage des traces des divers fonctionnements linguistiques, paralinguistiques ou même extralinguistiques. Il nous semble cependant que cette opposition entre les deux traditions, pour fondée qu'elle puisse avoir été historiquement, est de moins en moins évidente. Les analyses de contenu qui ne tiennent pas compte du tout de la texture du discours et qui ne retiennent que les mots dans leur nudité ou que les thèmes dans leur idéalité sont peu nombreuses. La construction des dimensions paradigmatique et syntagmatique distingue notre approche de certaines formes d'analyse de contenu classique qui puisent directement le sens dans les mots (lexicométrie) ou les énoncés (analyse qualitative et thématique). Sur le plan paradigmatique, nous avons choisi de procéder à une catégorisation socio-sémantique systématique. L'idée de la catégorisation appartient en propre à la tradition d'analyse de contenu, mais alors que dans cette dernière le chercheur se voit contraint à choisir entre le texte et les catégories, le texte catégorisé peut, dans notre cas, être fouillé par des modèles d'exploration qui portent aussi bien sur les mots que sur les catégories. D'un autre côté, bien que nous ayons renoncé dans ce livre à toute description des structures syntagmatiques ou textuelles, cette dimension est tout de même prise en compte dans la stratégie d'analyse que nous avons privilégiée. L'essentiel de la démonstration s'appuie, en effet, sur la mise en relation des diverses parties du discours par l'analyse des cooccurrences et l'examen des concordances. La méthode informatisée que nous avons utilisée permet une exploration systématique des relations de proximité sémantique entre les mots du texte. L'accès immédiat aux concordances (dans notre cas, les phrases contenant les éléments cooccurrents) permet de valider, par une lecture en contexte et systématique, les résultats ainsi obtenus. Si l'on considère donc l'ensemble du modèle opératoire mis en œuvre, la priorité accordée à la fonction référentielle nous rattache d'un côté à la tradition d'analyse de contenu alors que, de l'autre, la structuration des axes paradigmatique et syntagmatique nous rapproche de la philosophie même de toute analyse du discours.

Enfin, l'idée même de réfléchir au processus interprétatif nous situe davantage dans une perspective d'analyse du discours. En analyse de contenu, l'interprétation n'est conçue que comme processus inférentiel. Le texte est une surface indicielle d'un autre niveau de réalité qui lui est extérieur. Nous reprenons l'idée de Molino [5] selon laquelle tout texte est constitué de trois matérialités inséparables : sa production, sa textualité et sa réception. Comme production, le discours politique doit être vu, comme nous l'indiquons ci-dessus, dans son rapport aux différents procès d'institutionnalisation de la société. En tant que matérialité textuelle, il doit être travaillé sur les axes paradigmatiques et syntagmatiques. Reste l'interprétation qui renvoie au problème de la réception. Lorsqu'on pense à la réception, on est tenté de regarder du côté des destinataires naturels du discours. Dans le cas de discours historiques, il est toujours difficile de considérer systématiquement la réception, et on se trouve le plus souvent obligé de tenir pour acquis que le discours a produit ses effets. Mais la réception peut aussi se concevoir à travers le processus même de l'interprétation, L'analyste se trouve, en effet, en position de récepteur lorsqu'il lit, travaille et interprète un texte. En d'autres mots, le sens qui ressort de ces processus est également le produit de la lecture interprétative. Ricœur (1986) va également dans le sens de Molino lorsqu'il insiste sur l'indépendance du texte comme objet d'étude, ce qui rend possible son objectivation plus ou moins poussée. Mais il ajoute que quel que soit le degré de sophistication des modèles de description des données discursives, arrive toujours le moment de l'interprétation. Nous avons élaboré ailleurs (Duchastel, 1993) l'idée que ce moment doit être repoussé le plus possible afin d'accroître l'espace de la description objective et des inférences explicites. C'est pourquoi nous tentons de distinguer une interprétation intimement associée au raisonnement scientifique, répondant donc à des règles explicites (inférentielle, par exemple) et une interprétation externe qui échappe nécessairement au plan expérimental et se réfère alors à la connaissance du monde et à la représentation théorique que nous en proposons. De là, un retour nécessaire à la problématique du discours comme objet historique et social.

Ainsi, nous avons évité la perspective herméneutique naïve que l'on retrouve souvent en analyse de contenu classique. Nous avons tenté de construire progressivement l'interprétation dans le cadre d'une démarche analytique explicite. Mais, au terme de cette démarche, s'est imposée la nécessité d'une interprétation sociologique générale du duplessisme vu à travers la production du discours politique. C'est encore à ce niveau que l'analyse que nous produisons ne peut être assimilée à une simple analyse de contenu. Le cadre interprétatif tient compte de la théorie du discours comme des hypothèses socio-historiques qui ne peuvent être formulées qu'à un niveau général qui excède celui de l'empirie des discours analysés.

Approche heuristique

Dans Restons traditionnels et progressifs, nous avons qualifié notre approche d'empirico-constructiviste. Cette dénomination visait non pas à situer notre démarche dans le courant constructionniste ou déconstructionniste, mais plutôt à en souligner le caractère itératif, qui permet l'aller-retour entre l'examen empirique d'un grand nombre de données construites et la consolidation d'hypothèses et de modèles. Ce mouvement entre données empiriques et interprétation analytique s'appuie sur la souplesse d'une stratégie d'analyse assistée par ordinateur qui rend possible aussi bien la projection d'hypothèses sur le texte que la remontée de la surface du texte vers des généralisations théoriques. Cette stratégie non déterministe permet de réviser, chaque fois qu'il est nécessaire, les descriptions appliquées au texte et d'en reproduire l'exploration en fonction de nouvelles hypothèses. Cet arsenal méthodologique fut proposé en réponse au problème de la surdétermination des résultats par les procédures d'analyse. Rappelons la critique de Gardin (1974) concernant les limites de toute analyse du discours dont les procédures contribuent à contraindre à l'avance la nature des résultats. Nous jugions alors que le modèle informatique proposé permettait la construction-déconstruction progressive des données en suscitant la découverte de résultats inattendus (Serendipity).

Nous avons essentiellement conservé la même perspective. En analyse de contenu, il est courant de distinguer démarche heuristique et administration de la preuve. Ces deux démarches sont conçues comme des étapes successives d'un même processus analytique. D'une certaine manière, cette opposition renvoie au problème soulevé plus haut du degré de détermination appliqué aux données. Mais, dans la tradition d'analyse de contenu, l'étape heuristique est souvent conçue comme un moment qui échappe à proprement parler à la méthode. Il s'agit de la lecture « flottante », « intuitive » proposée comme point de départ à la construction d'un protocole d'observation. En ce qui nous concerne, notre méthode permet, en quelque sorte, d'intégrer la démarche heuristique à l'ensemble du processus analytique. Nous verrons dans les sections suivantes comment la souplesse du logiciel SATO autorise l'application de procédés de description, d'exploration et d'analyse aux différents moments du processus global. Cela nous a permis d'adopter une approche progressive de co-construction du sens produit par le discours. Les descriptions insuffisantes ont pu être reprises, les explorations sans issues abandonnées, celles qui promettaient poursuivies dans de nouvelles directions, les analyses improductives laissées pour compte, alors que celles qui convergeaient vers une interprétation congruente du discours duplessiste achevées.

Analyse du discours à base lexicale en contexte

Comment alors qualifier l'analyse que nous avons conduite dans ce livre ? Nous avons retenu l'appellation d'« analyse du discours à base lexicale en contexte ». Un examen plus serré des différents éléments de cette locution donnera un aperçu général de la méthode avant que nous en présentions systématiquement les éléments. D'abord, notre approche privilégie la fonction référentielle du discours. Nous traitons les unités sémantiques et leurs combinaisons. Le lexique constitue donc la base de notre analyse. Nous y repérons les unités sémantiques à travers les lexèmes mêmes ou des regroupements de lexèmes ayant reçu la même catégorie socio-sémantique, donc sur l'axe paradigmatique. Enfin, la dimension contextuelle renvoie à l'axe syntagmatique. Nous ne proposons pas, comme cela a été le cas dans d'autres travaux (Duchastel, Paquin et Beauchemin, 1992 ; 1994 ; Bourque et Duchastel, 1988), d'analyse des relations fonctionnelles entre éléments de la phrase. Ce que nous observons ici, ce sont les relations de cooccurrence dans le contexte de la phrase, sur la base à la fois du lexique des cooccurrents et de la phraséologie elle-même sous forme de concordances. Nous avons donc un triple accès au sens du texte à travers les mots, leur catégorie et le contexte dans lequel ils apparaissent.

CORPUS

Aperçu du corpus global

Avant de présenter les sous-corpus que nous avons retenus pour la présente étude, nous évoquerons succinctement les principes qui ont guidé la constitution d'un corpus global représentant le discours politique duplessiste et nous donnerons un aperçu de cet ensemble discursif.

Nous avons déjà discuté, dans Restons traditionnels et progressifs, de l'influence des dimensions théorique et méthodologique de notre approche sur la définition de l'univers des discours à partir duquel nous avons constitué notre corpus. La théorie du discours politique que nous avons proposée comporte deux aspects qui ont orienté notre travail sur le corpus. La description des divers traits qui caractérisent selon nous, le discours politique nous a conduits à définir l'espace même des discours que nous considérions de nature politique. La définition théorique que nous donnons du discours politique et l'hypothèse socio-historique que nous avons formulée à propos du régime Duplessis ont également contribué à délimiter plus concrètement le corpus. Enfin, la méthode d'analyse assistée par ordinateur, en nous offrant la capacité de traiter et d'analyser de grands ensembles textuels, nous a amenés à définir les limites quantitatives du corpus. Voyons succinctement comment chacun de ces facteurs a déterminé le choix final de notre corpus.

Le discours politique n'est pas avant tout un discours théorique ou doctrinaire. C'est un discours de masse qui circule dans les interstices des sphères privée et publique. La cohérence et l'homogénéité ne constituent pas sa caractéristique première. Il est au contraire hétérogène et polémique, point de vue parmi d'autres points de vue dans le jeu des échanges discursifs. Il traite de questions particulières dans des lieux distincts, tout en ayant tendance à élargir l'espace du questionnement et des institutions qui participent au débat. Deux conséquences découlent de cette conception : d'une part, nous avons renoncé aux énoncés doctrinaires ou programmatiques au profit des discours de la pratique politique tels qu'ils émergent dans le cadre de différentes institutions ; d'autre part, nous avons élargi la définition des institutions qui contribuent de manière significative au débat politique en nous intéressant aussi bien aux institutions de la sphère privée qu'à celles de la sphère publique.

Nous considérons que le discours politique contribue de manière prévalante à la représentation de l'espace, de la communauté, des rapports sociaux et du rapport de l'individu à la société (l'éthique). Cette définition a permis de préciser, dans le contexte socio-historique qui nous intéressait, les principales institutions et forces sociales productrices de discours politiques. Ainsi avons-nous défini un univers de discours politique pouvant rendre compte de l'ensemble du travail discursif politique sous le régime duplessiste. Cet ensemble, à partir duquel nous avons procédé à la constitution du corpus, se compose de deux sous-ensembles principaux. Nous avons retenu les discours correspondant aux activités fondamentales de la sphère publique dans la société moderne. Le discours électoral, en tant qu'exercice du processus démocratique, s'intéresse aux enjeux politiques définis par les différents partis politiques. Les discours du trône et du budget posent les orientations politiques fondamentales des gouvernements élus. Le discours législatif définit les domaines d'intervention privilégiés et les réponses apportées par le parti au pouvoir. Le discours constitutionnel, enfin, met en jeu les dimensions fondamentales de la régulation politique et de la forme du régime.

Il existe un second ensemble de discours que nous avons considéré comme étant de nature politique. Il s'agit du discours sur les rapports sociaux élaboré par diverses institutions de la sphère privée. Nous avons retenu du monde économique le discours de certaines organisations patronales et syndicales. Pour le discours patronal, nous avons identifié une série de publications périodiques disponibles sur toute la période, soit celles de la Chambre de commerce de Montréal et du Mouvement coopératif Desjardins. De même, nous avons retenu trois séries de publications syndicales, deux du monde ouvrier et une de la classe agricole. De plus, comme nous nous en expliquons abondamment dans ce livre, nous avons considéré l'Église comme une institution majeure dans le procès de production politique de la société québécoise. Nous avons donc constitué un ensemble de discours à orientation politique formé de deux parties. Le discours des mandements des évêques y représente les positions officielles de l'Église catholique, alors que les publications étudiante, ouvrière et agricole rendent compte des mouvements d'action catholique.

Les facilités de traitement informatique des données nous ont incités, dans la construction du corpus global, à fixer des bornes temporelles larges et à favoriser la multiplication des locuteurs, ce qui autorisait ainsi la comparaison diachronique selon diverses périodes du régime entre 1936 et 1960 et synchronique entre les divers locuteurs (Union nationale et Parti libéral, patrons, ouvriers et agriculteurs, évêques, jeunesses catholiques).

Description du corpus étudié

Le corpus global que nous avons décrit très succinctement a donné lieu à des analyses déjà publiées [6], dont la principale est certainement Restons traditionnels et progressifs, qui porte exclusivement sur le discours du budget. Nous avons dû, dans le présent livre, limiter nos ambitions à certains sous-ensembles du corpus pour des raisons d'espace et de cohérence analytique. En effet, la prise en compte de tous les discours et de toutes les périodes délimitant notre corpus global constitue un projet d'une ampleur beaucoup plus grande que celle qui est autorisée dans un seul livre. Nous avons donc choisi de retenir deux sous-corpus particuliers au cours d'une partie seulement de la période du gouvernement de Maurice Duplessis. Nous avons retenu celle qui, de 1944 à 1960 [7], couvre le retour au pouvoir de l'Union nationale après la Deuxième Guerre mondiale. Des analyses préalables (Duchastel, Paquin et Beauchemin, 1992 ; Beauchemin, Bourque et Duchastel, 1992) nous ont permis de déterminer que l'après-guerre constitue une entité cohérente. D'une part, le Québec se retrouve non seulement dans une période de mutation économique accélérée, mais également confronté à un projet de transformation du mode de régulation politique. D'autre part, la thématique du discours duplessiste se resserre autour d'axes dominants qui diffèrent de ceux de la période 1936-1939.

Les deux sous-ensembles retenus seront donc le corpus des discours de l'Union nationale dans les institutions de la sphère publique, à l'exception du discours du budget déjà largement étudié et le discours des mandements des évêques, dans la sphère privée. Dans le premier cas, il s'agit de concentrer notre attention sur le discours du parti de Maurice Duplessis afin d'en saisir tous les ressorts.

Dans le second, nous nous penchons sur l'une des principales institutions qui, dans la sphère privée, occupe une place stratégique dans la régulation libérale instituée par l'Union nationale. Ensemble, ils constituent deux des axes principaux du discours politique dominant durant la période. Nous utilisons, dans ce livre, le concept de discours duplessiste pour désigner l'ensemble de ces deux discours. Dans le cas où nous les considérons indépendamment, nous distinguons le discours de l'Union nationale et celui des mandements des évêques.

Corpus de l'Union nationale

Nous présenterons donc plus en détail le sous-corpus de l'Union nationale en distinguant le discours du trône, le discours législatif, le discours électoral et le discours constitutionnel. Nous nous attarderons principalement à décrire la source ainsi que les principes de sélection, d'édition et d'échantillonnage retenus pour chaque sous-ensemble. Il faut noter que seul le discours des élus de l'Union nationale a été retenu pour ce livre.

LE DISCOURS DU TRÔNE

Le sous-corpus du discours du trône est constitué de tous les discours du trône prononcés par l'Union nationale de 1944 à 1960 inclusivement. Le discours du trône inaugure la session parlementaire. Il est habituellement l'occasion de rappeler les réalisations du gouvernement et constitue un énoncé d'intentions générales qui correspond à l'essentiel du programme législatif de la session à venir.

Le texte de tous les discours du trône de la période est publié par l'imprimeur officiel de la province de Québec. Le travail de constitution de ce sous-corpus n'a posé aucun problème particulier étant donné l'accessibilité de cette publication officielle du Québec. En raison de leur caractère relativement succinct, les textes n'ont pas été échantillonnés et ont été saisis presque intégralement sur support magnétique. Seule, une procédure d'édition visant à éliminer les titres et sous-titres a été appliquée afin d'éviter le gonflement artificiel du lexique.

LE DISCOURS LÉGISLATIF

La composition du sous-corpus du discours législatif a présenté davantage de difficultés. Il faut en effet, rappeler qu'il n'existe pas de journal des débats durant la période. Cet ensemble de textes réunit donc les comptes rendus des débats entourant les lectures et les sanctions des principales lois de la 22^e à la 25^e législature du Québec tels qu'ils ont été rapportés par le journal Le Devoir. La couverture journalistique du Devoir nous a semblé la plus rigoureuse et la plus exhaustive en l'absence de comptes rendus officiels.

Six domaines permettant de rendre compte des composantes essentielles de l'activité législative et de révéler l'état de la société et de ses transformations, ont servi à circonscrire le sous-corpus.

1. Agriculture et colonisation

2. Richesses naturelles

3. Économie : industrie, commerce, finance et coopérative

4. Législation ouvrière

5. Domaine social : santé, éducation, habitation, famille

6. Relations fédérales-provinciales

La première étape de la sélection a consisté en un relevé exhaustif des lois correspondant aux six domaines législatifs. De ce bassin n'ont alors été retenues que les lois inédites et donc soumises pour la première fois à la législature. Les modifications ou amendements à des lois existantes ont donc été écartés. La deuxième étape de la sélection a consisté à compiler les articles du Devoir traitant des débats entourant la sanction de ces projets de lois. Seuls les articles faisant la manchette et se présentant comme des comptes rendus des débats entourant l'adoption d'une loi ont été retenus. Les éditoriaux et les articles de fond ont donc été éliminés parce qu'ils représentaient l'expression d'un point de vue extérieur aux débats en chambre.

Cet ensemble a été l'objet d'un échantillonnage aléatoire systématique en raison de sa grande étendue. Pour chacune des quatre législatures au cours desquelles les projets de lois ont été débattus, nous avons retenu cinq articles. D'abord, pour chaque législature, les articles ont été numérotés suivant la date de leur parution. Ensuite, le nombre total d'articles trouvés dans le cadre de chaque législature a été divisé par cinq afin d'obtenir la séquence de sélection des articles. Enfin, pour chaque législature, un premier article a été retenu au hasard dans le premier segment et les quatre autres en fonction de la séquence définie plus haut.

Ce sous-corpus a dû être remanié en raison de la nature même des comptes rendus journalistiques. Les comptes rendus des débats en chambre sont, en effet, truffés d'interventions du journaliste destinées à situer le contexte, à décrire l'atmosphère, à relier la discussion actuelle à un débat antérieur ou encore à commenter des attitudes, des comportements susceptibles d'éclairer le lecteur sur la psychologie des protagonistes. Ces aspects du reportage et tous ceux qui, d'une manière ou d'une autre, renvoient au traitement journalistique de l'information ont été éliminés. Un patient travail de refonte a alors consisté à repérer, puis à supprimer le discours proprement journalistique pour ne retenir que les propos tenus à l'assemblée législative et rapportés par le journal. Cette modification du texte ne garantit pas que l'objectivité du discours ait pu être restituée, mais sans doute s'agit-il là de la meilleure façon de reproduire empiriquement la substance du débat.

L'établissement du texte a ensuite nécessité que soit reconstitué le style direct de l'énonciation. En effet, le compte rendu journalistique implique par définition que le discours soit rapporté à la troisième personne. Des propos sont attribués à un locuteur qui, lui, les a énoncés à la première personne. Le travail a consisté à transposer le discours tenu à la troisième personne à la première en fonction de règles de transformation strictes. C'est sous cette forme que ce sous-corpus a été finalement saisi sur support magnétique.

Pour les fins du présent livre, nous avons aussi éliminé toute intervention qui n'était pas attribuable à un élu de l'Union nationale. Le texte correspondant aux interventions des membres de l'opposition officielle et des tiers partis a ainsi été systématiquement supprimé. Le discours législatif représente donc un condensé épuré et serré des positions duplessistes sur le plan législatif durant la période.

LE DISCOURS ÉLECTORAL

Le sous-corpus du discours électoral est composé des interventions publiques des candidats de l'Union nationale durant les campagnes de 1944, 1948, 1952, 1956 et 1960. De la même façon que pour le discours législatif, la constitution de ce sous-corpus a été effectuée à partir de comptes rendus journalistiques. Le journal Le Devoir a servi de source à la collecte des textes correspondant à toutes les campagnes électorales sauf celle de 1956 pour laquelle nous avons dû recourir au journal La Presse, en raison du boycott par l'Union nationale dont faisait l'objet Le Devoir à cause de ses positions trop ouvertement critiques vis-à-vis du régime. Les positions du Devoir incitèrent les dirigeants de l'Union nationale à interdire aux journalistes de ce journal l'accès à ses assemblées politiques.

Les articles retenus aux fins de l'analyse sont ceux qui faisaient la manchette. Il s'agit plus précisément des comptes rendus de discours prononcés par les candidats de l'Union nationale lors d'assemblées publiques. La plage temporelle à l'intérieur de laquelle s'est effectuée la collecte est délimitée par les dates correspondant à l'annonce de la tenue de l'élection jusqu'au jour du scrutin.

Tous les articles présentés en manchette et portant sur les propos tenus par les candidats unionistes durant la campagne ont d'abord été réunis. L'échantillonnage a été réalisé suivant les mêmes principes que ceux qui ont été appliqués au discours législatif. Les articles colligés furent regroupés en fonction des campagnes électorales auxquelles ils correspondaient, avant d'être l'objet d'un échantillonnage aléatoire systématique. Encore ici, le critère d'échantillonnage résidait dans l'obligation de retenir cinq articles par campagne. Le sous-corpus définitif fut obtenu au terme de l'opération décrite plus haut.

La mise en forme du discours électoral présentait le même genre de difficultés que celles que nous avons rencontrées pour le discours législatif. Le traitement journalistique de même que les traits de mise en pages et d'édition (titres et sous-titres) ont été éliminés. Comme pour le législatif, la transcription du discours électoral a été modifiée de manière à le ramener à la forme du discours direct.

LE DISCOURS CONSTITUTIONNEL

Ce sous-corpus a été constitué à partir des publications gouvernementales regroupant les procès-verbaux des conférences fédérales-provinciales des premiers ministres. Les textes des conférences de 1945-1946, 1950, 1955 et 1957 ont été retenus. C'est dire que toutes les conférences fédérales-provinciales tenues durant la période étudiée ont été considérées.

Pour les fins du présent livre, seules les interventions des représentants du gouvernement du Québec, le plus souvent de Maurice Duplessis lui-même, furent conservées. Plus précisément le sous-corpus réunit à la fois les interventions majeures des représentants québécois et les discussions surgissant spontanément dans le feu du débat. S'ajoutent à cela les mémoires déposés par la province de Québec qui énoncent les positions du Québec sur certains aspects particuliers des réformes constitutionnelles proposées par le gouvernement fédéral.

Le texte original n'a subi que peu de transformations. Nous avons éliminé les tableaux statistiques et les passages à caractère exclusivement technique ou protocolaire (heure de reprise des discussions, numéro de salle de rencontre, convocations à des banquets, etc.). Le texte a été saisi sur support magnétique sous cette forme à peine modifiée.

Le tableau suivant résume quantitativement les caractéristiques du corpus de l'Union nationale. On retrouvera, pour chacun des sous-corpus du quadruplet, le nombre total de mots qu'il contient et, parmi ces derniers, le nombre de mots auxquels a été attribuée une catégorie socio-sémantique et, enfin, la participation de chaque sous-corpus au corpus de l'Union nationale en fonction du nombre de mots.

Tableau 1
Description statistique du corpus de l'Union nationale

	Trône	Électoral	Législature	Constitutionnel	Total
Nombre de mots [8]	22 409	27 173	75 465	39 780	164 827
Nombre de mots catégorisés	5 091	4 996	12 915	6 446	29 448
Pourcentage de mots catégorisés	22,7 %	18,4 %	17,1 %	16,2 %	17,86 %
Participation au corpus (en %)	13,6 %	16,5 %	45,8 %	24,1 %	100%

CORPUS RELIGIEUX

Nous n'avons retenu du corpus religieux que celui constitué par les mandements des évêques. Aussi nous faut-il définir ce que sont ces mandements. Ce sous-corpus regroupe les textes publiés par les diocèses, sous le titre « Mandements, lettres pastorales et circulaires des évêques ». Nous avons retenu les mandements des diocèses de Montréal, Québec, Sherbrooke, Hauterive et Chicoutimi en raison de leur représentation du territoire québécois. Il faut ajouter que ces mandements constituent un ensemble discursif hétérogène. Ils sont principalement constitués de trois types de documents : les documents de régie interne (53,42 % du total des documents), les textes théologiques et dogmatiques (20,59 %) et les énoncés de doctrine sociale (25,99 %). Nous nous sommes intéressés exclusivement aux derniers. Les textes de régie interne sont, en effet, des directives de l'archevêché à l'adresse du clergé et des documents dogmatiques ou théologiques débattant de questions avant tout religieuses. Par contre, le discours social de l'Église s'adresse à la population et aux fidèles par le biais du clergé. Leur format peut varier d'une lettre pastorale collective à une lettre épiscopale, à une allocution radiophonique, etc., mais ces discours ont tous en commun d'exposer la doctrine sociale de l'Église sur les rapports sociaux et les relations de l'individu à la société.

Bien que n'ayant retenu que les discours qui portent directement sur les rapports sociaux que l'on retrouve dans le sous-corpus de doctrine sociale, les mandements représentaient un ensemble très vaste, et il a donc fallu échantillonner. Après avoir fixé une limite approximative de quarante pages de texte par année tout au long de la période, nous avons adopté un premier principe qualitatif pour l'échantillonnage. Les textes retenus devaient apparaître dans aux moins trois des cinq diocèses et, ce faisant, constituaient le plus souvent des lettres pastorales signées par un grand nombre d'évêques. Ce principe a suffi à déterminer le corpus pour la plupart des années de la période retenue. Lorsque nous obtenions un nombre largement supérieur à quarante pages, nous procédions alors à un échantillonnage aléatoire simple.

Le corpus religieux n'a pas été l'objet de procédures complexes de remaniement. Nous n'avons éliminé que les titres et les sous-titres, ainsi que les formules utilisées à la fin des lettres, précisant le lieu premier de la publication, la date et la liste des signataires. Le tableau 2 résume quantitativement les caractéristiques du corpus religieux.

Tableau 2
Description statistique du corpus des mandements
des évêques pour la période 1944-1960

Nombre de mots	185 724
Nombre de mots catégorisés	29 711
Pourcentage de mots catégorisés	16 %

CATÉGORISATION

L'analyse effectuée dans ce livre s'appuie sur le corpus global que nous venons de décrire, enrichi d'une description morphosyntaxique et socio-sémantique. L'ensemble des opérations produites sur ce corpus a été abondamment présenté dans Restons traditionnels et progressifs. Nous ne reviendrons pas sur la description morphosyntaxique puisque celle-ci n'aura servi dans la présente démarche qu'à désigner les candidats à la catégorisation socio-sémantique. Quant à cette dernière, il ne saurait être question de reprendre extensivement la description qui en a déjà été faite dans l'ouvrage cité. Nous ne présenterons ici que les informations essentielles à la compréhension de cette opération, en nous limitant à l'utilisation particulière que nous avons faite de ce système de catégories dans la présente analyse.

Sens de la catégorisation

La catégorisation est au fondement de toute connaissance. Elle permet de rapprocher ce qui, à certains égards, est semblable et de distinguer ce qui, d'un même point de vue, est différent. Elle consiste fondamentalement à attribuer à un objet du monde une catégorie parmi l'ensemble des catégories appartenant à un système donné. Ces systèmes peuvent être de nature plus théorique ou empirique, selon le degré de formalisation des relations que l'on peut décrire entre les éléments qui le constituent. Il est donc nécessaire de définir d'abord la nature de l'objet à catégoriser et des systèmes de catégories qui lui seront appliqués.

Nous avons choisi de retenir le mot comme unité à catégoriser, plutôt qu'un segment textuel plus large. Formellement, ce choix est beaucoup plus facile, car il ne comporte aucune décision sur la définition matérielle du mot. L'unité lexicale présente également l'avantage de pouvoir être traitée avec grande facilité au plan informatique. Le choix d'un segment plus large poserait à la fois des problèmes méthodologiques et théoriques. Seul un segment équivalant à la phrase serait repérable sur la base formelle de la ponctuation. Tous les autres cas demanderaient soit une analyse syntaxique (par exemple, dans le cas des segments propositionnels), soit une analyse qualitative (par exemple, dans le cas des segments thématiques). De toute manière, la catégorisation d'objets complexes devient problématique sur le plan théorique puisqu'elle présuppose un travail de description préalable (implicite ou explicite). Pour toutes ces raisons, nous nous en sommes tenus aux mots. Il en découle que l'analyse mise en œuvre est fondée sur la présence et la récurrence plus ou moins forte de mots dans le discours, même si cette présence est mise en relation avec le contexte d'apparition.

Nous avons retenu deux systèmes de catégories, l'un morphosyntaxique et l'autre socio-sémantique. Le premier système, inspiré de la grammaire de base du français, vise à déterminer si le mot est un nom, un verbe, un adjectif, une préposition, etc. Cette catégorisation est nécessaire pour déterminer quels sont les candidats à la catégorisation socio-sémantique. En effet, nous n'avons retenu à cette fin que les noms et les adjectifs. Les formes fonctionnelles ont été exclues en raison de leur faible potentiel sémantique, ainsi que les verbes parce qu'ils auraient nécessité la production d'une sémantique particulière.

Qu'en est-il alors de cette grille de catégories socio-sémantiques ? S'il est possible de dire que le système de catégories morphosyntaxiques a un fondement théorique, il est plus difficile de l'affirmer en ce qui concerne le système socio-sémantique que nous proposons [9]. En effet, les catégories syntaxiques correspondent peu ou prou aux unités de base qui seront activées par le système de règles que représente toute théorie syntaxique. Au contraire, malgré leurs prétentions, les sémantiques générales, linguistiques ou conceptuelles n'arrivent pas à définir de tels systèmes de règles qui permettraient de rendre compte du fonctionnement et des interrelations qui caractérisent leurs unités. À plus forte raison, toute sémantique appliquée à des domaines de discours ne saurait prétendre former de tels systèmes théoriques. La grille que nous proposons est donc avant tout un classement empirique des différents objets du discours politique. Elle est empirique dans la mesure où elle a été progressivement construite à partir de l'observation et de la catégorisation effective des divers sous-corpus, dans le but de rendre compte du contenu socio-sémantique qui s'en dégageait. Cela n'exclut cependant pas qu'elle renvoie aux dimensions théoriques de l'analyse du discours politique dans la société moderne. C'est ainsi qu'elle permet de repérer les principaux acteurs, institutions et valeurs travaillés par ce discours.

Cette grille devient donc un outil d'analyse. Comme nous l'avons fait valoir plus haut, l'application de catégories aux mots du texte n'a pourtant pas l'effet de faire disparaître le mot sous la catégorie. Le système informatique utilisé permet en effet, d'apposer plusieurs catégories appartenant à des systèmes différents, tout en autorisant l'accès au mot lui-même, indépendamment des catégories qui lui sont attachées. Les études lexicométriques classiques comportent des limites sérieuses en ce qu'elles obligent à accéder au sens à partir des mots pris isolément. L'application de catégories socio-sémantiques aux mots présente au contraire l'avantage de regrouper dans des classes d'équivalence des mots renvoyant à une même « signification ». Nous pouvons alors observer des régularités de comportement entre catégories et familles de catégories et entreprendre des fouilles qui conduisent dans un cheminement heuristique, à la découverte de certains phénomènes. Cependant, comme les équivalents ne sont pas nécessairement des synonymes et peuvent simplement comporter des traits communs, les régularités observées sur la base de cette catégorisation doivent être validées. La réversibilité de notre système permet de revoir en permanence le contenu de ces catégories et de valider aussi les résultats obtenus à partir de celles-ci.

Processus de catégorisation

La catégorisation a été effectuée sur l'ensemble du corpus par une équipe de codeurs sous la supervision constante d'un coordonnateur. Les dispositifs informatiques dont nous disposions n'ont pu que partiellement alléger le travail que représente la catégorisation. Dans le cas de la catégorisation morphosyntaxique, un logiciel de catégorisation par projection de dictionnaires et application de règles locales (CBSF) nous a permis de catégoriser automatiquement près de 85 % des occurrences sans référence au contexte. Les 15 % résiduels ont dû être désambiguïsés avec l'assistance d'un système informatique donnant accès au contexte et permettant l'apposition manuelle de catégories. La catégorisation socio-sémantique a, inversement, été effectuée hors contexte pour à peine 15 % des occurrences. Plus de 85 % des mots ont reçu leur catégorie par l'application de la procédure de catégorisation manuelle avec visionnement du contexte. Cela s'explique facilement du fait que l'appartenance inconditionnelle à une classe socio-sémantique est un phénomène très rare et qu'il est difficile d'imaginer des règles susceptibles de départager automatiquement la polysémie des mots.

Les codeurs étaient donc appelés à choisir parmi les différentes appartenances socio-sémantiques possibles d'un mot, celle qui était la plus proche de la signification en contexte de ce mot. Cela présuppose une connaissance des implications théoriques du système de catégories, mais demande avant tout de considérer le plus possible la réalité empirique du mot en contexte, indépendamment de toute inférence analytique.

Contenu de la grille

On trouvera dans l'annexe 2 la liste des catégories et leur définition. Nous nous contenterons ici d'en donner une description très générale. La grille de catégories est constituée de cinq familles. Les trois premières renvoient à des institutions particulières et aux objets qui s'y rattachent. Les catégories économiques rendent compte à la fois des concepts et notions générales de l'activité économique, de certains acteurs économiques et des principales institutions de l'économie marchande. Les catégories politiques désignent les principales institutions de la sphère publique, les concepts et notions de l'activité politique ainsi que les acteurs qui s'y adonnent. La troisième famille regroupe les institutions sociales qui échappent aux deux premières. Elle porte sur des institutions de l'espace public et de l'espace privé ainsi que sur les acteurs qui y correspondent. L'univers social regroupe les représentations de l'espace et du temps ainsi que les dimensions démographique, sociale et communautaire de l'identité. Enfin, les catégories renvoyant aux valeurs forment un cinquième ensemble. Cette famille se subdivise en divers sous-groupes représentant des dispositifs différents du système de référence ontologique de la société. Ainsi y retrouve-t-on les valeurs traditionnelles, les valeurs émancipatrices, les valeurs de contrôle social, les valeurs éthiques et les valeurs existentielles.

Utilisation des catégories dans l'analyse

Dans le présent livre, nous avons privilégié avant tout l'étude des valeurs. L'analyse nous a souvent conduits à examiner bien d'autres catégories, mais nous avons construit le propos sur la base d'un examen approfondi de l'univers des valeurs dans les différents discours analysés. Il importe donc de définir de façon plus précise chacun des sous-ensembles de valeurs afin d'en évaluer la portée. Il faut d'abord dire que le concept même de valeur est difficile à définir. Il est, en général, posé comme une évidence dont la définition n'a pas besoin d'être précisée. Les valeurs sont des notions qui cimentent le discours et orientent l'action. Contrairement aux autres catégories de la grille, elles ne désignent pas des objets ou des relations entre ces objets. Elles constituent des référents idéaux.

Il nous est apparu au cours du long processus de la recherche que ces valeurs marquaient profondément la nature même du discours politique. Certes, celui-ci contribue à la production d'un bloc social, articulant de manière spécifique des institutions et des forces sociales, définissant les frontières spatiales et temporelles d'une communauté. C'est donc dans l'examen de l'ensemble des autres catégories que nous avons pu retrouver ce travail. Mais c'est aussi un discours qui se particularise par sa définition de référents qui soutiennent l'organisation des rapports sociaux et définissent la relation entre l'individu et la société. Nous avons donc privilégié l'observation des dispositifs de valeurs.

Les valeurs traditionnelles et les valeurs émancipatrices représentent les deux dispositifs alternatifs qui permettent de définir la référence ontologique de la société. C'est donc à travers l'étude du comportement de ces ensembles de valeurs que nous avons pu réfléchir sur la véritable nature, traditionnelle ou moderne, du duplessisme. Les valeurs de contrôle social permettent, par ailleurs, d'étudier les dispositifs idéologiques qui sont mis en œuvre pour gérer les rapports entre classes et forces sociales. Enfin, les valeurs éthiques permettent de voir comment la relation de l'individu à la société est définie. Ces deux derniers ensembles constituent, selon nous, la base du discours disciplinaire qui est promu par le duplessisme. Enfin, un ensemble résiduel comprend les valeurs existentielles qui renvoient à l'univers du bonheur défini par Aristote (1959).

INFORMATIQUE

L'analyse a été effectuée à l'aide du logiciel SATO (Système d'Analyse de Textes par Ordinateur). Ce logiciel est défini par son auteur comme un « système de base de données textuelles qui permet d'annoter des textes multilingues et de les manipuler de diverses façons : repérage de concordances, construction de lexiques, catégorisation des mots, dénombrements de tout ordre et analyseurs lexicométriques » (Daoust, 1989 : 117) [10].

SATO est un environnement informatique que l'on peut représenter comme une boîte à outils contenant un ensemble d'instruments destinés à l'analyse des données textuelles. En plus de la diversité des outils disponibles, l'originalité principale de SATO réside dans le fait qu'il permet à l'utilisateur d'entretenir un rapport interactif au texte qu'il étudie. Les diverses tâches d'annotation, de production de lexiques, de repérage de concordances ainsi que d'analyse lexicométrique s'effectuent directement à l'écran et peuvent être répétées à volonté ou modifiées. Mais, quels que soient les manipulations et les enrichissements successifs dont le texte est l'objet, le texte original demeure accessible en tout temps.

Génération d'une base de données lexicales

La démarche globale de traitement en SATO comporte deux phases de traitement distinctes : la génération des fichiers SATO et leur interrogation. Le texte original devra être préalablement édité selon certains critères minimaux [11]. La première phase de traitement (SATOGEN) consiste à récupérer le texte, ainsi édité, et à le transformer en un lexique de formes lexicales. Celles-ci sont définies dans SATO comme des chaînes de caractères situées entre deux espaces ou délimiteurs. SATO reconnaît, de cette façon, les entités du texte, mots, ponctuations, paragraphes et références de pagination, auxquelles il attribue une adresse informatique à partir de laquelle le texte pourra être recomposé et interrogé suivant diverses combinaisons de ces variables. La structure des données qu'adopte SATO permet alors de consulter les données hors contexte du point de vue du lexique, ou, en contexte, dans des segments textuels de longueur variable.

Partition du corpus

Cette phase de mise en forme complétée, le texte peut être interrogé à l'aide du module d'interrogation (SATOINT). Celui-ci regroupe un ensemble de commandes donnant accès à plusieurs fonctionnalités du logiciel. Une première commande « Domaine » permet de partitionner le texte afin de centrer l'analyse sur des segments textuels particuliers ou de comparer le fonctionnement de plusieurs segments en fonction d'un ou de plusieurs indicateurs. Cette partition peut s'effectuer à partir de certaines bornes inhérentes à la structure du texte (lignes, paragraphes ou documents composant le corpus) ou d'autres principes délimiteurs définis par l'utilisateur. Dans ce livre, la principale partition correspond aux cinq sous-corpus que nous avons définis. Comme on l'a vu, il nous a été possible d'interroger le corpus dans son entier, un sous-corpus déterminé ou encore une combinaison de sous-ensembles particuliers. Nous avons aussi créé de nouvelles partitions en vertu de la combinaison de diverses variables (par exemple, les mandements selon deux périodes différentes) ou encore sur la base du partage d'un même trait (par exemple, la présence d'un mot ou d'une catégorie dans des segments donnés du texte). Ces domaines sont définis à l'écran au moment de la description ou de l'exploration des données. Ils peuvent aussi être redéfinis en tout temps suivant la progression de la démarche.

Module de catégorisation

Une des fonctionnalités les plus importantes de SATO est certes son module de catégorisation. Les mots ou des entités textuelles plus larges peuvent recevoir ou voir modifier des catégories qui serviront, par la suite, à structurer la recherche d'information. Ce module permet d'associer aux mots du texte, ou aux formes lexicales, des propriétés numériques ou symboliques, en contexte ou hors contexte. La catégorisation hors contexte est la plus simple. Il s'agit d'attribuer, indépendamment du contexte, une valeur de propriété à un mot ou une forme lexicale. Toutes les occurrences de ce mot ou de cette forme posséderont cette valeur. Pour chaque propriété, c'est comme si l'on ajoutait une colonne au catalogue des formes du texte devenant ainsi interrogeable selon cette dimension. Dans le cas de la catégorisation en contexte, c'est une ligne d'information que l'on ajoute dans le corps du texte, concernant une caractéristique se rapportant à une occurrence d'un mot ou d'un segment textuel. La valeur de propriété ainsi accolée à cette occurrence peut être transférée dans le lexique qui reçoit ainsi une nouvelle entrée. En effet le mot « peuple » ayant reçu la valeur de propriété « communauté » apparaîtra comme une entrée différente du mot « peuple » n'ayant pas reçu cette valeur.

Patrons de fouilles

Une fois catégorisé et les marques de segmentation déposées, le texte peut alors être interrogé suivant plusieurs modalités prévues par SATO. Une syntaxe simple et efficace admet comme élément de recherche soit l'expression littérale d'un mot, soit une combinaison de caractères de remplacement permettant notamment des jeux de troncation à gauche, à droite ou à l'intérieur des chaînes de caractères. Les requêtes peuvent être également une combinaison de mots et/ou de descripteurs (catégories). Dans tous les cas, ces patrons de fouille permettent de produire des lexiques d'occurrences et de cooccurrences ainsi que des concordances à contexte variable.

Lexiques d'occurrences

Le logiciel permet d'abord de produire des lexiques de tous ordres suivant des paramètres fixés par l'utilisateur. On pourra, par exemple, produire le lexique de tous les mots commençant par « Canad » dans les discours du trône et législatif dont la fréquence dans le texte est supérieure à 12 occurrences. SATO produit instantanément un lexique, ventilé par sous-corpus s'ils ont été préalablement définis comme domaines, regroupant dans ce cas des mots tels « Canada », « canadien », « canadienne », etc. Ces lexiques peuvent être ordonnés en fonction de la fréquence des mots qu'ils regroupent, de leur ordre alphabétique, de leur longueur, etc.

Lexiques de cooccurrences

SATO facilite également l'étude du covoisinage à travers la production de lexiques de cooccurrence. Le logiciel offre la possibilité de repérer et de dénombrer, suivant une multitude de paramètres possibles, la coprésence de formes lexicales. L'analyse s'est ainsi penchée, de diverses manières, sur le fonctionnement discursif du covoisinage, s'intéressant tantôt aux relations qui s'établissent entre des notions afférentes aux valeurs, tantôt aux rapports entre certaines valeurs et des catégories de l'univers social ou encore au réseau que forment les mots eux-mêmes, indépendamment de leur catégorie.

Concordances

Enfin, en raison même de la structure de représentation des données propre à SATO, l'utilisateur peut retourner au texte n'importe quand au cours de l'investigation. Il est ainsi possible de retrouver le texte correspondant aux occurrences ou cooccurrences que l'analyse lexicale aura mises à jour. SATO permet le repérage instantané des concordances à partir de critères de sélection fixés par l'utilisateur. On peut définir la concordance comme la chaîne syntagmatique (ou la liste des chaînes syntagmatiques) comportant l'occurrence d'une forme lexicale donnée ou la cooccurrence de plusieurs formes lexicales données. Les mots du texte apparaissent alors en contexte (dont les limites sont définies par l'utilisateur) et peuvent faire l'objet de nouvelles manipulations (nouvelle catégorisation, sous-catégorisation, désambiguïsation, etc.), dont le résultat pourra, par la suite, être réinvestigué. Les concordances sont utilisées lors des opérations de catégorisation, mais aussi afin de valider l'interprétation des lexiques produits par nos modèles de fouille. Nous avons reproduit, dans ce livre, un choix de ces concordances afin d'illustrer la pertinence de ces analyses.

Analyses de données

SATOINT contient enfin certaines fonctionnalités d'analyse de données : calculs de participation relative, de lisibilité, de distance statistique entre sous-ensembles textuels, etc. Sato est également muni d'une interface permettant de récupérer les résultats du dépouillement pour traitement statistique ultérieur. L'essentiel du raisonnement que nous avons poursuivi dans ce livre porte sur les lexiques de cooccurrences. Ces lexiques présentent la liste des mots ordonnés en fonction de la signification de leur association au mot pôle. Aucune mesure de signification n'étant disponible dans SATO, nous avons mis au point avec l'aide précieuse de Guy Cucumel [12] un test de significativité des cooccurrences. Ce test nous permet d'attester la signification d'une association forte ou faible entre un mot cooccurrant avec le mot pôle au-delà d'un certain seuil statistique. De manière générale, ce seuil a été fixé à 95 %. Nous avons retenu le seuil de 90 % dans de rares cas, en mentionnant que l'association avait moins de chance d'être significative.

Fondement mathématique du test de cooccurrence

Nous présenterons brièvement le fondement mathématique de ce test. Nous nous intéressons donc à la cooccurrence d'un mot particulier, le mot pôle, avec l'ensemble des mots qui apparaissent avec lui dans un segment donné. Le but de la méthode est d'obtenir la liste des mots cooccurrant avec le mot pôle, pour lesquels la cooccurrence est statistiquement significative, aussi bien lorsque la cooccurrence est surabondante que lorsqu'elle est rare. Nous avons retenu la phrase comme segment de référence, considérant que celle-ci représente une unité « naturelle » de sens. Nous considérons donc que l'ensemble des phrases du corpus analysé constitue l'échantillon de référence.

Pour une cooccurrence particulière, l'observation est donc la phrase et la variable étudiée (que nous appelons x) est le nombre de phrases contenant cette cooccurrence. La mise en évidence de la significativité de la cooccurrence s'effectuera alors par l'intermédiaire du test statistique suivant :

Soit n le nombre de phrases du corpus.

Soit f_p le nombre de phrases contenant le mot pôle.

Soit f_c le nombre de phrases contenant le mot cooccurrent dans le corpus.

Soit f_pc le nombre de phrases contenant le mot pôle et le mot cooccurrent dans le corpus.

Si la présence des deux mots dans une phrase est due au hasard, la fréquence espérée des phrases contenant les deux mots est :

et la variable x suit une loi binomiale de paramètres n et e/n.

Formellement, on peut alors tester l'hypothèse nulle que la proportion de phrases contenant le mot pôle et le mot cooccurrent est de e/n sachant qu'on en a f_pc dans l'échantillon, l'hypothèse alternative étant l'hypothèse contraire.

Si f_pc ≥ e, on calcule la probabilité que x soit supérieur à f_pc si la proportion de phrases contenant le mot pôle et le mot cooccurrent est de e/n. Si cette probabilité est excessivement petite, on en conclut que e/n ne peut pas être la proportion de phrases contenant le mot pôle et le mot cooccurrent et on rejette l'hypothèse nulle. Il suffit de fixer un seuil de probabilité en dessous duquel on considère la probabilité comme étant trop faible, par exemple 0,05.

Si f_pc ≥ e, on calcule la probabilité que x soit inférieur à f_pc si la proportion de phrases contenant le mot pôle et le mot cooccurrent est de e/n. Si cette probabilité est excessivement petite, on en conclut que e/n ne peut pas être la proportion de phrases contenant le mot pôle et le mot cooccurrent et on rejette l'hypothèse nulle. Dans ce second cas, c'est la rareté de la cooccurrence qui est significative.

Ce calcul pouvant être répété pour tous les mots cooccurrents avec le mot pôle, on peut obtenir un classement des cooccurrences les plus significatives. La cooccurrence la plus significative étant celle associée à la probabilité la plus faible. Enfin, notre méthode se généralise aisément à des p-occurrences, soit des cooccurrences multiples, avec p aussi grand que l'on veut.

[1] Bourque et Duchastel, 1984 ; 1986 ; 1988 ; Duchastel, 1992 ; 1993 Duchastel, Paquin, Beauchemin, 1992 ; J. Duchastel, L.-C. Paquin et J. Beauchemin, « Automated Syntactic Text Description Enhancement : Determination Analysis », dans Research in Humanities Computing 2, Oxford : Clarendon Press, 1994.

[2] Dans nos travaux antérieurs, nous avons tenu compte de la structure fonctionnelle des discours, en plus de leur contenu strictement sémantique. Voir en particulier les articles portant sur la description des structures thématique et de la détermination : Duchastel, Paquin et Beauchemin, 1992 ; 1994.

[3] Selon Dominique Maingueneau (1987), ce qui caractérise l'école française d'analyse du discours, c'est la nature des textes étudiés : « [...] dans le cadre d'institutions contraignant fortement l'énonciation ; dans lesquels se cristallisent des enjeux historiques, sociaux, etc. ; qui délimitent un espace propre à l'intérieur d'un interdiscours serré ». Voir également Angenot, 1992 : 2-3. Celui-ci insiste sur la nature sociale et historique du discours. « Dans les schématisations qui, à travers la langue, narrent argumentent et "performent" et qui dans un état de société, sont dotées d'intelligibilité, d'acceptabilité, qui y remplissent des fonctions et y recèlent des "charmes" particuliers, l'analyste de discours décèlera des fonctions et des enjeux sociaux. Les pratiques discursives sont des faits sociaux et, partant, des faits historiques. »

[4] Voir à ce propos la critique que proposent Henri et Moscovici, 1968.

[5] Voir J. Molino, « Interpréter », dans Reichler, 1989.

[6] Beauchemin, Bourque et Duchastel, 1992 ; J. Beauchemin, G. Bourque et J. Duchastel, « "Les traditions de la province de Québec sont immuables mais elles ne sont pas immobiles" : tradition et modernité dans les discours constitutionnels, 1940-1960 », dans Lanthier et Rousseau, 1992 ; Bourque et Duchastel, 1988.

[7] Cette limitation ne souffre qu'une exception lorsque nous comparons l'évolution générale du discours des évêques entre 1935 et 1940 avec la période retenue.

[8] Le nombre de mots en SATO inclut les signes diacritiques et les signes de ponctuation.

[9] C'est aussi l'opinion de Mario Bunge, cité par P. De Bruyne et al., 1974 : « Un système taxinomique n'est donc pas une théorie (un système de propositions) mais un système de concepts et un ensemble d'hypothèses associé. »

[10] À l'origine, les descriptions catégorielles et syntaxiques ont été réalisées à l'aide du logiciel Déredec (Pierre Plante, UQAM). Le travail d'analyse de Restons traditionnels et progressifs a également été effectué à l'aide de Déredec.

Dans la mesure où nous avons renoncé à l'analyse des structures syntaxiques dans le présent livre, nous avons préféré utiliser SATO en raison de sa souplesse.

[11] Par exemple, remplacement des caractères réservés à SATO (/ *) par les caractères (// **), ajout du caractère / pour conserver la majuscule de certains mots (les noms propres, par exemple), définition de l'alphabet du texte (le français, par exemple) et identification facultative des pages, documents et partitions du corpus.

[12] Guy Cucumel est spécialiste des statistiques appliquées aux sciences sociales. Professeur au Département des sciences comptables de l'Université du Québec à Montréal, il a collaboré avec plusieurs équipes de recherche du Département de sociologie et du Centre d'analyse de texte par ordinateur de l'UQAM. Le test de cooccurrence et sa programmation ont été réalisés par lui à partir des besoins exprimés par notre équipe de recherche.