]> git.wh0rd.org - tt-rss.git/blob - plugins/af_sort_bayes/lib/README.txt
Merge branch 'api-getarticles-sanitize' into 'master'
[tt-rss.git] / plugins / af_sort_bayes / lib / README.txt
1 /*
2 ***** BEGIN LICENSE BLOCK *****
3 This file is part of PHP Naive Bayesian Filter.
4
5 The Initial Developer of the Original Code is
6 Loic d'Anterroches [loic xhtml.net].
7 Portions created by the Initial Developer are Copyright (C) 2003
8 the Initial Developer. All Rights Reserved.
9
10 PHP Naive Bayesian Filter is free software; you can redistribute it
11 and/or modify it under the terms of the GNU General Public License as
12 published by the Free Software Foundation; either version 2 of
13 the License, or (at your option) any later version.
14
15 PHP Naive Bayesian Filter is distributed in the hope that it will
16 be useful, but WITHOUT ANY WARRANTY; without even the implied
17 warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
18 See the GNU General Public License for more details.
19
20 You should have received a copy of the GNU General Public License
21 along with Foobar; if not, write to the Free Software
22 Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
23
24 ***** END LICENSE BLOCK *****
25 */
26
27
28 ** Presentation **
29
30 Voici une implementation generale d'un filtre reposant sur le theoreme de Bayes.
31 L'application la plus connue est le filtre anti-spam. Vous pouvez aussi
32 l'utiliser pour faire de la classification automatique de documents.
33
34 Ce programme se base sur la version simplifiee du theoreme de Bayes comme
35 decrite par Ken Williams, ken@mathforum.org sur la page
36 http://mathforum.org/~ken/bayes/bayes.html au 31/10/2003.
37
38 Le systeme permet de maniere generale de faire la classification de documents
39 textes dans differentes categories. Si vous voulez l'utiliser pour une
40 classification de vos messages entre spam et non-spam, alors il vous faudra 2
41 categories, une "spam" et une "nonspam".
42
43 J'ai cree ce script car c'est une sujet a la mode en ce moment. Particulierement
44 pour filtrer les commentaires et les trackbacks dans les blogs. Le systeme
45 propose ici permet d'avoir plus que deux categories spam et non spam. Cela permet
46 donc theoriquement de l'utiliser pour la classification dans de multiples
47 categories.
48
49 Un petit script 'index.php' vous permet de tester le systeme, ensuite vous
50 pouvez inclure la classe dans vos scripts. Les fichiers class.naivebayesian.php
51 et class.naivebayesianstorage.php peuvent aussi etre utilises avec la licence
52 GNU Lesser General Public License Version 2.1 ou ulterieure.
53
54
55 ** Fonctionnalites **
56
57 - Une classe avec la logique de base, une autre qui est l'interface de stockage.
58 - Stockage des donnees dans une base de données pour le moment MySQL mais
59 vous pouvez utiliser celle que vous voulez via l'interface de stockage.
60 - Apprentissage
61 - Desapprentissage
62 - Archivage automatique des documents "reference"
63 - L'interface de stockage par defaut utilise MySQL et repose sur deux classes
64 d'Olivier Meunier.
65
66 ** Utilisation **
67
68 Regardez le code de index.php
69 Pour une bonne utilisation il vous faut creer une autre classe qui herite de
70 NaiveBayesian pour avoir votre propre fonction pour ignorer les mots qui ne
71 portent pas de sens particulier. Ceci n'est pas fait dans 'index.php'
72
73 class votreclass extends NaiveBayesian
74 {
75 function getIgnoreList()
76 {
77 return array('the', 'that', 'you', 'for', 'and');
78 }
79 }
80
81
82 ** Des questions **
83
84 Pouvez me contacter par email a loic xhtml.net, ou venir sur http://www.xhtml.net/
85
86