_modules/nltk/classify/positivenaivebayes.html

<!DOCTYPE html>
<head>
  <meta charset="utf-8">
  
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <meta name="theme-color" content="#2D2D2D" />
  
  <title>NLTK :: nltk.classify.positivenaivebayes</title>
  

  <link rel="stylesheet" href="../../../_static/css/nltk_theme.css"/>
  <link rel="stylesheet" href="../../../_static/css/custom.css"/>

  <script type="text/javascript" id="documentation_options" data-url_root="../../../" src="../../../_static/documentation_options.js"></script>
      <script type="text/javascript" src="../../../_static/documentation_options.js"></script>
      <script type="text/javascript" src="../../../_static/jquery.js"></script>
      <script type="text/javascript" src="../../../_static/underscore.js"></script>
      <script type="text/javascript" src="../../../_static/doctools.js"></script>
  

  <script src="https://email.tl.fortawesome.com/c/eJxNjUEOgyAQAF8jR7Kw6wIHDh7sP1Cw2mgxgmn6-3JsMqc5zEQfE8dkxOY1KKMUOI3ACFKRJpSW2AAp7ontYIaxI6i7XPJVwyeVfCQ550Os3jLrGSNOLgbdAy6s0PBk2TFNjEbsfq31LB0OnX407pJa5v2faRadwSW63mn5KuLyR9j2tgx3zecanl-55R_-jjPs"></script> 
</head>

<body>
  <div id="nltk-theme-container">
    <header>
      <div id="logo-container">
          
          <h1>
            <a href="../../../index.html">NLTK</a>
          </h1>
          
      </div>
      <div id="project-container">
        
        <h1>Documentation</h1>
        
      </div>

      <a id="menu-toggle" class="fa fa-bars" aria-hidden="true"></a>

      <script type="text/javascript">
        $("#menu-toggle").click(function() {
          $("#menu-toggle").toggleClass("toggled");
          $("#side-menu-container").slideToggle(300);
        });
      </script>
    </header>

    <div id="content-container">

      <div id="side-menu-container">

        <div id="search" role="search">
        <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
            <input type="text" name="q" placeholder="Search" />
            <input type="hidden" name="check_keywords" value="yes" />
            <input type="hidden" name="area" value="default" />
        </form>
</div>

        <div id="side-menu" role="navigation">
          
  
    <p class="caption" role="heading"><span class="caption-text">NLTK Documentation</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../../../api/nltk.html">API Reference</a></li>
<li class="toctree-l1"><a class="reference external" href="http://www.nltk.org/howto">Example Usage</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../../py-modindex.html">Module Index</a></li>
<li class="toctree-l1"><a class="reference external" href="https://github.com/nltk/nltk/wiki">Wiki</a></li>
<li class="toctree-l1"><a class="reference external" href="https://github.com/nltk/nltk/wiki/FAQ">FAQ</a></li>
</ul>
<p class="caption" role="heading"><span class="caption-text">Installation</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../../../install.html">Installing NLTK</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../../data.html">Installing NLTK Data</a></li>
</ul>
<p class="caption" role="heading"><span class="caption-text">More</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../../../news.html">Release Notes</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../../contribute.html">Contributing to NLTK</a></li>
<li class="toctree-l1"><a class="reference internal" href="../../../team.html">NLTK Team</a></li>
</ul>

  
        </div>

        
      </div>

      <div id="main-content-container">
        <div id="main-content" role="main">
          
  <h1>Source code for nltk.classify.positivenaivebayes</h1><div class="highlight"><pre>
<span></span><span class="c1"># Natural Language Toolkit: Positive Naive Bayes Classifier</span>
<span class="c1">#</span>
<span class="c1"># Copyright (C) 2012 NLTK Project</span>
<span class="c1"># Author: Alessandro Presta &lt;alessandro.presta@gmail.com&gt;</span>
<span class="c1"># URL: &lt;http://nltk.org/&gt;</span>
<span class="c1"># For license information, see LICENSE.TXT</span>

<span class="sd">&quot;&quot;&quot;</span>
<span class="sd">A variant of the Naive Bayes Classifier that performs binary classification with</span>
<span class="sd">partially-labeled training sets. In other words, assume we want to build a classifier</span>
<span class="sd">that assigns each example to one of two complementary classes (e.g., male names and</span>
<span class="sd">female names).</span>
<span class="sd">If we have a training set with labeled examples for both classes, we can use a</span>
<span class="sd">standard Naive Bayes Classifier. However, consider the case when we only have labeled</span>
<span class="sd">examples for one of the classes, and other, unlabeled, examples.</span>
<span class="sd">Then, assuming a prior distribution on the two labels, we can use the unlabeled set</span>
<span class="sd">to estimate the frequencies of the various features.</span>

<span class="sd">Let the two possible labels be 1 and 0, and let&#39;s say we only have examples labeled 1</span>
<span class="sd">and unlabeled examples. We are also given an estimate of P(1).</span>

<span class="sd">We compute P(feature|1) exactly as in the standard case.</span>

<span class="sd">To compute P(feature|0), we first estimate P(feature) from the unlabeled set (we are</span>
<span class="sd">assuming that the unlabeled examples are drawn according to the given prior distribution)</span>
<span class="sd">and then express the conditional probability as:</span>

<span class="sd">|                  P(feature) - P(feature|1) * P(1)</span>
<span class="sd">|  P(feature|0) = ----------------------------------</span>
<span class="sd">|                               P(0)</span>

<span class="sd">Example:</span>

<span class="sd">    &gt;&gt;&gt; from nltk.classify import PositiveNaiveBayesClassifier</span>

<span class="sd">Some sentences about sports:</span>

<span class="sd">    &gt;&gt;&gt; sports_sentences = [ &#39;The team dominated the game&#39;,</span>
<span class="sd">    ...                      &#39;They lost the ball&#39;,</span>
<span class="sd">    ...                      &#39;The game was intense&#39;,</span>
<span class="sd">    ...                      &#39;The goalkeeper catched the ball&#39;,</span>
<span class="sd">    ...                      &#39;The other team controlled the ball&#39; ]</span>

<span class="sd">Mixed topics, including sports:</span>

<span class="sd">    &gt;&gt;&gt; various_sentences = [ &#39;The President did not comment&#39;,</span>
<span class="sd">    ...                       &#39;I lost the keys&#39;,</span>
<span class="sd">    ...                       &#39;The team won the game&#39;,</span>
<span class="sd">    ...                       &#39;Sara has two kids&#39;,</span>
<span class="sd">    ...                       &#39;The ball went off the court&#39;,</span>
<span class="sd">    ...                       &#39;They had the ball for the whole game&#39;,</span>
<span class="sd">    ...                       &#39;The show is over&#39; ]</span>

<span class="sd">The features of a sentence are simply the words it contains:</span>

<span class="sd">    &gt;&gt;&gt; def features(sentence):</span>
<span class="sd">    ...     words = sentence.lower().split()</span>
<span class="sd">    ...     return dict((&#39;contains(%s)&#39; % w, True) for w in words)</span>

<span class="sd">We use the sports sentences as positive examples, the mixed ones ad unlabeled examples:</span>

<span class="sd">    &gt;&gt;&gt; positive_featuresets = map(features, sports_sentences)</span>
<span class="sd">    &gt;&gt;&gt; unlabeled_featuresets = map(features, various_sentences)</span>
<span class="sd">    &gt;&gt;&gt; classifier = PositiveNaiveBayesClassifier.train(positive_featuresets,</span>
<span class="sd">    ...                                                 unlabeled_featuresets)</span>

<span class="sd">Is the following sentence about sports?</span>

<span class="sd">    &gt;&gt;&gt; classifier.classify(features(&#39;The cat is on the table&#39;))</span>
<span class="sd">    False</span>

<span class="sd">What about this one?</span>

<span class="sd">    &gt;&gt;&gt; classifier.classify(features(&#39;My team lost the game&#39;))</span>
<span class="sd">    True</span>
<span class="sd">&quot;&quot;&quot;</span>

<span class="kn">from</span> <span class="nn">collections</span> <span class="kn">import</span> <span class="n">defaultdict</span>

<span class="kn">from</span> <span class="nn">nltk.classify.naivebayes</span> <span class="kn">import</span> <span class="n">NaiveBayesClassifier</span>
<span class="kn">from</span> <span class="nn">nltk.probability</span> <span class="kn">import</span> <span class="n">DictionaryProbDist</span><span class="p">,</span> <span class="n">ELEProbDist</span><span class="p">,</span> <span class="n">FreqDist</span>

<span class="c1">##//////////////////////////////////////////////////////</span>
<span class="c1">##  Positive Naive Bayes Classifier</span>
<span class="c1">##//////////////////////////////////////////////////////</span>


<div class="viewcode-block" id="PositiveNaiveBayesClassifier"><a class="viewcode-back" href="../../../api/nltk.classify.positivenaivebayes.html#nltk.classify.positivenaivebayes.PositiveNaiveBayesClassifier">[docs]</a><span class="k">class</span> <span class="nc">PositiveNaiveBayesClassifier</span><span class="p">(</span><span class="n">NaiveBayesClassifier</span><span class="p">):</span>
<div class="viewcode-block" id="PositiveNaiveBayesClassifier.train"><a class="viewcode-back" href="../../../api/nltk.classify.positivenaivebayes.html#nltk.classify.positivenaivebayes.PositiveNaiveBayesClassifier.train">[docs]</a>    <span class="nd">@staticmethod</span>
    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span>
        <span class="n">positive_featuresets</span><span class="p">,</span>
        <span class="n">unlabeled_featuresets</span><span class="p">,</span>
        <span class="n">positive_prob_prior</span><span class="o">=</span><span class="mf">0.5</span><span class="p">,</span>
        <span class="n">estimator</span><span class="o">=</span><span class="n">ELEProbDist</span><span class="p">,</span>
    <span class="p">):</span>
        <span class="sd">&quot;&quot;&quot;</span>
<span class="sd">        :param positive_featuresets: An iterable of featuresets that are known as positive</span>
<span class="sd">            examples (i.e., their label is ``True``).</span>

<span class="sd">        :param unlabeled_featuresets: An iterable of featuresets whose label is unknown.</span>

<span class="sd">        :param positive_prob_prior: A prior estimate of the probability of the label</span>
<span class="sd">            ``True`` (default 0.5).</span>
<span class="sd">        &quot;&quot;&quot;</span>
        <span class="n">positive_feature_freqdist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="n">FreqDist</span><span class="p">)</span>
        <span class="n">unlabeled_feature_freqdist</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="n">FreqDist</span><span class="p">)</span>
        <span class="n">feature_values</span> <span class="o">=</span> <span class="n">defaultdict</span><span class="p">(</span><span class="nb">set</span><span class="p">)</span>
        <span class="n">fnames</span> <span class="o">=</span> <span class="nb">set</span><span class="p">()</span>

        <span class="c1"># Count up how many times each feature value occurred in positive examples.</span>
        <span class="n">num_positive_examples</span> <span class="o">=</span> <span class="mi">0</span>
        <span class="k">for</span> <span class="n">featureset</span> <span class="ow">in</span> <span class="n">positive_featuresets</span><span class="p">:</span>
            <span class="k">for</span> <span class="n">fname</span><span class="p">,</span> <span class="n">fval</span> <span class="ow">in</span> <span class="n">featureset</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
                <span class="n">positive_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">][</span><span class="n">fval</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
                <span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">fval</span><span class="p">)</span>
                <span class="n">fnames</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">fname</span><span class="p">)</span>
            <span class="n">num_positive_examples</span> <span class="o">+=</span> <span class="mi">1</span>

        <span class="c1"># Count up how many times each feature value occurred in unlabeled examples.</span>
        <span class="n">num_unlabeled_examples</span> <span class="o">=</span> <span class="mi">0</span>
        <span class="k">for</span> <span class="n">featureset</span> <span class="ow">in</span> <span class="n">unlabeled_featuresets</span><span class="p">:</span>
            <span class="k">for</span> <span class="n">fname</span><span class="p">,</span> <span class="n">fval</span> <span class="ow">in</span> <span class="n">featureset</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
                <span class="n">unlabeled_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">][</span><span class="n">fval</span><span class="p">]</span> <span class="o">+=</span> <span class="mi">1</span>
                <span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">fval</span><span class="p">)</span>
                <span class="n">fnames</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="n">fname</span><span class="p">)</span>
            <span class="n">num_unlabeled_examples</span> <span class="o">+=</span> <span class="mi">1</span>

        <span class="c1"># If a feature didn&#39;t have a value given for an instance, then we assume that</span>
        <span class="c1"># it gets the implicit value &#39;None&#39;.</span>
        <span class="k">for</span> <span class="n">fname</span> <span class="ow">in</span> <span class="n">fnames</span><span class="p">:</span>
            <span class="n">count</span> <span class="o">=</span> <span class="n">positive_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">N</span><span class="p">()</span>
            <span class="n">positive_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">][</span><span class="kc">None</span><span class="p">]</span> <span class="o">+=</span> <span class="n">num_positive_examples</span> <span class="o">-</span> <span class="n">count</span>
            <span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="kc">None</span><span class="p">)</span>

        <span class="k">for</span> <span class="n">fname</span> <span class="ow">in</span> <span class="n">fnames</span><span class="p">:</span>
            <span class="n">count</span> <span class="o">=</span> <span class="n">unlabeled_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">N</span><span class="p">()</span>
            <span class="n">unlabeled_feature_freqdist</span><span class="p">[</span><span class="n">fname</span><span class="p">][</span><span class="kc">None</span><span class="p">]</span> <span class="o">+=</span> <span class="n">num_unlabeled_examples</span> <span class="o">-</span> <span class="n">count</span>
            <span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="kc">None</span><span class="p">)</span>

        <span class="n">negative_prob_prior</span> <span class="o">=</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="n">positive_prob_prior</span>

        <span class="c1"># Create the P(label) distribution.</span>
        <span class="n">label_probdist</span> <span class="o">=</span> <span class="n">DictionaryProbDist</span><span class="p">(</span>
            <span class="p">{</span><span class="kc">True</span><span class="p">:</span> <span class="n">positive_prob_prior</span><span class="p">,</span> <span class="kc">False</span><span class="p">:</span> <span class="n">negative_prob_prior</span><span class="p">}</span>
        <span class="p">)</span>

        <span class="c1"># Create the P(fval|label, fname) distribution.</span>
        <span class="n">feature_probdist</span> <span class="o">=</span> <span class="p">{}</span>
        <span class="k">for</span> <span class="n">fname</span><span class="p">,</span> <span class="n">freqdist</span> <span class="ow">in</span> <span class="n">positive_feature_freqdist</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
            <span class="n">probdist</span> <span class="o">=</span> <span class="n">estimator</span><span class="p">(</span><span class="n">freqdist</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]))</span>
            <span class="n">feature_probdist</span><span class="p">[</span><span class="kc">True</span><span class="p">,</span> <span class="n">fname</span><span class="p">]</span> <span class="o">=</span> <span class="n">probdist</span>

        <span class="k">for</span> <span class="n">fname</span><span class="p">,</span> <span class="n">freqdist</span> <span class="ow">in</span> <span class="n">unlabeled_feature_freqdist</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
            <span class="n">global_probdist</span> <span class="o">=</span> <span class="n">estimator</span><span class="p">(</span><span class="n">freqdist</span><span class="p">,</span> <span class="n">bins</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]))</span>
            <span class="n">negative_feature_probs</span> <span class="o">=</span> <span class="p">{}</span>
            <span class="k">for</span> <span class="n">fval</span> <span class="ow">in</span> <span class="n">feature_values</span><span class="p">[</span><span class="n">fname</span><span class="p">]:</span>
                <span class="n">prob</span> <span class="o">=</span> <span class="p">(</span>
                    <span class="n">global_probdist</span><span class="o">.</span><span class="n">prob</span><span class="p">(</span><span class="n">fval</span><span class="p">)</span>
                    <span class="o">-</span> <span class="n">positive_prob_prior</span> <span class="o">*</span> <span class="n">feature_probdist</span><span class="p">[</span><span class="kc">True</span><span class="p">,</span> <span class="n">fname</span><span class="p">]</span><span class="o">.</span><span class="n">prob</span><span class="p">(</span><span class="n">fval</span><span class="p">)</span>
                <span class="p">)</span> <span class="o">/</span> <span class="n">negative_prob_prior</span>
                <span class="c1"># TODO: We need to add some kind of smoothing here, instead of</span>
                <span class="c1"># setting negative probabilities to zero and normalizing.</span>
                <span class="n">negative_feature_probs</span><span class="p">[</span><span class="n">fval</span><span class="p">]</span> <span class="o">=</span> <span class="nb">max</span><span class="p">(</span><span class="n">prob</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">)</span>
            <span class="n">feature_probdist</span><span class="p">[</span><span class="kc">False</span><span class="p">,</span> <span class="n">fname</span><span class="p">]</span> <span class="o">=</span> <span class="n">DictionaryProbDist</span><span class="p">(</span>
                <span class="n">negative_feature_probs</span><span class="p">,</span> <span class="n">normalize</span><span class="o">=</span><span class="kc">True</span>
            <span class="p">)</span>

        <span class="k">return</span> <span class="n">PositiveNaiveBayesClassifier</span><span class="p">(</span><span class="n">label_probdist</span><span class="p">,</span> <span class="n">feature_probdist</span><span class="p">)</span></div></div>


<span class="c1">##//////////////////////////////////////////////////////</span>
<span class="c1">##  Demo</span>
<span class="c1">##//////////////////////////////////////////////////////</span>


<div class="viewcode-block" id="demo"><a class="viewcode-back" href="../../../api/nltk.classify.positivenaivebayes.html#nltk.classify.positivenaivebayes.demo">[docs]</a><span class="k">def</span> <span class="nf">demo</span><span class="p">():</span>
    <span class="kn">from</span> <span class="nn">nltk.classify.util</span> <span class="kn">import</span> <span class="n">partial_names_demo</span>

    <span class="n">classifier</span> <span class="o">=</span> <span class="n">partial_names_demo</span><span class="p">(</span><span class="n">PositiveNaiveBayesClassifier</span><span class="o">.</span><span class="n">train</span><span class="p">)</span>
    <span class="n">classifier</span><span class="o">.</span><span class="n">show_most_informative_features</span><span class="p">()</span></div>
</pre></div>

        </div>
      </div>

    </div>

<footer>
    <div id="footer-info">
        <ul id="build-details">
            

                <li class="footer-element">
                    <a href="https://github.com/nltk/nltk/tree/3.6.5">3.6.5</a>
                </li>
            

                <li class="footer-element">
                    Oct 11, 2021
                </li>
            
        </ul>

        
            <div id="copyright">
                &copy; 2021, NLTK Project
            </div>
        

        <div id="credit">
            created with <a href="http://sphinx-doc.org/">Sphinx</a> and <a href="https://github.com/tomaarsen/nltk_theme">NLTK Theme</a>
        </div>
    </div>
</footer> 

</div>

</body>
</html>