Skip to content
Snippets Groups Projects
Commit caf2aa7f authored by Anh.Nguyen2's avatar Anh.Nguyen2
Browse files

clear code

parent 845038a8
No related branches found
No related tags found
No related merge requests found
......@@ -240,35 +240,39 @@ Pour cette partie là, on exploitera comment intéragir avec Elasticsearch sur P
>pip3 install elasticsearch
Dans votre script python :
>import elasticsearch
``` bash
import elasticsearch
from elasticsearch import Elasticsearch
Voir la version elasticsearch :
>print (elasticsearch.VERSION)
#Voir la version elasticsearch :
print (elasticsearch.VERSION)
```
D'ici, j'utilise la version 8.6.0
#### Q2. Connecter avec le server Elasticsearch
>ELASTIC_PASSWORD = {Votre password}
``` bash
ELASTIC_PASSWORD = {Votre password}
client = Elasticsearch(
"https://localhost:9200",
ca_certs="path/vers/http_ca.cert",
basic_auth=("elastic", ELASTIC_PASSWORD)
)
Il faut checker si tout va bien en lancant :
> client.info()
"https://localhost:9200",
ca_certs="path/vers/http_ca.cert",
basic_auth=("elastic", ELASTIC_PASSWORD))
#Il faut checker si tout va bien en lancant :
client.info()
```
La réponse doit rassemble à cela :
![attendu2](/images/connectapipython.PNG)
Vous pouvez également prendre les données qu'on a créé dans la 1ère partie :
> client.search(index='customer',body={"query": {"match_all": {}}})
``` bash
client.search(index='customer',body={"query": {"match_all": {}}})
```
#### Q3. Traitement les données
Pour la suite de TP, nous vous donnons un dataset qui est les tweets qui ont hashtag #Farmersprotest. Dans cette question, nous avons besoin de nettoyer les données avant injecter dans Elasticsearch
#### 3.1. Lire les données au format JSON
Hint: Utiliser pandas.read_json('/path/des/données',lines=True)
Hint: Utiliser pandas.read_json('/path/vers/des/données',lines=True)
#### 3.2. Filtrer
Nous n'utilisons que les tweets en Anglais et nous ne voulons pas de doublons. En plus, il n'y a que les colonnes : id, date, user, renderedContent qui nous servirons pour la suite. Renommer le champ id -> tweetID pour distinguer. La table résultant appelé raw_tweets
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment