Fer's Place

Comenzando con integración de IA en Python

Primera publicación en el blog de este mortal, que lleva el nombre de Fernando, o bueno, así es como me conocen en este mundo terrenal, así que, pues de mi parte te doy la más cordial bienvenida a este blog, un blog más en este enorme mundo de la Internet. Realmente no se si este vaya a ser un lugar muy visitado o no, si esta publicación sea la adecuada para iniciar con el blog que hoy en día inicio, pero bueno, supongo que por alguna parte se ha de empezar.

Yendo al asunto de esta publicación, es increíble los pasos agigantados a los que ha avanzado la tecnología en las ultimas décadas. Lo que podemos hacer hoy de manera muy sencilla tal vez es algo que hace unas décadas no nos imaginábamos que podríamos llegar a hacer en el corto plazo. Es así que con unas cuantas líneas de código hoy podemos llegar a implementar cuestiones de IA en nuestros dispositivos personales.

Es así como, curioseando por Internet, se pueden encontrar infinidad de tutoriales sobre como implementar IA en el código que desarrollamos, en este caso con el lenguaje de programación Python, pues vamos a ver lo fácil y simple que es implementar IA, y sacarle jugo, en uno de nuestros proyectos, y todo esto en alrededor de 30 lineas de código.

Primero que nada deberemos instalar las siguientes librerías, en nuestro caso será speech-recognition, pyaudio y googletrans. Lo anterior podemos hacerlo a través de pip:

$ pip install pyaudio
$ pip install speechrecognition
$ pip install googletrans

Comenzaremos importando las librerías speech_recognition y translator junto con constants de googletrans.

#Importamos las librerias necesarias
import speech_recognition as sr
from googletrans import Translator, constants

Luego iniciamos el reconocedor de voz, el cual dejaremos el que es por defecto de la librería, y el traductor que utilizaremos para traducir lo que digamos por el micrófono, en este caso, de la computadora.

#Iniciamos el reconocedor de voz y el traductor
r = sr.Recognizer()
translator = Translator()

Después iniciamos la grabación de audio con el micrófono, en nuestro caso dejamos el micrófono que se tiene por defecto activado en la computadora.

#Grabamos audio
with sr.Microphone() as source:
    print('Dí algo: ')
    audio = r.listen(source)

Ahora vamos a tratar de reconocer lo que se dice en el audio que hemos obtenido de nuestro micrófono, para que así, sea pasado a texto por la librería speech_recognition, cabe mencionar que aquí estamos intentando reconocer lo que se esta diciendo en idioma español, pero se puede tratar de reconocer en otros idiomas.

#Tratamos de reconocer lo dicho en el audio y lo pasamos a una nueva variable    
try:
    text = r.recognize_google(audio, language='es-MX')
    print('Has dicho: {}'.format(text))
    textf = format(text)

#Si no se logra escuchar lo que se ha dicho mandamos mensaje de error
except:
    print('Lo siento, no te he podido escuchar.')

Por ultimo, intentamos traducir al ingles lo que se ha dicho en a través del micrófono, esto a través del texto reconocido por la librería speech_recognition.

#Tratamos de traducir lo dicho en la grabación
try:    
    translation = translator.translate(textf, dest="en", src="es")
    print('La traducción al ingles es: ' + translation.text)

#Si no se logra traducir mandamos mensaje de error
except:
    print('No se ha podido traducir.')

Y bueno, así de simple podemos traducir lo que digamos a través de nuestro microfono, todo esto a través de la termianl. La verdad que son solo unas cuantas lineas de codigo y es muy sencillo de programar y de entender algo así. Como puntos de mejora que podemos tratar de hacer nuestro script con soporte multiidiomas y, ya un poco más avanzado, crear una GUI para nuestro script, cosas que creo estaré haciendo en un futuro. Gracias por haber leído hasta el final la entrada y les envió un saludo a todos.

Enlace al script completo en mi Github:

https://github.com/Goshujinsama88/simple-test-speechrecognition/blob/main/Prueba.py