fbpx
teknik text mining

Apa itu Text Mining dan Bagiamana Cara Kerjanya

10 Maret 2022

Manajemen data sering kali dihubungkan dengan pengolahan angka-angka yang sifatnya sangat kuantitatif. Padahal, pengolahan data juga dilakukan terhadap sumber-sumber data yang sifatnya kualitatif, misalnya teks. Artikel ini akan membahas bagaimana pengolahan data pada teks atau text mining dan bagaimana cara kerjanya.

Apa itu text mining?

Seperti yang sudah disebutkan secara singkat, text mining adalah proses pengolahan data yang berbentuk teks. Pengolahan data ini merupakan salah satu bagian dari data mining yang bentuknya lebih terukur dan terstruktur. Itulah yang membedakan text mining dari data mining.

Text mining adalah proses penambangan data yang berbentuk teks, sehingga bentuknya lebih tidak terstruktur atau kemudian disebut sebagai unstructured data. Sebaliknya, pada data mining, sumber datanya lebih terstruktur sehingga disebut sebagai structured data. Meski demikian, text mining tetap menjadi bagian yang penting dalam pengolahan data.

Sebab, sebagian besar data yang terdapat dalam internet atau sebuah perusahaan bentuknya tidak terstruktur. Supaya data-data tersebut dapat diolah, perlu dilakukan adanya text mining untuk pengategorian.

Misalnya, dari data Twitter, terdapat berbagai macam cuitan terkait perusahaan tertentu. Untuk bisa mengolah data teks tersebut, perlu dilakukan text mining berupa analisis sentimen, apakah cuitan-cuitan tersebut bersifat positif, netral, maupun negatif. Setelahnya, barulah data bisa diolah apakah lebih banyak orang yang berpendapat positif, netral, atau negatif terhadap perusahaan tersebut.

7 teknik text mining

Proses penambangan data teks melibatkan berbagai metode untuk bisa memperoleh makna dari data tersebut. Berikut adalah tujuh teknik text mining yang bisa Anda terapkan.

1. Information extraction (IE)

Teknik pertama dari text mining adalah information extraction atau mengambil informasi dari data yang ada. Ini adalah langkah awal ketika akan melakukan penambangan data teks karena akan menguraikan struktur kata yang tidak sesuai, menemukan frasa kunci, dan menentukan sentimen yang terdapat dalam teks tersebut.

2. Information retrieval (IR)

Selanjutnya, teknik dari penambangan data adalah information retrieval, yaitu pencarian informasi yang sesuai. Jadi, setelah sebuah data diidentifikasi makna dan kata kuncinya, maka informasi serupa yang terkait bisa ditemukan. Contohnya adalah ketika mengetik pada kolom pencarian Google. Mesin akan menampilkan berbagai hasil lain yang serupa dengan kata kunci yang Anda ketik.

3. Natural language processing

Berikutnya ada teknik penambangan data teks yang disebut dengan natural language processing. Teknik ini bertugas untuk melakukan pemrosesan secara otomatis terhadap informasi yang diberikan oleh sebuah data teks meskipun dengan bentuk tidak terstruktur. Komputer atau mesin akan berusaha memproses data dengan cara menganalisis bahasanya.

 4. Clustering

Teknik berikutnya dalam text mining adalah dengan mengelompokkannya sesuai kategori. Contoh sederhananya adalah dengan mengelompokkan mana saja kalimat-kalimat yang mengandung sentimen negatif, seperti pada analisis sentimen status Twitter di atas. Jadi, akan ada tiga kelompok, yaitu teks bersentimen negatif, netral, dan positif.

5. Categorization

Selanjutnya ada teknik klasifikasi data. Teknik ini digunakan untuk mengklasifikasikan data berbentuk teks sesuai dengan kategori yang telah ditentukan sebelumnya. Teknik ini melibatkan beberapa metode, di antaranya pengindeksan, pengurangan dimensi, dan klasifikasi otomatis agar dapat mengenali data yang terkategori maupun tidak.

6. Visualization

Teknik berikutnya yang biasa digunakan adalah visualization atau visualisasi. Tak hanya data mining yang bisa diubah ke dalam bentuk visual, text mining juga bisa dijadikan dalam bentuk visual. Teks-teks yang sudah diklasifikasikan akan diberi warna tertentu sesuai kategorinya. Langkah ini akan mempermudah proses analisis data yang tak terstruktur.

7. Text summarization

Teks adalah data tidak terstruktur, sehingga bentuknya bisa saja berupa satu paragraf panjang atau hanya satu kata. Untuk mempermudah pemrosesan data teks yang memuat paragraf panjang, perlu dilakukan text summarization atau merangkum teks tersebut. Meski memperpendek teks, proses ini tidak boleh meninggalkan makna asli yang terkandung di dalam teks panjang tersebut.

Contoh aplikasi text mining

Salah satu contoh pengaplikasian text mining terdapat pada customer service perusahaan. Customer service adalah divisi yang berhubungan langsung dengan konsumen. Dengan demikian, merekalah yang mengerti bagaimana respons pelanggan terhadap perusahaan tersebut, mulai dari panggilan telepon, chat, review, dan sebagainya.

Dalam pelaksanaannya, ada juga beberapa teknologi yang sudah dikembangkan untuk bisa membalas pesan konsumen secara otomatis. Caranya dengan mengidentifikasi pertanyaan yang paling sering ditanyakan dan menyediakan jawabannya sekaligus. Dengan demikian, pelayanan perusahaan terhadap pelanggan pun akan lebih cepat.

Kesimpulan

Text mining adalah proses penambangan data tidak terstruktur. Proses ini dilakukan untuk mengidentifikasi dan memberikan makna terhadap unstructured data agar mudah diolah pada tahap selanjutnya. Ada tujuh teknik dalam text mining, yaitu information extraction, information retrieval, natural language processing, clustering, categorization, visualization, dan text summarization.

Faktanya, kini terdapat lebih banyak data tidak terstruktur dalam sebuah perusahaan. Untuk mengetahui lebih lanjut mengenai text mining atau proses pengolahan data lainnya, ikuti kelas dari Algoritma Data Science School yang tersedia untuk individu maupun level korporat. Informasi lebih lengkap, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

The last comment needs to be approved.

Related Blog

Realize the Need of Data Visualization
r python
Perbandingan R dan Python untuk Analisis Data
r python
Workshop "Data Science Fundamental: Machine Learning"

Manajemen data sering kali dihubungkan dengan pengolahan angka-angka yang sifatnya sangat kuantitatif. Padahal, pengolahan data juga dilakukan terhadap sumber-sumber data yang sifatnya kualitatif, misalnya teks. Artikel ini akan membahas bagaimana pengolahan data pada teks atau text mining dan bagaimana cara kerjanya.

Apa itu text mining?

Seperti yang sudah disebutkan secara singkat, text mining adalah proses pengolahan data yang berbentuk teks. Pengolahan data ini merupakan salah satu bagian dari data mining yang bentuknya lebih terukur dan terstruktur. Itulah yang membedakan text mining dari data mining.

Text mining adalah proses penambangan data yang berbentuk teks, sehingga bentuknya lebih tidak terstruktur atau kemudian disebut sebagai unstructured data. Sebaliknya, pada data mining, sumber datanya lebih terstruktur sehingga disebut sebagai structured data. Meski demikian, text mining tetap menjadi bagian yang penting dalam pengolahan data.

Sebab, sebagian besar data yang terdapat dalam internet atau sebuah perusahaan bentuknya tidak terstruktur. Supaya data-data tersebut dapat diolah, perlu dilakukan adanya text mining untuk pengategorian.

Misalnya, dari data Twitter, terdapat berbagai macam cuitan terkait perusahaan tertentu. Untuk bisa mengolah data teks tersebut, perlu dilakukan text mining berupa analisis sentimen, apakah cuitan-cuitan tersebut bersifat positif, netral, maupun negatif. Setelahnya, barulah data bisa diolah apakah lebih banyak orang yang berpendapat positif, netral, atau negatif terhadap perusahaan tersebut.

7 teknik text mining

Proses penambangan data teks melibatkan berbagai metode untuk bisa memperoleh makna dari data tersebut. Berikut adalah tujuh teknik text mining yang bisa Anda terapkan.

1. Information extraction (IE)

Teknik pertama dari text mining adalah information extraction atau mengambil informasi dari data yang ada. Ini adalah langkah awal ketika akan melakukan penambangan data teks karena akan menguraikan struktur kata yang tidak sesuai, menemukan frasa kunci, dan menentukan sentimen yang terdapat dalam teks tersebut.

2. Information retrieval (IR)

Selanjutnya, teknik dari penambangan data adalah information retrieval, yaitu pencarian informasi yang sesuai. Jadi, setelah sebuah data diidentifikasi makna dan kata kuncinya, maka informasi serupa yang terkait bisa ditemukan. Contohnya adalah ketika mengetik pada kolom pencarian Google. Mesin akan menampilkan berbagai hasil lain yang serupa dengan kata kunci yang Anda ketik.

3. Natural language processing

Berikutnya ada teknik penambangan data teks yang disebut dengan natural language processing. Teknik ini bertugas untuk melakukan pemrosesan secara otomatis terhadap informasi yang diberikan oleh sebuah data teks meskipun dengan bentuk tidak terstruktur. Komputer atau mesin akan berusaha memproses data dengan cara menganalisis bahasanya.

 4. Clustering

Teknik berikutnya dalam text mining adalah dengan mengelompokkannya sesuai kategori. Contoh sederhananya adalah dengan mengelompokkan mana saja kalimat-kalimat yang mengandung sentimen negatif, seperti pada analisis sentimen status Twitter di atas. Jadi, akan ada tiga kelompok, yaitu teks bersentimen negatif, netral, dan positif.

5. Categorization

Selanjutnya ada teknik klasifikasi data. Teknik ini digunakan untuk mengklasifikasikan data berbentuk teks sesuai dengan kategori yang telah ditentukan sebelumnya. Teknik ini melibatkan beberapa metode, di antaranya pengindeksan, pengurangan dimensi, dan klasifikasi otomatis agar dapat mengenali data yang terkategori maupun tidak.

6. Visualization

Teknik berikutnya yang biasa digunakan adalah visualization atau visualisasi. Tak hanya data mining yang bisa diubah ke dalam bentuk visual, text mining juga bisa dijadikan dalam bentuk visual. Teks-teks yang sudah diklasifikasikan akan diberi warna tertentu sesuai kategorinya. Langkah ini akan mempermudah proses analisis data yang tak terstruktur.

7. Text summarization

Teks adalah data tidak terstruktur, sehingga bentuknya bisa saja berupa satu paragraf panjang atau hanya satu kata. Untuk mempermudah pemrosesan data teks yang memuat paragraf panjang, perlu dilakukan text summarization atau merangkum teks tersebut. Meski memperpendek teks, proses ini tidak boleh meninggalkan makna asli yang terkandung di dalam teks panjang tersebut.

Contoh aplikasi text mining

Salah satu contoh pengaplikasian text mining terdapat pada customer service perusahaan. Customer service adalah divisi yang berhubungan langsung dengan konsumen. Dengan demikian, merekalah yang mengerti bagaimana respons pelanggan terhadap perusahaan tersebut, mulai dari panggilan telepon, chat, review, dan sebagainya.

Dalam pelaksanaannya, ada juga beberapa teknologi yang sudah dikembangkan untuk bisa membalas pesan konsumen secara otomatis. Caranya dengan mengidentifikasi pertanyaan yang paling sering ditanyakan dan menyediakan jawabannya sekaligus. Dengan demikian, pelayanan perusahaan terhadap pelanggan pun akan lebih cepat.

Kesimpulan

Text mining adalah proses penambangan data tidak terstruktur. Proses ini dilakukan untuk mengidentifikasi dan memberikan makna terhadap unstructured data agar mudah diolah pada tahap selanjutnya. Ada tujuh teknik dalam text mining, yaitu information extraction, information retrieval, natural language processing, clustering, categorization, visualization, dan text summarization.

Faktanya, kini terdapat lebih banyak data tidak terstruktur dalam sebuah perusahaan. Untuk mengetahui lebih lanjut mengenai text mining atau proses pengolahan data lainnya, ikuti kelas dari Algoritma Data Science School yang tersedia untuk individu maupun level korporat. Informasi lebih lengkap, klik di sini!

Referensi:

Yuk belajar data science di Algoritma Data Science Education Center! Kamu bisa ikut berbagai kelas data science untuk pemula, salah satunya di program Academy kami.

PELAJARI LEBIH LANJUT

Related Blog

machine learning industri
Pemanfaatan Machine Learning di Industri
The last comment needs to be approved.