非構造化データを構造化データに変える LangExtract

日頃の業務でこのように思ったことはありませんか?

  • お客様のアンケート情報を素早く集計して業務に活かしたい
  • お客様の声から改善点を抽出したい
  • 業務のデータ分類を効率化したい

もし、このように思っている場合はGoogleから開発されたLangExtractを利用することをオススメします。しかもオープンソースなので無料で使えます。

LangExtractはプロンプトひとつで非構造化データを構造化データにしてくれるので、企業のデータ分析にとって力強い味方になります。

LangExtractはGoogleから開発されたデータ構造化専門のPythonライブラリ

LangExtractはGoogleが開発したデータ分類専門のPythonライブラリです。
プロンプトだけでAIがデータを高速で分類してくれます。

具体的には、非構造化データから構造化データへ分類してくれます。

お店や企業の成長のためにはデータ分析は欠かせませんが、非構造データでは分析や解析することができません。構造化データにすることで分析できるようになり、解析できるようになります。

非構造化データと構造化データについて

非構造化データと構造化データについてご紹介します。

構造化データ

構造化データは行と列で整理されたデータです。
たとえば、エクセルのデータは構造化データになります。

エクセルでは数値や文字や日付など種類ごとにデータを収納することもできますし、データ管理者が設定した項目で収納することも可能です。

たとえばお店のオーナーが天気、気温、お店の売上、客数など定義したものも構造化データです。
また、構造化データはエクセル以外にもCSVファイルやPOSデータなどがあります。

非構造化データ

非構造化データは構造化されていないデータです。
文章、画像、動画、音声、PDFファイルなどが非構造化データです。

たとえば、下記の文章は非構造化データです。
下記文章はAIで生成した文章です。

2024年4月1日、東京の桜が満開になった。多くの人々が公園でピクニックを楽しんでいた。ある女性は、ピンク色の弁当箱からおにぎりを取り出し、それを美味しそうに頬張っていた。彼女の隣には、赤い帽子をかぶった男性が新聞を読んでいた。風が心地よく、いつもより多くの人が楽しんでいた。

この文章には、「日付、天気、感情、性別、どんな持ち物、何をしているか?」など分類されておらず、企業にとって価値ある情報に変換できていません。これは非構造化データになります。

また画像や動画なども何のビジュアルかわからず、非構造化データになります。

プロンプトだけでAIがデータ分類してくれる

そして、LangExtractがすごいところが、このような文章をプロンプトだけで瞬時にデータ分類してくれることです。

Google公式ページにデータ抽出のサンプル例がありましたのでご紹介します。

非構造化データ:
シェイクスピアの 1 節

抽出の定義:
与えられたテキストから登場人物、感情、関係を抽出して。
抽出するテキストは変更しないで。

構造化されたデータ:
登場人物について
ロミオ:287回言及(感情状態:興奮、感情状態:相手を喜ばせたい気持ち)
ジュリエット:204回言及(感情状態:好意的、感情状態:打たれ強い)
乳母:168回言及(感情状態:報告的、感情状態:からかい・ごまかし)
マキューシオ:107回言及(感情状態:賛同的、感情状態:反応が良い)
ベンヴォーリオ:82回言及(感情状態:用心深い、感情状態:からかい)

データタイプの内訳
キャラクター: 1,685件(41.2%)
感情: 1,524件(37.3%)
関係性: 879件(21.5%)

このようにシェイクスピアの 1 節の長文でも一瞬にして構造化データに整理されます。

AIモデルはクラウドベースやオンデバイスモデルから選べる

LangExtractの利用方法

LangExtractのAIはクラウドベースやオンデバイスモデルから選べます。

クラウドベースはクラウドからAIを利用して、オンデバイスモデルでは利用者の端末上からAIを利用します。オンデバイスモデルのAI利用用途としては、プライベート情報をサーバーに預けたくないというニーズで利用されそうです。

LangExtractの利用事例

LangExtractが企業にどのように利用されているかご紹介します。
金融、法律、医療などの専門性の高い分野でも利用可能です。

医療での放射線治療レポート

放射線治療のレポートでも利用できるとGoogleから公表されています。
放射線治療レポートでは放射治療写真から下記の構造化データが作成されています。
検査内容、臨床適応、比較、症状の悪化肥大の有無、臓器の肥大以上の有無、石灰化の有無、胆石の有無

飲食店のレビュー

お客様からのレビューやアンケートなどの文章を構造化データに変えることで、お客様からのニーズを把握することも可能です。

画像広告

画像広告の商品写真の大きさ、文字の大きさ、PRしたこと、文字の色などを構造化データにすることで、反応率が良い広告を見つけることの手助けになります。

LangExtractの利用方法

LangExtractはパソコンなどのローカル環境やGoogleクラウドなどのクラウド環境で利用できます。
もしLangExtractを利用したいとお考えでしたら、ぜひAI解決.COMへご相談くださいませ!

AI解決.COMではお店や企業の課題を解決するAI導入・開発サービスを提供しております。

こちらの記事を読んだ方にオススメの記事をご紹介

LangExtratは非構造化データを分析や解析できるようにするために構造化データに変換するツールでしたが、他にも集計や分析に役立つ記事をご用意しております。

気になる記事があれば、ぜひチェックしてみてください。

◆電話対応をテキスト化してデータ分析に活かす方法
ただの電話対応から分析資産、営業戦略、業務効率化を構築する「AI電話導入システム Dialpad」をご紹介!

◆チャートAIでデータを可視化・分析する方法
AIと会話だけでデータ分析ができる!LokerのチャットAIがデータアナリスト専門家に変わる