Gemini Embedding 2 を試してみた

要約・抽出情報

はじめにマルチモーダル検索を実装しようとしたとき、これまでは以下のような前処理が一般的でした。画像: Vision モデルでキャプション（説明文）を生成してテキスト化 PDF: OCR でテキストを抽出。pdf2txt みたいなことをして Chunking 音声: 文字起こし (STT) しかし、Google の最新モデル gemini-embedding-2-preview は、これらを同一のベクトル空間にマップできるそうです。すごいですね。 https://blog.google/innovation-and-ai/models-and-research/gemin...

この記事をシェアする

この記事の詳細はオリジナルサイトでご確認ください

オリジナルサイトで読む