きっかけは「手が汚れてる」だった

BANTOを使ってくれている建設業の方から、こんなフィードバックをもらった。

「現場で手袋したままスマホ触れないんで、事務所に戻ってから請求書作ってます」

これを聞いた瞬間、音声入力を最優先で実装しようと決めた。考えてみれば当たり前だ。建設現場、飲食店のキッチン、整備工場。手が自由に使えない場面は世の中にいくらでもある。スマホのキーボードで「○○工業様 宛て 外壁塗装工事 一式 380,000円」とポチポチ打つのは、そもそも仕事の邪魔でしかない。

「○○さん宛てに見積もり作って」で完成する

実装した機能はシンプルだ。BANTOのアプリを開いて、マイクボタンを押して、こう言う。

「田中建設さん宛てに、外壁塗装工事一式38万円で見積もり作って」

これだけで、宛先、品目、金額が入った見積書のドラフトが画面に出る。内容を確認して「送信」を押せば、PDFが生成されてメールで送れる。

裏では3つのステップが動いている:

  1. 音声認識 — Web Speech APIでリアルタイム文字起こし
  2. 意図解析 — LLMが「見積もり作成」「宛先: 田中建設」「品目: 外壁塗装工事」「金額: 380,000円」を抽出
  3. テンプレート適用 — 過去の取引先データと照合して、正式名称・住所を自動補完

地味に大事なのが3番目だ。「田中建設さん」と言えば、過去にやり取りした「株式会社田中建設」がマッチして、住所も電話番号も自動で入る。毎回「東京都○○区...」と言わなくていい。

数字の認識が一番の壁だった

開発で一番苦労したのは、数字の精度だ。

「さんじゅうはちまんえん」が「38万円」になるのか「3.8万円」になるのか。「いっしき」が「一式」になるのか「1色」になるのか。日本語の音声認識は、ビジネス文脈の数字処理がまだまだ弱い。

対策として、2つのアプローチを組み合わせた。

  • 業界辞書 — 建設業でよく使う単位(一式、m²、坪、人工)を優先的にマッチング
  • 確認ステップ — 金額だけは必ず画面に大きく表示して、目視確認を必須にした

「38万円で合ってますか?」と画面に出して、タップするか「はい」と言えば確定。ここだけは自動化しなかった。請求金額を間違えたら取り返しがつかないからだ。

実際に使ってもらった結果

建設業の方3社にベータ版を使ってもらった。

  • 請求書の作成時間: 平均8分 → 2分に短縮
  • 作成タイミング: 「事務所に戻ってから」→「現場で即座に」
  • 月末の残業: 「請求書まとめ」の残業が大幅に減った

一番嬉しかったのは、「現場から帰る車の中で請求書5枚作れた」という声だ。運転中はもちろんダメだけど、助手席で音声入力するだけで1日分の請求処理が終わる。これが音声ファーストの価値だと思う。

キーボードは「フォールバック」になる

音声入力を実装して気づいたのは、キーボード入力が「メインのUI」である必要はないということだ。静かなオフィスで使うならキーボードでいい。でも、現場仕事の人にとって、キーボードは「仕方なく使うもの」だ。

BANTOの設計思想として、これからは音声がメイン、キーボードがフォールバック。この順番で考えるようにした。次は音声での経費精算と、日報の自動生成に取り組んでいる。


技術的な詳細はこちら → 音声ファースト設計の技術的な裏側