トップ›研究者一覧›西村良太

研究者を探す

研究者にアプローチする
更新情報を通知する

西村良太

徳島大学

プロフィール
教育活動
研究活動
社会活動
リサーチマップ・
Jグローバル
KAKEN
注目研究

研究者総覧で最新データを確認する

2025年4月17日更新

職名: 講師
電話: 研究者総覧に該当データはありませんでした。
電子メール: 研究者総覧に該当データはありませんでした。
学歴: 2007/3: 豊橋技術科学大学大学院工学研究科情報工学専攻修士課程修了
2010/12: 豊橋技術科学大学大学院工学研究科博士後期課程電子・情報工学専攻修了
学位: 博士(工学) (豊橋技術科学大学) (2010年12月)
職歴・経歴: 2011/1: 豊橋技術科学大学研究員
2011/2: 名古屋大学大学院技術補佐員
2012/4: 名古屋工業大学特任助教
2015/4: 慶應義塾大学特任助教
2017/4: 徳島大学特任研究員
2018/10: 徳島大学大学院社会産業理工学研究部講師

専門分野・研究分野: 情報学 (Informatics)

研究者総覧で最新データを確認する

2025年4月17日更新

専門分野・研究分野: 情報学 (Informatics)
担当経験のある授業科目: 知能情報システム特別輪講 (大学院)
知識システム (学部)
指導経験: 36人 (学士), 20人 (修士), 1人 (博士)

研究者総覧で最新データを確認する

2025年4月17日更新

専門分野・研究分野: 情報学 (Informatics)

研究テーマ: 音声言語情報処理 (音声対話システム, 対話型インタフェース (interactive interface), ヒューマンインタフェース (human interface), 音声認識 (speech recognition), マルチモーダルインタラクション)

著書

北研二, 西村良太, 松本和幸 :
AI・機械学習のためのデータ前処理 [入門編], --- Pythonでゼロからはじめる ---,
科学情報出版, 東京, 2021年6月.

(要約): 2010年ごろを境に，ビッグデータという言葉が，わたしたちの身の回りに急速に浸透し始めた．同時に，ビッグデータから機械学習に基づき知的なAI システムを構築することが昨今のブームとさえなってきている．本書は，これらの機械学習システムを構築するうえで避けては通れない，データの前処理の部分を中心に解説している．AI などの機械学習システムを第一に想定しているが，本書で説明する各種の技術は，ビッグデータから有用な知識を獲得するデータマイニングやデータ分析などにも有効に用いることができる．さて，ビッグデータという言葉は耳に心地よく，なんとなく宝の山のように感じるかもしれないが，実はビッグデータは玉石混交であり，宝とゴミが入り混じっている．さらには，データの規模が大きくなればなるほどゴミも増え，その中から宝を取り出すのがますます困難になってくる．コンピュータサイエンスの分野では，``Garbage In, Garbage Out" (略してGIGO) という警句がある．文字通り，「ゴミからはゴミしか得られない」「ゴミを入れればゴミが出てくる」ことを意味しているが，この警句はまさに機械学習の一面を言い当てている．よい機械学習システムを構築するためには，データからゴミを排除し，データを学習しやすい形に加工するという作業が重要となってくるが，これこそがまさしく前処理の真髄である．最近は，TensorFlow やKeras をはじめとする数多くの機械学習用のフレームワークやライブラリが無償で利用可能であり，これらのフレームワークやライブラリを利用することで，一見，プログラミングの敷居は低くなってきているようにみえる．公開されている機械学習用のデータセットを利用して，誰もが簡単にAI システムを作ることができる．しかし，独自のデータセットを用いて，独自のシステムを構築する場合には，大きな問題が立ちはだかっている．よくいわれていることであるが，現実のデータは汚い．データをそのまま使えば，それこそ ``Garbage In, Garbage Out" の事態に陥る．現実のデータから，有用なAI システムを構築できるかどうかは前処理の成否にかかっているとさえいえる．また，一説によると，実際のAI や機械学習システム構築の現場では，エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているともいわれている．本書では，従来の機械学習の書籍では十分に扱われていなかった前処理技術に焦点をあて，技術の単なる解説だけではなく，実際に動くプログラムを通して，読者が理解できるような実践的な書を目指した．本書には姉妹編として『実践編』も出版が計画されているが，『実践編』ではより高度な前処理技術と，テキスト・画像・音響・音楽等のメディアデータに対する前処理技術について解説した．本書『入門編』とあわせてご活用いただきたい．
(キーワード): 人工知能 (artificial intelligence) / 機械学習 (machine learning) / Python / 前処理 / データ解析 (data analysis) / データマイニング (data mining) / Google Colab / ビッグデータ / 特徴選択 / 次元削減 / NumPy / pandas / scikit-learn / matplotlib / TensorFlow / Keras / データクリーニング / 特徴抽出 / スケーリング / 標準化 / ノーマライゼーション (normalization) / 正規化 / データクレンジング / データ拡張 / ビニング / 離散化 / 外れ値 / 四分位範囲 / 箱ひげ図 / スミルノフ・グラブス検定 / 欠損値 / リストワイズ除去 / ペアワイズ除去 / 単一代入法 / 多重代入法 / フィルタ法 / カイ二乗検定 / 分散分析 (analysis of variance) / ピアソン相関係数 / 主成分分析 / 非負値行列因子分解 / 正準相関分析 / 線形判別分析 / カーネル主成分分析 / t-SNE / UMAP / 多次元尺度構成法 / 自己組織化写像 (self-organizing map) / 自己符号化器 / SMOTE

Norihide Kitaoka, nakagawa takuma, Ryota Nishimura, Ishiguro Yoshio, Kojima Shin'ichi and Ohsuga Shin :
A Multimodal Control System for Autonomous Vehicles Using Speech, Gesture, and Gaze Recognition,
Walter de Gruyter & Co., 2020.

(要約): 近年，自律走行車の開発が盛んに行われています．その一つとして，特別な技術や訓練を受けなくても，人間が簡単に自律走行車を操ることができるシステムの開発が挙げられます．そのためには，ヒューマン・マシン・インターフェース技術が有効であると考えられています．本研究では，音声認識，ジェスチャー認識，視線認識を用いて，直感的なマルチモーダルインターフェースシステムを提案します．本研究では，従来の自動対話システムの制御にも用いられている有限状態変換器(FST)を用いて，マルチモーダル理解と対話制御を別々に設計した．我々のマルチモーダル理解と対話制御のコンポーネントは，2つの別々の変換器のカスケードと考えることができますが，カスケード変換器は1つの変換器に結合することができるので，我々のシステムは実際には1つのFSTによって駆動されています．本研究で提案したインターフェースシステムは，音声，頭の動き，視線の方向のみで自律走行車を操作することができました．
(出版サイトへのリンク): ● Publication site (DOI): 10.1515/9783110669787-007
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1515/9783110669787-007

(DOI: 10.1515/9783110669787-007) Takahiro Uchiya, Ryota Nishimura, Takahiro Hirano and Masaru Sakurai :
Design of Reminiscence Therapy System for Elderly People with Dementia,
Springer, Nov. 2018.

(要約): 近年，認知症患者の数が増加し，介護者の負担が増大している．しかし，認知症の治療法は確立されておらず，その進行を制御することが治療の目的となっている．認知症の進行を抑制する1つの手段として，介護者と認知症患者との対話による回想法を使用する．しかし，この方法では，介護者は何度も対話を行う必要があり，介護者にとって負担となるため，介護者の代わりにMMDAgentという音声対話システムを用いて回想法対話の支援を行う方法を提案する．これによって，介護者の負担が軽減される．本稿では，提案されたシステムの設計を示す．
(出版サイトへのリンク): ● Publication site (DOI): 10.1007/978-3-319-69811-3_76
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1007/978-3-319-69811-3_76

(DOI: 10.1007/978-3-319-69811-3_76) 太田一穂, 岡嶋和弘, 西村良太, 樋山淳 :
ここまで作れる! Raspberry Pi 実践サンプル集,
マイナビ出版, 2017年7月.

(キーワード): ラズベリーパイ

Takeshi Morita, Yu Sugawara, Ryota Nishimura and Takahira Yamaguchi :
Integrating Symbols and Signals Based on Stream Reasoning and ROS,
Springer, Phuket, Thailand, Aug. 2016.

(要約): 実践的知能アプリケーション開発プラットフォームであるPRINTEPS(PRactical INTElligent aPplicationS)を開発した．本稿では，ストリーム推論とROS(Robot Operating System)を用いたイベント検出のためのPRINTEPSの応用と，知識処理による画像センシングの統合について述べる．このプラットフォームにおいて，我々はロボットカフェ内のロボットの動作をデモンストレーションし，ルールセットを変更することによって簡単にロボットカフェを実現・適用できることを示す．
(キーワード): ROS / Stream Reasoning / PRINTEPS / Ontology

Yuki Todo, Ryota Nishimura, Kazumasa Yamamoto and Seiichi Nakagawa :
Development and evaluation of spoken dialog systems with one or two agents through two domains,
Springer, Berlin Heidelberg, Sep. 2013.

(要約): 現存する音声対話システムの殆どは，ユーザとシステムが一対一の対話を扱っている．一方，我々は，多人数対話に注目し，複数のエージェント対1ユーザの対話を対象とする．我々は3者対話システムを構築し，二者対話との比較を行った．話題は，「うどんとラーメンのどちらが好きか」と「北海道と沖縄のどちらに旅行に行きたいか」である．実験の結果，三者対話システムがより活発に対話でき，ユーザがより雑談的に対話できることがわかった．
(キーワード): 音声対話システム / 多人数対話 / 二人のエージェント / 雑談
(出版サイトへのリンク): ● Publication site (DOI): 10.1007/978-3-642-40585-3_24
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1007/978-3-642-40585-3_24

(DOI: 10.1007/978-3-642-40585-3_24) Ryota Nishimura, Norihide Kitaoka and Seiichi Nakagawa :
A spoken dialog system for chat-like conversations considering response timing,
Springer, Sep. 2007.

(要約): 対話システムが人間のように自然にユーザに応答できればインタラクションはより円滑になる．本研究では人間の雑談中の振る舞いを模擬する音声対話システムを開発することを目的とする．決定木を用いて雑談のような応答内容とタイミングを生成する対話システムを開発した．「共同補完」「相槌」などができる．ピッチやパワーの軌跡，認識仮説，応答準備状況を素性とした決定木が毎時刻応答タイミングを生成する．

論文

鳥井浩平, 西村良太, 誉田栄一 :
医用画像AI開発支援ソフトウェアを用いた歯科用CBCT画像における下顎管のセグメンテーション,
歯科放射線, Vol.64, No.1, 11-19, 2024年.

(キーワード): 医用画像 (medical image) / 人工知能 (artificial intelligence) / セグメンテーション
(徳島大学機関リポジトリ): ● Metadata: 2012278

(徳島大学機関リポジトリ: 2012278) Ryota Nishimura, Takaaki Uno, Taiki Yamamoto, Kengo Ohta and Norihide Kitaoka :
Detection of Arbitrary Wake Words by Coupling a Phoneme Predictor and a Phoneme Sequence Detector,
APSIPA Transactions on Signal and Information Processing, 2024.

(要約): スマートフォンやスマートスピーカーで使用されるウェイクワード(WW)検出システムのほとんどは，「Hey, Siri」や「OK, Google」のような，あらかじめ定義された特定のWWのみを検出する．このようなシステムを構築するには，モデルを学習するために，選択したWWの多くの例からなる大規模な音声コーパスを収集する必要があります．また，異なるWWを検出させたい場合には，新たな音声コーパスの収集とモデルの再トレーニングが必要となる．本研究では，モデル学習やWWの発話コーパスを追加することなく，選択したWWを検出できるシステムを提案し，ユーザが好みのWWを選択して使用できるようにする．このシステムは音素予測器(PP)と音素列検出器(PSD)から構成される．PPは入力音声の音響特徴を用いて音素列を予測し，音素確率分布を出力する．PPの音響モデルはConnectionist Temporal Classification (CTC)の損失基準を用いて学習される．PSDはPPの出力を入力とし，WWが入力されたか否かの確率を予測する．評価実験では，6音素のWW検出を行った．その結果，提案手法は90%のWW検出精度を達成した．
(キーワード): wake word / CTC / end-to-end modeling / phoneme sequence detector
(徳島大学機関リポジトリ): ● Metadata: 2012765
(出版サイトへのリンク): ● Publication site (DOI): 10.1561/116.20240014
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1561/116.20240014

(徳島大学機関リポジトリ: 2012765, DOI: 10.1561/116.20240014) Mori Daiki, Ohta Kengo, Ryota Nishimura, Ogawa Atsunori and Norihide Kitaoka :
Recognition of target domain Japanese speech using language model replacement,
EURASIP Journal on Audio, Speech, and Music Processing, Vol.2024, No.1, 1-14, 2024.

(要約): ディープラーニングモデルで構成されるエンドツーエンド(E2E)自動音声認識(ASR)モデルは，単一のニューラルネットワークを使用してASRタスクを実行することができます．これらのモデルは，大量のデータを用いて学習させる必要があるが，ターゲットとする音声ドメインに一致する音声データを収集することは困難であるため，ターゲットドメインに完全に一致しない音声データが使用されることが多く，結果として性能が低下する．音声データに比べ，ドメイン内のテキストデータは入手が容易である．そのため，従来のASRシステムでは，言語モデルとHMMベースの音響モデルを別々に学習して使用している．しかし，E2E ASRモデルは，音響情報と言語情報の両方を統合的に学習するため，言語情報を分離することが困難であり，リーズナブルなコストで十分な認識性能を達成できる，特殊なターゲットドメイン用のE2E ASRモデルを作成することは非常に困難である．本論文では，ターゲットドメインへの適応を実現するために，事前学習されたE2E ASRモデル内の言語情報を置き換える手法を提案する．これは，ASRの訓練データを対数領域で書き起こして訓練したソースドメイン言語モデルを差し引くことで，ASRモデルに含まれる「暗黙の」言語情報を削除することで達成される．次に，対数領域での足し算によって，ターゲット領域の言語モデルを統合します．この引き算と足し算による言語モデルの置き換えは，ベイズの定理に基づいている．実験では，まず，自然言語日本語コーパス(CSJ)の2つのデータセットを用いて，本手法の有効性を評価した．次に，新聞記事音声コーパス(JNAS)と自然発話コーパス(CSJ)を用いて，それぞれ読み上げ音声と自然発話音声のデータを用いて，2つの言語領域のギャップを埋める提案手法の有効性を検証した．その結果，我々の提案する言語モデル置換手法は，JNASコーパスとCSJコーパスに比べて，ASR性能が向上することが示された．
(キーワード): End-to-end speech recognition / Implicit language information / Language model replacement
(徳島大学機関リポジトリ): ● Metadata: 2012784
(出版サイトへのリンク): ● Publication site (DOI): 10.1186/s13636-024-00360-8
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1186/s13636-024-00360-8

(徳島大学機関リポジトリ: 2012784, DOI: 10.1186/s13636-024-00360-8) Keita Kiuchi, XIN KANG, Ryota Nishimura, Manabu Sasayama and Kazuyuki Matsumoto :
Causal Effects of High Stress Assessed via Interviews on Mental and Physical Health: Toward Computer Agent-Driven Stress Assessment,
Journal of Occupational and Environmental Medicine, 2024.

(要約): This study investigated the causal effect of high stress assessment via an interview on the mental and physical health of workers one month later. Stress assessment interviews and feedback were conducted with 50 Japanese workers. In addition to the interviewer, two occupational health professionals assessed participants' stress based on recordings. The average treatment effect was estimated by propensity score matching. High stress, according to the interview-based assessment, had a significant negative causal effect on self-reported well-being one month later (95% confidence interval: -3.02, -1.10). In addition, no effect of high stress on stress load, mental and physical symptoms, or burnout was observed. This study provides important insights into the prognosis of individuals who were assessed through interviews to have high stress. The findings are expected to help automate stress assessments using computer agents.
(出版サイトへのリンク): ● Publication site (DOI): 10.1097/JOM.0000000000003117
(文献検索サイトへのリンク): ● PubMed @ National Institutes of Health, US National Library of Medicine (PMID): 38603579; ● Search Scopus @ Elsevier (PMID): 38603579; ● Search Scopus @ Elsevier (DOI): 10.1097/JOM.0000000000003117

(DOI: 10.1097/JOM.0000000000003117, PubMed: 38603579) Keita Kiuchi, XIN KANG, Ryota Nishimura, Manabu Sasayama and Kazuyuki Matsumoto :
Predicting Physical and Mental Health Status One Month Later through Interview-Based Stress Assessment,
Industrial Health, Vol.62, No.4, 237-251, 2024.

(要約): This study conducted an interview-based stress evaluation that considered the psychosocial models of work stress and verified the evaluations predictive validity. A four-stage assessment comprising a pre-survey, pre-interview questionnaire, stress assessment interview, and post-survey after one month was conducted with 50 Japanese workers. Additionally, 16 occupational health professionals provided stress evaluations based on recorded interview videos. Variables based on intraclass correlation coefficients (ICCs) were computed in multiple ways to compare the agreement among the evaluators. The generalized estimating equation (GEE) was conducted to evaluate the prediction models. The overall ICC among the evaluators was 0.58. The GEE revealed that the mean score of the evaluators in the interview-based stress evaluation significantly predicted psychological symptoms (β =2.02, p=0.019), burnout (β =0.77, p<0.001), and well-being (β =0.64, p=0.007) one month later, even after adjusting for the self-reported stress levels measured in the pre-survey. The predictive validity of the proposed interview-based stress evaluation was confirmed. Although there are several challenges in standardizing this evaluation, semi-structured interviews are an effective tool for understanding work stress.
(キーワード): burnout / chronic stress / interview-based assessment / job stress / stress assessment / well-being
(出版サイトへのリンク): ● Publication site (DOI): 10.2486/indhealth.2023-0144
(文献検索サイトへのリンク): ● PubMed @ National Institutes of Health, US National Library of Medicine (PMID): 38246619; ● Search Scopus @ Elsevier (PMID): 38246619; ● Search Scopus @ Elsevier (DOI): 10.2486/indhealth.2023-0144

(DOI: 10.2486/indhealth.2023-0144, PubMed: 38246619) 宮下翼, 松本和幸, 吉田稔, 西村良太, 北研二 :
糖尿病患者のブログに記述された生活習慣の抽出,
電気学会論文誌C (電子，情報，システム部門誌), Vol.142, No.10, 1144-1155, 2022年.

(要約): 本研究は難病患者の闘病活動における生活習慣の維持や管理を支援するシステムを構築するための一歩として，糖尿病患者の生活習慣(食事，睡眠，運動など)や病状(血圧，体調など)に関連したキーワードの抽出を目指す．糖尿病の闘病患者のブログデータを収集し，そこから双方向ゲート付きリカレントユニット(GRU)を用いて生活習慣や病状に関連したキーワードの自動抽出を行う．
(キーワード): 闘病ブログ / 固有表現抽出 / 自然言語処理 (natural language processing)
(出版サイトへのリンク): ● Publication site (DOI): 10.1541/ieejeiss.142.1144
(文献検索サイトへのリンク): ● CiNii @ 国立情報学研究所 (CRID): 1390293633437552768; ● Search Scopus @ Elsevier (DOI): 10.1541/ieejeiss.142.1144

(DOI: 10.1541/ieejeiss.142.1144, CiNii: 1390293633437552768) Meiko Fukuda, Ryota Nishimura, Hiromitsu Nishizaki, Koharu Horii, Yurie Iribe, Kazumasa Yamamoto and Norihide Kitaoka :
A new speech corpus of super-elderly Japanese for acoustic modeling,
Computer Speech & Language, Vol.77, 101424, 2022.

(要約): アクセシブルな音声認識技術が開発されれば，高齢者でも電子化された情報に容易にアクセスできるようになる．しかし，高齢者の音声には特有の特徴があるため，従来の音声認識システムでは，必要なレベルの認識精度が得られていないのが現状です．そこで我々は，高齢者向け自動音声認識モデルの学習用リソースとして，日本人超高齢者123名(平均年齢83.1歳)の読み上げ音声を録音したEARS(Elderly Adults Read Speech)という新しい音声コーパスを作成しました．本研究では，この新しい音声コーパスを用いて，超高齢者日本語音声の音響的特徴について検討しました．その結果，男女ともに発話速度が遅く，母音時間が長く，男性では基本周波数がわずかに上昇し，女性では基本周波数がわずかに低下することが確認されました．また，本コーパスの有効性を示すために，本コーパスのデータと従来の3つの日本語音声コーパスの音声データを組み合わせて学習させた2種類の音響モデル(DNN-HMMとトランスフォーマベース)を用いて音声認識実験を行いました．EARSと既存コーパスの音声データを組み合わせて学習させたDNN-HMMを用いた場合，文字誤り率(CER)は，ベースライン学習コーパスのみを用いた場合の16.9%に対し，7.8%(9%強)減少した．また，単純なデータ拡張手法を用いて，様々な量のEARSデータを用いてモデルを学習させた場合の効果も調査しました．また，音響モデルには一切手を加えず，様々なエポック数で学習させました．Transformerベースのエンドツーエンド音声認識器を用いた場合，ベースライン学習コーパスのデータのみを用いた場合のCERが13.4%であったのに対し，2倍のEARSコーパスを学習に用いることにより，文字誤り率が3.0%減少(11.4%となった)しました．
(徳島大学機関リポジトリ): ● Metadata: 2010610
(出版サイトへのリンク): ● Publication site (DOI): 10.1016/j.csl.2022.101424
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1016/j.csl.2022.101424

(徳島大学機関リポジトリ: 2010610, DOI: 10.1016/j.csl.2022.101424) 西村良太, 森雷太, 北岡教英 :
音声対話システムのための自由発話に対応した照応解析による入力発話への話題補完手法,
人工知能学会論文誌, Vol.37, No.3, 1-13, 2022年.

(要約): 本研究では，対話システムの入力発話に含まれる主語などの省略された単語を補完することで，対話の文脈や話題を考慮した応答発話を生成する手法を提案する．省略された単語を補完するために，センタリング理論に基づいたアナフォラの自動解決を行う．また，高精度な異名解消を実現するために，前処理としてLSTMを用いたsequence-to-sequenceモデルに基づいて，話し言葉から書き言葉へのスタイル変換を行った．名古屋大学会話コーパス(NUCC)を用いた評価実験の結果，提案した相補法は，話し言葉から書き言葉へのスタイル変換の誤りに対してロバストに機能することがわかった．
(キーワード): Spoken Dialog system / Anaphora Resolution / Centering Theory / Spoken-to-written Style Conversion
(出版サイトへのリンク): ● Publication site (DOI): 10.1527/tjsai.37-3_ids-f
(文献検索サイトへのリンク): ● CiNii @ 国立情報学研究所 (CRID): 1390010457669588864; ● Search Scopus @ Elsevier (DOI): 10.1527/tjsai.37-3_ids-f

(DOI: 10.1527/tjsai.37-3_ids-f, CiNii: 1390010457669588864) Byambadorj Zolzaya, Ryota Nishimura, Altangerel Ayush, Ohta Kengo and Norihide Kitaoka :
Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation,
EURASIP Journal on Audio, Speech, and Music Processing, Vol.2021, No.42, 1-20, 2021.

(要約): 現在，自動音声合成(TTS)システムに深層学習技術が適用されており，その結果，性能が大幅に向上している．しかし，これらの手法では，モデル学習のために大量のテキストと音声のペアデータが必要であり，このデータの収集にはコストがかかる．そこで，本稿では，スペクトログラム予測ネットワークとニューラルボコーダの両方を含む単一話者用TTSシステムを提案する．このシステムでは，ターゲット言語のテキストと音声のペアデータを30分程度学習するだけでよい．本研究では，入力された音素列からメル・スペクトログラムを生成するTTSシステムのスペクトログラム予測モデルを学習するための3つのアプローチを評価する．(1)言語間転移学習，(2)データ補強，(3)前2者の組み合わせ．言語間転移学習法では，英語(24時間)と日本語(10時間)の2つの高リソース言語データセットを使用した．また，3つの手法の学習には30分の目標言語データを使用し，手法2と3の学習に使用する拡張データの生成にも使用しました．その結果，言語間転移学習と拡張データの両方を用いて学習を行うことで，最も自然な目標音声の合成が可能になることがわかった．また，単一話者と複数話者の学習方法を比較し，それぞれ逐次学習と同時学習を行いました．多話者モデルは，単話者で低リソースのTTSモデルを構築するのに有効であることがわかった．さらに，2つのParallel WaveGAN (PWG) ニューラルボコーダを学習しました．1つは13時間の我々の増強データと30分のターゲット言語データを使用し，もう1つはオリジナルのターゲット言語データセットの12時間全体を使用しました．主観的なABプリファレンステストの結果，拡張データを用いて学習したニューラルボコーダは，ターゲット言語の全データセットを用いて学習したボコーダとほぼ同等の音声品質を達成した．以上の結果から，スペクトログラム予測ネットワークとPWGニューラルボコーダから構成される我々のTTSシステムは，わずか30分の目標言語訓練データで妥当な性能を達成できることがわかった．また，モデルの学習と補強データの生成に3時間のターゲット言語データを用いることで，12時間のターゲット言語データで学習したベースラインモデルとほぼ同等の性能を達成できることがわかった．
(徳島大学機関リポジトリ): ● Metadata: 2009777
(出版サイトへのリンク): ● Publication site (DOI): 10.1186/s13636-021-00225-4
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1186/s13636-021-00225-4

(徳島大学機関リポジトリ: 2009777, DOI: 10.1186/s13636-021-00225-4) Ohta Kengo, Ryota Nishimura and Norihide Kitaoka :
Response Type Selection for Chat-like Spoken Dialog Systems Based on LSTM and Multi-task Learning (accepted),
Speech Communication, Vol.133, No.2021, 23-30, 2021.

(要約): 会話型音声対話システムにおいて，ユーザの入力発話と他の多くの発話との比較に基づいて，最初に必要とされる正しい応答タイプを明示的に決定することで，適切な応答を自動的に選択する手法を提案する．そして，この応答タイプの指定に基づいて，応答発話が生成される(バックチャネル，話題の変更，話題の拡大，など)．これにより，従来のエンド・ツー・エンドのアプローチでは，ユーザの入力のみを用いて直接応答発話を生成していたのに対し，より適切な応答を生成することができる．応答タイプセレクタとして，我々は，入力発話から抽出された音響的特徴と言語的特徴を利用したLSTMベースのエンコーダ・デコーダフレームワークを提案する．これらの特徴をより正確に抽出するために，入力発話だけでなく，学習コーパスに含まれる応答発話も利用する．また，複数のデコーダを用いたマルチタスク学習についても検討する．提案手法を評価するために，高齢者とインタビュアーの対話コーパスを用いた実験を行った．その結果，提案手法は，サポートベクターマシンを用いたポイントワイズ分類器や，シングルタスク学習のLSTMを用いた従来の手法よりも高い性能を示した．また，音響特徴量で学習した応答タイプセレクタと言語特徴量で学習した応答タイプセレクタを組み合わせ，さらにマルチタスク学習を行うことで，最高の性能を得ることができた．
(キーワード): spoken dialog system / response type selection / encoder-decoder model / multi-task learning
(徳島大学機関リポジトリ): ● Metadata: 2009570
(出版サイトへのリンク): ● Publication site (DOI): 10.1016/j.specom.2021.07.003
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1016/j.specom.2021.07.003

(徳島大学機関リポジトリ: 2009570, DOI: 10.1016/j.specom.2021.07.003) ZOLZAYA BYAMBADORJ, Ryota Nishimura, Ayush Altangerel and Norihide Kitaoka :
Normalization of Transliterated Mongolian Words Using Seq2Seq Model with Limited Data (accepted),
ACM Transactions on Asian and Low-Resource Language Information Processing, Vol.20, No.6, 1-19, 2021.

(要約): 近年，ソーシャルメディアの利用が大幅に増加したことで，新たな社会的交流の形が生まれ，私たちの日常生活に変化をもたらしています．グローバル化に伴い，異文化間の接触が増えたことで，ラテン文字の使用が増え，その結果，ソーシャルメディア上で大量の音訳されたテキストが使用されるようになっています．本研究では，利用可能な学習データが限られているシナリオにおいて，ラテン文字で書かれたノイズの多い音訳テキストをモンゴル語のキリル文字に正規化するために，様々な文字レベルのsequence-to-sequence(seq2seq)モデルを提案しました．本研究では，2つの基本的なseq2seqモデルに対して，様々なビームサーチ戦略，N-gramベースの文脈採用，編集距離ベースの補正，辞書ベースのチェックなどの性能向上手法を新しい方法で適用した．これら2つの基本モデルと14の拡張seq2seqモデルを実験的に評価し，ノイズの多いテキストの正規化性能を音訳モデルや従来の統計的機械翻訳(SMT)モデルと比較した．提案したseq2seqモデルは，基本的なseq2seqモデルのOOV(out-of-vocabulary)単語の正規化に対する頑健性を向上させ，ほとんどのモデルが従来の手法よりも高い正規化性能を達成した．また，テストデータを用いた正規化実験では，推論期間中に各仮説をチェックする提案手法が最も低い単語誤り率(WER = 13.41%)を達成し，従来のSMT手法を用いた場合よりも4.51%少ない誤り率となった．
(キーワード): Text normalization / noisy text / transliterated text / ニューラルネットワーク (neural network) / 言語モデル
(出版サイトへのリンク): ● Publication site (DOI): 10.1145/3464361
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1145/3464361

(DOI: 10.1145/3464361) JiaHao Chen, Ryota Nishimura and Norihide Kitaoka :
End-to-end recognition of streaming Japanese speech using CTC and local attention,
APSIPA Transactions on Signal and Information Processing, Vol.9, No.e25, 1-7, 2020.

(要約): 現在の音声認識アプローチのほとんどは双方向ネットワークとシーケンス間のモデリングに基づいているため，このような技術を用いた自動音声認識(ASR)システムは，データの処理を開始する前に音声入力のセグメント全体が入力されるのを待つ必要があり，結果として長いタイムラグが発生し，アプリケーションによっては深刻な欠点となることがある．この問題に対する明白な解決策は，ストリーミングデータを処理できる音声認識アルゴリズムを開発することである．そこで，本論文では，コネクショニスト時間分類(CTC)基準を用いて学習された一方向性LSTMに基づくモデルを用いて，日本語のためのストリーミング・オンラインASRシステムの可能性を示す．ほとんどの日本語ASRシステムでは双方向性のネットワークが採用されているため，このようなアプローチは日本語での利用についてはあまり研究されていない．本研究で提案したシステムの実験評価では，文字誤り率9.87%という最良の結果が得られた．
(キーワード): CTC / ローカルアテンション / 音声認識 (speech recognition) / ストリーミング認識
(徳島大学機関リポジトリ): ● Metadata: 2008800
(出版サイトへのリンク): ● Publication site (DOI): 10.1017/ATSIP.2020.23
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1017/ATSIP.2020.23

(徳島大学機関リポジトリ: 2008800, DOI: 10.1017/ATSIP.2020.23) Norihide Kitaoka, seto eichi and Ryota Nishimura :
Example Phrase Adaptation Method for Customized, Example-Based Dialog System Using User Data and Distributed Word Representations,
IEICE Transactions on Information and Systems, Vol.E103-D, No.11, 2332-2339, 2020.

(要約): word2vecを用いて得られた分散表現にプラスとマイナスの演算を適用することで，事例ベースの対話システムを個々のユーザに合わせてカスタマイズすることができる適応手法を開発した．Webからユーザのプロフィール情報を検索した後，検索結果に固有表現抽出を適用する．そして，TF-IDFスコアが高い単語をユーザ関連語として採用する．次に，選択されたユーザ関連語と既存の例文中の名詞との類似度をword2vecエンベディングを用いて計算する．次に，元の例文中の類似度の高い単語を，ユーザに関連する単語に置き換えることで，ユーザに適応したフレーズを生成する．また，word2vecは，分散した単語表現にプラスとマイナスの演算を適用できるという特殊な性質を持っている．これらの演算を元のフレーズで使用されている単語に適用することで，元の単語を置き換えるのに使用できるユーザ関連の単語を決定することができる．このようにして，ユーザに関連する単語を置換することで，カスタマイズされた例文を作成することができる．生成されたフレーズの自然度を評価したところ，自然なフレーズを生成できることがわかった．
(キーワード): 事例ベースの音声対話システム / ユーザカスタマイゼーション / 単語分散表現
(出版サイトへのリンク): ● Publication site (DOI): 10.1587/transinf.2020EDP7066
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1587/transinf.2020EDP7066

(DOI: 10.1587/transinf.2020EDP7066) Ryota Nishimura, Daisuke Yamamoto, Takahiro Uchiya and Ichi Takumi :
MMDAE: Dialog scenario editor for MMDAgent on the web browser,
ICT Express, Vol.5, No.1, 47-51, 2019.

(要約): 我々は，MMDAgent(音声対話システム用の完全オープンソースのツールキット)を開発した．このツールキットは，PCとスマートフォン上の様々なプラットフォーム上で動作する．これに合わせて，対話シナリオの編集環境もさまざまなプラットフォームで動作する必要があるため，Webブラウザで実装されたシナリオエディタを開発する．本論文で開発するシステムの目的は，シナリオを簡単に編集できる環境の提供である．提案されたシナリオエディタを使用して被験者に対して実験を行った．提案システムは，シナリオの読みやすさを向上させ，編集を容易にすることが示された．
(キーワード): 音声対話システム / シナリオエディタ / ウェブブラウザ / MMDAgent
(徳島大学機関リポジトリ): ● Metadata: 2008077
(出版サイトへのリンク): ● Publication site (DOI): 10.1016/j.icte.2018.03.002
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85046812358

(徳島大学機関リポジトリ: 2008077, DOI: 10.1016/j.icte.2018.03.002, Elsevier: Scopus) Ryota Nishimura, Daisuke Yamamoto, Takahiro Uchiya and Ichi Takumi :
Web-based environment for user generation of spoken dialog for virtual assistants,
EURASIP Journal on Audio, Speech, and Music Processing, Vol.2018, No.1, 1-13, 2018.

(要約): 本論文では，ユーザがビデオ仮想アシスタントを用いて対話を編集することを可能にするウェブベースの音声対話生成環境を開発した．提案システムでは，誰もが対話システムの対話の内容を簡単に投稿/編集できる．音声対話共有サービスおよびFST生成器は，音声認識装置，対話制御装置，音声シンセサイザ，および仮想エージェントを含むMMDAgent音声対話システムツールキットの音声対話コンテンツを生成する．ダイアログコンテンツの作成には，ユーザーが投稿したQ&AダイアログとFSTテンプレートが使用される．提案されたシステムは，名古屋工業大学の学生ラウンジで1年以上にわたり運用され，実験中に500以上の対話が追加された．最も投稿されたカテゴリーは，「アニメ，ビデオゲーム，漫画」に関するものであった．音声対話システムに関する知識がない観光スタッフによるシステム利用実験を行った結果，スタッフはシステムの応答の長さを短縮し，より長い応答にはポーズを追加することで，ユーザに理解されやすい対話を実現していた．
(キーワード): 音声対話システム / MMDAgent / デジタルサイネージ / 実際の環境 / ウェブサービス
(徳島大学機関リポジトリ): ● Metadata: 2008039
(出版サイトへのリンク): ● Publication site (DOI): 10.1186/s13636-018-0142-8
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1186/s13636-018-0142-8

(徳島大学機関リポジトリ: 2008039, DOI: 10.1186/s13636-018-0142-8) 藤堂祐樹, 西村良太, 山本一公, 中川聖一 :
複数の対話エージェントを用いた雑談指向の音声対話システム,
電子情報通信学会論文誌(D), Vol.J99-D, No.2, 188-200, 2016年.

(要約): 音声対話システムとの対話において，現在は，ユーザ一人とシステムエージェント一体による二者対話(1 対 1 の対話)が主流である．我々はこれまでに 1 対 1 の雑談向け音声対話システムの開発を行ってきた．このシステムを応用し，本論文ではシステム側のエージェントを二体にした三者対話システムを提案し，開発・評価を行った．雑談に用いた対話ドメインは，「うどんとラーメンのどちらが好きか」といったような，だれでも話しやすい内容にした．そして，同じドメインで対話が可能な二者対話システム(1 ユーザ対 1 システム) と三者対話システム(1 ユーザ対 2 システム)を構築し，これらを用いて被験者実験を行った．この結果から，二者対話システムで得られた知見を，ほとんどそのまま用いた三者対話システムにおいて，対話の弾み具合の向上や，対話の雑談らしさの印象の向上が見られ，被験者に好ましい影響を与えることが明らかになった．
(キーワード): 音声対話システム / 多人数対話 / 三者対話 / 複数エージェント / 雑談対話
(出版サイトへのリンク): ● Publication site (DOI): 10.14923/transinfj.2015JDP7010
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.14923/transinfj.2015JDP7010

(DOI: 10.14923/transinfj.2015JDP7010) Takahiro Uchiya, Masaki Yoshida, Daisuke Yamamoto, Ryota Nishimura and Ichi Takumi :
Design and Implementation of Open-Campus Event System with Voice Interaction Agent,
Journal of Mobile Multimedia, Vol.11, No.1, 237-250, 2015.

(要約): 多くの大学では，高校生を募集するためのキャンパス情報を提供するイベントとして積極的にオープンキャンパス活動を行っている．しかし，オープンキャンパス活動にはいくつかの問題がある．私たちは，スマートフォンで動作する音声対話ツールキットを使ってオープンキャンパスイベントを開催するシステムを提案する．この方法は，パンフレットに掲載された情報をブラウザに表示することによって印刷コストを削減することができる．さらに，3Dキャラクターモデル，GPS，Googleマップ，歩行経路推定システムを用いて表現された音声対話エージェントを用いてコースを誘導することにより，人間の案内人は必要ない．これらの機能を利用したオープンキャンパスのイベントシステムの設計と実装を行い，提案システムを実験的に評価した．
(キーワード): オープンキャンパス・イベントシステム / エージェントベースのキャンパスガイド / 音声対話エージェント
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-84949762177

(Elsevier: Scopus) Ryota Nishimura and Seiichi Nakagawa :
A Spoken Dialog System for Spontaneous Conversations Considering Response Timing and Response Type,
IEEJ Transactions on Electrical and Electronic Engineering, Vol.6, No.Supplement 1, S17-S26, 2011.

(要約): 音声対話システムが人間のように自然に応答することができれば，対話はよりスムーズになる．本研究では，人間の行動を模倣する音声対話システムの開発を目指す．提案したシステムは，適切なタイミングで応答を生成するために決定木を利用する．これらの応答には，「相槌」(バックチャネル)，「復唱」，「共同補完」などが含まれる．決定木は，ピッチとパワーの概形，音声認識の途中結果，応答の準備情報を入力として応答タイミング機能を生成します．このモデルの主観評価では，応答内容やタイミングには高い自然性があり，音声対話システムはユーザフレンドリな応答ができることが示された．
(キーワード): 音声対話システム / 音声対話 / 相槌 / 復唱 / オーバーラップ
(出版サイトへのリンク): ● Publication site (DOI): 10.1002/tee.20616
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1002/tee.20616

(DOI: 10.1002/tee.20616) 西村良太, 北岡教英, 中川聖一 :
音声対話における韻律変化をもたらす要因分析,
音声研究, Vol.13, No.3, 66-84, 2009年.

(要約): 円滑で協力的な人対人の対話では，ピッチなどの韻律話者間で同期する．これより，韻律変化と会話の印象には関係があると考えられる．会話が円滑で生き生きとするにはどんな要素が必要か理解する必要がある．本論文では，人対人の対話における，基本周波数の同期傾向やオーバラップ頻度と，盛り上がりや親しみとの間の相関を分析する．よく同期すると親しみがあり盛り上がり，フランクで互いに同意し合う傾向がある．韻律のみからでも印象が評価できることが分かった．
(キーワード): 音声対話 / 韻律同調 / 韻律変化モデル / 応答タイミング / 音声対話システム
(出版サイトへのリンク): ● Publication site (DOI): 10.24467/onseikenkyu.13.3_66
(文献検索サイトへのリンク): ● CiNii @ 国立情報学研究所 (CRID): 1390282679763876224; ● Search Scopus @ Elsevier (DOI): 10.24467/onseikenkyu.13.3_66

(DOI: 10.24467/onseikenkyu.13.3_66, CiNii: 1390282679763876224) Norihide Kitaoka, Masashi Takeuchi, Ryota Nishimura and Seiichi Nakagawa :
Response timing detection using prosodic and linguistic information for human-friendly spoken dialog systems,
Transactions of the Japanese Society for Artificial Intelligence, Vol.20, No.3, 220-228, 2005.

(要約): 対話システムが人間のように応答ができればインタラクションはより円滑になる．相槌や話者交替のタイミングは人間同士のような円滑な対話には重要である．対話システム向けのタイミング生成器を開発した．これはいくつかの韻律的・言語的情報を素性としてタイミング検出する決定木を用いる．ポーズ中で100msごとにシステムのアクションを決定する．これを用いた対話システムを構築した．主観評価でほとんどの被験者がフレンドリな感触を得た．
(出版サイトへのリンク): ● Publication site (DOI): 10.1527/tjsai.20.220
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-18544374120

(DOI: 10.1527/tjsai.20.220, Elsevier: Scopus)

MISC

西村良太, 長尾拓海, 一万田郁仁, 北岡教英 :
高齢者の音声知覚特性に基づいた音声の明瞭化加工法の研究,
知能と情報, Vol.30, No.6, 840-845, 2018年.

(要約): 近年の超高齢社会において，高齢者の加齢に伴う聴覚機能の低下が問題視されている．聴覚機能が低下すると，会話によるコミュニケーションにも支障をきたす．近年は，音声対話システムを利用した高齢者サポートシステムなどの開発も行われているが，このようなシステムで用いられる合成音声は高齢者にとっては聞き取りにくいものである．そこで本研究では，まず高齢者に音声の聴取実験を行ってもらい，その結果から聴覚特性の分析を行った．聴取実験では，単語了解度試験を行い，音素単位(子音部，母音部)での識別率を求めた．その結果，摩擦音，破擦音，破裂音同士での異聴が多かった．この結果を受けて，我々は音声に対して高齢者の聴覚特性に基づいた子音強調加工を施し，高齢者にとって聞き取りやすい音声を作成することができるかを調査した．音声加工は，特に異聴が多かった /k/，/s/，/t/，/h/，/ky/，/sy/，/ch/ の音素に対して行った．具体的な加工法としては，子音部の振幅を原音声比 400% で増幅させるものである．加工音声の評価実験では，単語了解度試験による聴取実験を行った被験者と同じ被験者に聴取実験を行ってもらい，得られた聞き取り結果の正答率の比較を行った．結果，いくつかの音素においては，音声を加工することで正答率が上昇した．
(キーワード): 高齢者の音声知覚特性 / 音素強調加工 / 振幅増幅
(出版サイトへのリンク): ● Publication site (DOI): 10.3156/jsoft.30.6_840
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.3156/jsoft.30.6_840

(DOI: 10.3156/jsoft.30.6_840) 西村良太, 檜垣美帆, 北岡教英 :
RNN-LSTMによる音響ベクトル空間と文書ベクトル空間とのマッピング,
知能と情報, Vol.30, No.4, 628-633, 2018年.

(要約): 音楽の音響データと歌詞のデータをニューラルネットワークによって対応付ける．音響データをクロマベクトル系列にしてLSTMでベクトルに変換する．その変換先が歌詞ベクトル(Word2vecによる歌詞中の単語のベクトル化したものの平均)になるように学習し，対応付け可能であることを示した．
(出版サイトへのリンク): ● Publication site (DOI): 10.3156/jsoft.30.4_628
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.3156/jsoft.30.4_628

(DOI: 10.3156/jsoft.30.4_628) Norihide Kitaoka, Shuhei Segawa, Ryota Nishimura and Kazuya Takeda :
Recognizing emotions from speech using a physical model,
Acoustical Science and Technology, Vol.39, No.2, 167-170, 2018.

(要約): 音声に含まれる特徴を用いて感情を自動推定する手法を検討した．感情としては，ラッセルの2軸のモデルを用い，その2軸を推定することとした．特徴抽出に，音声の母音から声帯の物理モデルのパラメータを推定してそのパラメータを用いることで，従来の特徴よりも推定精度が向上することを示した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1250/ast.39.167
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85043521603

(DOI: 10.1250/ast.39.167, Elsevier: Scopus)

総説・解説

北岡教英, 西村良太, 太田健吾 :
フォトリアルCGエージェントとのマルチモーダル対話,
日本音響学会誌, Vol.78, No.5, 257-264, 2022年5月.

(要約): 将来の人間-機械協奏社会を考えたとき，機械と人間がいかに自然で容易にコミュニケーションできるかが重要な課題となる．機械側のインタフェースが限りなく人間に近い姿をし，人間に近い対話をすることは，こうした課題の解決法の一つの方法であると考える．そこで我々は，本物の人間と区別がつかないレベルの 3D CGで描かれ，映像内でリアルに動作する「Saya」に注目し，Sayaをエージェントとして音声・マルチモーダル対話を行えるシステムの構築を行っている．本稿では，Sayaおよび構築した対話システムの全体像を紹介するとともに，そこで用いられている音声認識・音声合成・画像認識・インタラクション制御技術の概要を説明する．
(出版サイトへのリンク): ● Publication site (DOI): 10.20697/jasj.78.5_257
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.20697/jasj.78.5_257

(DOI: 10.20697/jasj.78.5_257) 大須賀晋, 田中五大, 鍋倉彩那, 藤井宏行, 中野涼太, 渡邉凌太, TELYUKA (名), 太田健吾, 西村良太, 北岡教英 :
次世代の移動を支えるマルチモーダルエージェント``Saya'',
自動車技術, Vol.75, No.9, 108-109, 2021年9月.

講演・発表

Toshiki Takanabe, Kotaro Kashihara, Kazuyuki Matsumoto, Keita Kiuchi, XIN KANG, Ryota Nishimura and Manabu Sasayama :
Multimodal Emotion Recognition and Dataset Construction in Online Counseling,
Proceedings of the 38th Pacific Asia Conference on Language, Information and Computation, 1-9, Dec. 2024.

(要約): In this study, we developed a multimodal dataset and performed emotion recognition experiments.The dataset includes objective emotion labels derived from online counseling videos. Five individuals were asked to predict the emotions of the person speaking in each counseling video and to assign emotion labels. Each video was evaluated by positioning a cursor on Russell's circumplex model, where the xaxis represents emotional valence(pleasantness-unpleasantness) and the yaxis represents arousal levels. To assess the inter-rater reliability of these evaluations, we calculated Fleiss' kappa. Using the constructed dataset, we conducted an emotion recognition experiment employing a Hybrid Fusion approach. Specifically, weused emotion recognition results from pyfeat as features from images, acoustic features from wav2vec2.0 as features from speech and text-embedding-3 as features from language.When the acoustic features were weighted 0.4, the facial features 0.3, and the linguistic features 0.3, the result for the 16 emotion classifications was the most accurate, with a score of 0.4521.
(キーワード): multimodal / emoction recognition / dataset / online counseling

Kei Daizumoto, Naoka Osafune, Kohei Torii, Ryota Nishimura, Hisanori Uehara, Mitsuki Nishiyama, Saki Kobayashi, Yutaro Sasaki, Ryotaro Tomida, Yoshito Kusuhara, Tomoya Fukawa, Kunihisa Yamaguchi and Masayuki Takahashi :
Deep learning-based depth prediction system for upper tract urothelial carcinoma,
the 111th Annual Meeting of the Japanese Urological Association (JUA), PDA-36-05, Yokohama, Apr. 2024.

(キーワード): 医用画像 (medical image) / 深層学習 (deep learning)

Kei Daizumoto, Naoka Osafune, Kohei Torii, Ryota Nishimura, Hisanori Uehara, Mitsuki Nishiyama, Saki Kobayashi, Yutaro Sasaki, Ryotaro Tomida, Yoshiteru Ueno, Yoshito Kusuhara, Tomoya Fukawa, Kunihisa Yamaguchi, Yasuyo Yamamoto, Masayuki Takahashi and Junya Furukawa :
Development of pT classification prediction system in UTUC using deep-learning,
39th Annual European Association of Urology Congress, A0130, Paris, Apr. 2024. Koharu Horii, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa and Norihide Kitaoka :
Language modeling for spontaneous speech recognition based on disfluency labeling and generation of disfluent text,
2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 1851-1856, Taipei, Oct. 2023.

(出版サイトへのリンク): ● Publication site (DOI): 10.1109/APSIPAASC58517.2023.10317137
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/APSIPAASC58517.2023.10317137

(DOI: 10.1109/APSIPAASC58517.2023.10317137) Aito Nakata, Ryota Nishimura, Kengo Ohta and Norihide Kitaoka :
Development of a model for predicting timing of back-channel in a real-time spoken dialog system,
2023 IEEE 12th Global Conference on Consumer Electronics, GCCE 2023, 454-457, Nara, Oct. 2023.

(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE59613.2023.10315537
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE59613.2023.10315537

(DOI: 10.1109/GCCE59613.2023.10315537) Shohei Noguchi, Kazuyuki Matsumoto, Minoru Yoshida, Ryota Nishimura and Kenji Kita :
Extraction of keywords from disease-fighting blogs by fine-tuning the T5 model,
2022 6th International Conference on Natural Language Processing and Information Retrieval, Dec. 2022.

(要約): To measure lifestyle-related diseases such as heart disease and diabetes, which are on the increase, information on patients' lifestyles is necessary. With the growth of the Internet culture in recent years, a great deal of valuable information about patients' long fight against the disease, including lifestyle and condition changes, is now being written in the form of blogs and tweets. In this study, keywords related to changes in health status are extracted from "disease-fighting blogs" using Named Entity Recognition system, which is fine-tuned the "T5 Model", one of the latest deep learning and natural language processing models. This method can be applied to a system that informs patients and health care professionals how their lifestylehabits affect their health status.
(キーワード): disease-fighting blog / named entity recognition / T5

Junya Furutani, XIN KANG, Keita Kiuchi, Ryota Nishimura, Manabu Sasayama and Kazuyuki Matsumoto :
Learning a Bimodal Emotion Recognition System Based on Small Amount of Speech Data,
2022 8th International Conference on Systems and Informatics (ICSAI), 160-164, Kunming, China, Dec. 2022.

(要約): 本論文では，少量の音声データを用いて，音声とテキスト情報に基づくバイモーダル感情認識システムを提案する．具体的には，音声を音声とテキストに分割し，各モーダルに対する感情分類器を学習する．これらの感情分類器から得られた確率をメーラビアンの法則に基づいて重み付けし，各感情ごとに合計することで，最終的なバイモーダル感情認識のスコアを算出する．感情ラベルが付与された日本語音声データが少ないという問題を解決しつつ，高精度なシステムを構築するために，我々は新しいデータ補強法を提案し，事前学習されたVGG16モデルと微調整されたBERT(Bidirectional Encoder Representations from Transformers)モデルに基づく伝達学習アプローチをツイートに採用する．提案手法の有効性を証明するため，怒り，悲しみ，喜び，恐怖，驚き，嫌悪，中立の7つの感情状態に対する認識結果を明らかにした．その結果，提案手法によるデータ補強が精度を向上させ，音声とテキストに基づくバイモーダル予測が単一モデルによる予測よりも優れていることが示唆された．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ICSAI57119.2022.10005454
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85146960025

(DOI: 10.1109/ICSAI57119.2022.10005454, Elsevier: Scopus) Tomoki Kusunose, XIN KANG, Keita Kiuchi, Ryota Nishimura, Manabu Sasayama and Kazuyuki Matsumoto :
Facial Expression Emotion Recognition Based on Transfer Learning and Generative Model,
2022 8th International Conference on Systems and Informatics (ICSAI), 107-112, Kunming, China, Dec. 2022.

(要約): 表情感情認識は，人間と機械の自然な会話を支援する上で重要な役割を果たす研究テーマとして注目されている．しかし，このようなモデルを学習するためには，大量のラベル付き表情画像が必要であり，そのリソースは限られているのが現状である．この問題を解決するために，StyleGAN2を用いたデータ補強法を提案し，7つの感情に関する人工表情画像を生成し，追加学習データとして用いる．さらに，伝達学習によりVGG16ネットワークに基づく表情感情認識モデルを学習する．本研究では，伝達学習を用いた手法を提案し，学習したVGG16とStyleGAN2を用いて表情画像を拡張し，より高い認識精度を実現するための実験を行うことで，人種別表情感情認識を実現した．CFEEデータセットを用いた実験の結果，伝達学習により75.10%の感情認識精度を得ることができ，さらに表情画像を拡張することで82.04%まで精度が向上することが示唆された．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ICSAI57119.2022.10005478
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85146960739

(DOI: 10.1109/ICSAI57119.2022.10005478, Elsevier: Scopus) Meiko Fukuda, Masakazu Sugiyama, Ryota Nishimura and Norihide Kitaoka :
A Corpus-based Analysis of Age-related Changes in the Acoustic Features of Elderly to Super Elderly Speech,
The O-COCOSDA 2022, Hanoi, Vietnam, Nov. 2022.

(要約): 音声認識技術は，手先や視力の不自由な高齢者にとって，スマートフォンなどの操作ができる便利なモダリティですが，高齢になるにつれて音声認識精度は低下します．私たちは，EARS(Elderly Adults Read Speech)と呼ばれる80歳以上の発話者を多数含む日本語の高齢者音声コーパスを用いて，高齢者音声の認識精度を向上させる音響モデルを作成しています[1]．高齢者音声の音響的特徴は成人音声とは異なるが[2, 3]，高齢者音声と超高齢者音声の音響的特徴を比較した研究はそれほど多くない．本論文では，EARSコーパスとS-JNASコーパスの高齢者音声データを用いて，高齢者から超高齢者(60-98歳)までの話者の基本周波数(Fo)，フォルマント周波数，喉頭雑音，MFCC，母音の中心化における加齢変化を調べた．その結果，男女とも，母音/iのF1が増加しF2が減少すること，MFCCの平均値と標準偏差がある程度類似していること，シマーの平均値と標準偏差が加齢とともに減少することがわかった．一方，基本周波数，上記以外のフォルマント周波数，母音の中心化，その他のほとんどのMFCCでは，男性と女性の話者で異なる加齢に関連したダイナミクスが観察された．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/O-COCOSDA202257103.2022.9997946
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85146372335

(DOI: 10.1109/O-COCOSDA202257103.2022.9997946, Elsevier: Scopus) Mori Daiki, Ohta Kengo, Ryota Nishimura and Norihide Kitaoka :
Implicit language information replacing method in Japanese encoderdecode ASR model,
2022 9th International Conference on Advanced Informatics: Concepts, Theory and Applications (ICAICTA), Tokoname, Japan, Sep. 2022.

(要約): 近年の自動音声認識(ASR)タスクでは，ASRモデルの補助として言語モデルを用いることが多い．密度比アプローチ(DRA)は，いくつかの言語モデル統合手法の一つである．日本語はアルファベット言語に比べて文字数が非常に多く，同音異義語や同じ文字でも読み方にばらつきがあることが知られている．ビームサーチアルゴリズムを用いた文字ベースのエンコーダ・デコーダASRモデルの「暗黙の言語情報」が，外部言語モデルによって近似されるかどうかは不明であった．我々の実験では，日本語エンコーダ・デコーダASRモデルにDRAを適用し，クロスドメインシナリオにおける文字誤り率(CER)を削減した．日本語学術発表コーパス(APS)と日本語模擬発表コーパス(SPS)のクロスドメインCERを計算した．本手法は，RNNとTransformerモデルにおいて，浅い融合と比較して，11.0%と22.5%の相対誤差削減を達成した．また，異なる話し方の異なるドメインへの適用性を調べるため，CSJ ASRモデル内の「暗黙の言語情報」を毎日新聞言語モデルに置き換える実験を行った．JNASタスクにおいて，DRAはシャローフュージョン法と比較して7.3%の相対誤差削減を達成した．

Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa and Norihide Kitaoka :
End-to-End Spontaneous Speech Recognition Using Disfluency Labeling,
Proc. of Interspeech 2022, 4108-4112, Incheon, Korea, Sep. 2022.

(要約): 自動音声認識(ASR)においては，フィラーやためらいなど，流暢でない音響的特徴が含まれることが多い．本論文では，この問題に対処するために「不自由ラベリング」の手法を提案する．本手法は，学習用音声データ中の不連続現象をフィラー(#)とヘジテーション(@)の2種類のラベルに置き換え，このデータを用いてエンド・トゥ・エンドのASRモデルを学習することで，不連続な音響現象を文字のような認識対象として認識することを可能にする．また，認識結果に含まれる流暢でないラベルを除去することで，流暢でない音声から実際に発話者が意図した単語を抽出することができる．評価実験の結果，全てのASRテストセットにおいて，文字と文の誤り率が，ベースライン法に比べて，流暢さラベルを適用した場合に減少した．また，提案手法は，より流暢でない自然な対話音声を使用した場合でも，流暢さに関連する誤りを減らすことを目的とした他の手法を上回った．本研究は，フィラーとためらいという2つの流暢でない特徴を明示的に学習することが，自発的な音声認識に有効であることを示している．
(キーワード): end-to-end speech recognition / spontaneous speech / disfluency / filler / hesitation
(出版サイトへのリンク): ● Publication site (DOI): 10.21437/Interspeech.2022-281
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85140071471

(DOI: 10.21437/Interspeech.2022-281, Elsevier: Scopus) Naomichi Tabuchi, Kazuyuki Matsumoto, Minoru Yoshida, Ryota Nishimura and Kenji Kita :
Analysis of Lifestyle Habits from Weblogs of Patients with Intractable Diseases Using Deep Learning,
Proceedings of International Conference on Electrical, Computer and Energy Technologies (ICECET), Jul. 2022.

(要約): In recent years, patient-centered medicine has become widely accepted. To keep a record of their struggles,patients sometimes publish their diaries (disease blogs) on weblogs to be read by an unspecified number of people. In particular, writing a blog may be helpful in the case of intractable diseases of which there are few cases, and patients often feel isolated because they know few people with the same disease. In this study, we used deep learning technology to analyze the blogs written by patients with intractable diseasesand to determine how they live their daily lives and their feelings. If their lifestyles are understood, the relationship between the physical condition and mental changes of people fighting intractable diseases can be determined, and a system that shows behavioral guidelines for new users fighting similar intractable diseases can be built.
(キーワード): lifestyle habits / intractable disease / 深層学習 (deep learning)
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ICECET55527.2022.9872887
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85138876019

(DOI: 10.1109/ICECET55527.2022.9872887, Elsevier: Scopus) Meiko Fukuda, Ryota Nishimura, Maina Umezawa, Kazumasa Yamamoto, Yurie Iribe and Norihide Kitaoka :
Elderly Conversational Speech Corpus with Cognitive Impairment Test and Pilot Dementia Detection Experiment Using Acoustic Characteristics of Speech in Japanese Dialects,
Proceedings of the Thirteenth Language Resources and Evaluation Conference, 1016-1022, Marseille, France, Jun. 2022.

(要約): 認知症は早期診断・早期治療によって進行を遅らせることができることが多いため，患者に負担をかけずに認知症の初期徴候を発見する簡便な方法が求められている．いくつかの研究では，会話音声の音響情報と言語情報のみを診断材料として用いることが検討され，一定の成果を上げている．この研究を加速させるために，我々は，日本の4つの地域に住む128人の高齢者と面接者との自然な会話を録音し，面接者は認知障害検査であるHDS-R(Hasegawa's Dementia Scale-Revised)を実施した．本研究で得られた高齢者音声コーパスと認知症検査結果を用いて，方言が存在する場合でも会話音声の音響特徴量を用いて認知症を検出できるSVMベースのスクリーニング手法を提案する．これは，方言の違いによる悪影響を抑えるために，一部の音響特徴を省略することで実現する．提案手法を用いた場合，2地域の話者に対して約91%の認知症検出精度を達成した．2回目の実験では，4地域の音声を用いたところ，識別率は76.6%に低下したが，これは，2回目の実験では，前回のように文と音素レベルの特徴量を用いず，文レベルの音響特徴量のみを用いたためと考えられる．これは現在進行中の研究プロジェクトであり，これら4つの地域から収集された会話音声における音素単位の音響特性の違いを理解し，フォルマントやその他の特徴を除去することで認知症検出率を改善できるかどうかを判断するために，さらなる調査が必要である．
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85144420299

(Elsevier: Scopus) Naomichi Tabuchi, Kazuyuki Matsumoto, Minoru Yoshida, Ryota Nishimura and Kenji Kita :
Risk Analysis of Developing Lifestyle-related Diseases based on the Content of Social Networking Service Posts,
Innovation in Medicine and Healthcare, Part of the Smart Innovation, Systems and Technologies book series, Vol.308, 63-72, Jun. 2022.

(要約): Japans leading causes of death are cancer, cardiovascular disease, and diabetes, which account for approximately 60% of all deaths. All these diseases are closely related to lifestyle habits such as diet, exercise, and sleep and are called lifestyle-related diseases. Lifestyle-related diseases are characterized by a lack of subjective symptoms, making it difficult to notice the deterioration of the disease. In this study, we analyzed tweets related to diet, exercise, physical condition, and mental state from the contents posted by users on social networking services (SNS) to construct a system that can prevent lifestyle-related diseases more simply. We found that the results of this work can lead to the construction of a system than can detect risk factors leading to the development of lifestyle-related diseases, from the contents of users posts.
(キーワード): risk analysis / social networking service / lifestyhle-related diseases
(出版サイトへのリンク): ● Publication site (DOI): 10.1007/978-981-19-3440-7_6
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85135061563

(DOI: 10.1007/978-981-19-3440-7_6, Elsevier: Scopus) Horii Koharu, Meiko Fukuda, Ohta Kengo, Ryota Nishimura, Ogawa Atsunori and Norihide Kitaoka :
End-to-End Spontaneous Speech Recognition Using Hesitation Labeling,
Proceedings, APSIPA Annual Summit and Conference 2021, 1077-1081, Tokyo, Dec. 2021.

(要約): 自然発話は，音読と異なり，どもり，単語置換，フィラー語，繰り返しなどのためらいを含んでいることが多い．これらの付加的な発話は，自動音声認識(ASR)システムにとってノイズとなり，認識精度に悪影響を与える．本研究では，ラベル付けされたデータを用いてASRモデルを学習させることにより，日本語の自然発話に含まれるこれらの逡巡や余分な音節を認識できるEnd to End (E2E) ASR システムを提案する．本システムは，ラベル付けされたデータを用いてASRモデルを学習させ，音声認識時に躊躇音声を自動的にラベル付けし，無視することができる．実験では，すべての評価データセットにおいて，文字誤り率(CER)および文誤り率(SER)が，ベースラインASR手法と比較して改善することを確認した．また，実際の認識結果を見ると，ラベルが正しい位置に挿入されていることが確認され，ラベルの意味を正しく学習できていることが示唆された．さらに，ラベルの付いた発話をそこでの認識結果から削除することで，文法的に正しい目標文を得ることができました．
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85126651910

(Elsevier: Scopus) Mori Daiki, Ohta Kengo, Ryota Nishimura, Ogawa Atsunori and Norihide Kitaoka :
Advanced language model fusion method for encoder-decoder model in Japanese speech recognition,
Proceedings, APSIPA Annual Summit and Conference 2021, 503-510, Tokyo, Dec. 2021.

(要約): 日本語自動音声認識システムのエンコーダデコーダモデルに先進的な言語モデル融合手法を適用し，クロスドメインシナリオにおける文字誤り率(CER)の低減を図る．本手法は，ベイズの定理に基づく密度比のアプローチを用いており，音声認識と言語モデルのスコアを統合するために広く用いられているシャローフュージョンの拡張版である．日本語はアルファベット言語に比べて文字数が多く，同じ漢字でも複数の意味や読みが存在するため，文字ベースのエンドツーエンド音声認識内部の言語情報が言語モデルで近似されているかどうかが不明であった．そこで，RNNモデルとTransformerモデルの2種類のエンコーダ・デコーダを用いた実験を行い，日本語学術発表音声(APS)コーパスと日本語模擬発表音声(SPS)コーパスを用いてASRのテキスト出力におけるクロスドメインCERを計算することで評価しました．RNNモデルを用いた場合，提案手法はShallow Fusion手法と比較して1.2%のCERの減少を達成した．また，Transformerモデルを用いた場合，提案手法はShallow Fusion手法を0.7%下回るCERを達成することができました．
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85126661934

(Elsevier: Scopus) Zolzaya Byambadorj, Ryota Nishimura, Ayush Altangerel, Kengo Ohta and Norihide Kitaoka :
Multi-speaker TTS system for low-resource language using cross-lingual transfer learning and data augmentation,
Proceedings, APSIPA Annual Summit and Conference 2021, 849-853, Tokyo, Dec. 2021.

(要約): 低リソース言語において，ターゲット言語のデータがごくわずかしかない場合に使用する多人数話者音声合成システムを提案する．我々は，モデル学習時に高リソース言語のデータセットと拡張データを使用した場合の効果を調査し，モデルを微調整するための様々な戦略を比較する．低リソースTTSモデルの学習に，異言語間転移学習，少量の目標言語データ，拡張目標言語データの組み合わせを用いた後，オリジナルと拡張の目標言語データを用いて事前学習したモデルを微調整しました．実験の結果，高リソース言語データ，ターゲット言語データ，拡張ターゲット言語データを用いて順次モデルの学習を行い，その後，オリジナルと拡張ターゲット言語データを用いて徐々に微調整を行うことにより，テキストから音声への変換後に最も自然な音声を実現でき，0から5のスケールでネイティブスピーカー平均意見スコア3.50を達成することが出来ました．
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85126663888

(Elsevier: Scopus) Ryota Nishimura :
IEEE GCCE 2021 Tutorial "Research Life Hacks",
IEEE GCCE 2021, Osaka, Oct. 2021. Meiko Fukuda, Nishizaki Hiromitsu, Iribe Yurie, Ryota Nishimura and Norihide Kitaoka :
Improving Speech Recognition for the Elderly: A New Corpus of Elderly Japanese Speech and Investigation of Acoustic Modeling for Speech Recognition,
Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), 6578-6585, May 2020.

(要約): 日本のような高齢化社会では，高齢者向けの電子機器に使用するために高精度な音声認識システムが必要とされていますが，高齢者の発話の特性上，従来の音声認識システムではこのような精度は得られませんでした．日本では，日本語高齢者音声のコーパスであるS-JNASが音響モデリングに広く利用されているが，その話者の平均年齢は67.6歳である．現在，日本の平均寿命が84.2歳となっていることから，日本の4地域から収集した平均年齢79.2歳の話者221人の発話からなる音声コーパスを新たに構築しています．さらに，高齢者の発話に適した音響モデルの構築をさらに検討することで，先行研究(Fukuda, 2019)を拡張します．我々は新しい音響モデルを作成し，既存の日本語音声コーパス(JNAS, S-JNAS, CSJ)を組み合わせて訓練し，我々の「超高齢者」音声データの有無を調べ，音声認識実験を行う．新しい音響モデルの単語誤り率(WER)は13.38%と，高齢者音声に適応したCSJ音響モデルを用いた先行研究の結果(WER17.4%)を上回る結果を得ました．
(キーワード): 日本語音声コーパス / 高齢者 / 音響モデル
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85096619800

(Elsevier: Scopus) Jiahao Chen, Ryota Nishimura and Norihide Kitaoka :
E2E Streaming Speech Recognition Using CTC and Local Attention,
Proc. NCSP'20, 1-4, Feb. 2020. Obashi Yuya, Ryota Nishimura and Norihide Kitaoka :
Automatic Conversion of Written Language into Spoken Language Using a Sequence-to-Sequence Model Trained with a Parallel Corpus,
Proceedings of The 22nd Conference of the Oriental COCOSDA (Oriental-COCOSDA2019), 1-5, Sebu, Oct. 2019.

(要約): 本研究では，RNNをベースとしたシーケンスツーシーケンスモデルを用いて，日本語の書き言葉を日本語の話し言葉のテキスト表現に変換することを提案した．このプロセスを正確かつ効率的に行うことができれば，音声認識の精度を向上させるための大規模な音声言語テキストコーパスを作成することが可能になると考えられる．この並列コーパスを用いて，変換モデルを考案し，BCCWJコーパスを音声テキストに変換した．その結果，全体的には変換精度は高くなかったが，一部の短文は正確に変換されていた．また，文全体が正確に変換できなくても，変換された文には音声言語の統計量がよく表現されていた．このように，書き言葉を口語に変換して作成した口語コーパスを用いて学習した言語モデルが音声認識に有効であることが示された．しかし，訓練データ量が不足していたため，BCCWJコーパスの中の短い文の一部しか正確に変換できず，データの割合はわずかであった．このため，大規模な音声言語テキストデータのコーパスを作成することができなかった．そのため，長文も正しく変換できる方法を考案する必要がある．この問題を解決するために，我々は，このような問題を解決するために，注目機構を導入することを計画しています．

Meiko Fukuda, Ryota Nishimura, Nishizaki Hiromitsu, Iribe Yurie and Norihide Kitaoka :
A New Corpus of Elderly Japanese Speech for Acoustic Modeling, and a Preliminary Investigation of Dialect Dependent Speech Recognition,
Proceedings of The 22nd Conference of the Oriental COCOSDA (Oriental-COCOSDA2019), 1-6, Sebu, Oct. 2019.

(要約): 本研究では，高齢者の自動音声認識(ASR)の精度向上を目的として，日本人高齢者221名(平均年齢79.2歳)の発話からなる音声データコーパスを新たに構築した．ASRは，高齢者を含む視覚障害者や手の動きが制限されている人にとって有益なモダリティです．しかし，標準的な認識モデル，特に音響モデルを用いた音声認識システムでは，高齢者にとって満足のいく性能を得ることができませんでした．したがって，高齢者の音声認識を改善するためには，高齢者利用者の音声のより正確な音響モデルを作成することが不可欠である．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/O-COCOSDA46868.2019.9041216
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85083226710

(DOI: 10.1109/O-COCOSDA46868.2019.9041216, Elsevier: Scopus) Komatsu Akihisa, Ryota Nishimura and Norihide Kitaoka :
Environmental Sounds Recognition with Convolutional-LSTM,
2019 IEEE 8th Global Conference on Consumer Electronics, GCCE 2019, 717-719, Osaka, Oct. 2019.

(要約): 本論文では，AudioSetデータセットを用いて環境音を認識する課題に取り組んだ．具体的には，AudioSetの10秒音データをスペクトログラム変換して特徴量を抽出し，3層CNNと1層CLSTMを用いたニューラルネットワークによる学習を行い，LSTMモデルとの比較実験を行った．その結果，CLSTMはLSTMモデルよりも認識精度が52%から56%へと4ポイント向上し，環境音認識分野におけるCLSTMの有用性を実証した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE46687.2019.9015256
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE46687.2019.9015256

(DOI: 10.1109/GCCE46687.2019.9015256) Yamamoto Taiki, Ryota Nishimura, Misaki Masayuki and Norihide Kitaoka :
Small-Footprint MagicWord Detection Method Using Convolutional LSTM Neural Network,
Proc INTERSPEECH, Vol.2019-Septe, 2035-2039, Graz, Sep. 2019.

(要約): 音声で操作できる機器は年々増加しています．これらの機器をハンズフリーで操作するためには，連続した音声の中から起動キーワードを検出するマジックワード検出(MWD)が不可欠な技術となっています．MWDは常時動作させる必要があるため，小型化が求められていたが，本論文では，このような問題を解決するために，ハンズフリー化を実現するための技術を提案する．本論文では，LSTM(Long Short-Term Memory)ニューラルネットワークを用いて，周波数領域と時間領域の特徴を長時間にわたって捕捉することで，新しいスモールフットプリントMWD方式を提案する．その結果，提案手法は，パラメータ数を80%以上削減しながら，ベースライン手法を上回る性能を示した．本研究では，小型装置を用いた実験により，本手法が実時間で十分に機能することを実証した．
(キーワード): キーワードスポッティング / 畳み込みニューラルネットワーク / リカレントニューラルネットワーク / 畳み込みLSTM / スモールフットプリント
(出版サイトへのリンク): ● Publication site (DOI): 10.21437/Interspeech.2019-1662
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.21437/Interspeech.2019-1662

(DOI: 10.21437/Interspeech.2019-1662) Takahiro Uchiya, Ryota Nishimura, Takahiro Hirano and Masaru Sakurai :
Design of Reminiscence Therapy System for Elderly People with Dementia,
Advances on Broad-Band Wireless Computing, Communication and Applications: Proceedings of the 12th International Conference on Broad-Band Wireless Computing, Communication and Applications (BWCCA-2017), 844-853, Nov. 2018.

(要約): 近年，認知症患者の数が増加し，介護者の負担が増大している．しかし，認知症の治療法は確立されておらず，その進行を制御することが治療の目的となっている．認知症の進行を抑制する1つの手段として，介護者と認知症患者との対話による回想法を使用する．しかし，この方法では，介護者は何度も対話を行う必要があり，介護者にとって負担となるため，介護者の代わりにMMDAgentという音声対話システムを用いて回想法対話の支援を行う方法を提案する．これによって，介護者の負担が軽減される．本稿では，提案されたシステムの設計を示す．

Seto Eichi, Ryota Nishimura and Norihide Kitaoka :
Customization of an example-based dialog system with user data and distributed word representations,
APSIPA ASC 2018, No.8659459, 1718-1724, Nov. 2018.

(要約): 事例ベースの音声対話システムにおいて，限られた事例を，ユーザ固有の適切な事例に自動変換することにより，音声対話システムをユーザに適応する．ユーザのプロフィール情報からWeb検索によって得られた関連語を事例の単語と置き換える方法でユーザ適応を可能にした．
(出版サイトへのリンク): ● Publication site (DOI): 10.23919/APSIPA.2018.8659459
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85063450866

(DOI: 10.23919/APSIPA.2018.8659459, Elsevier: Scopus) Kanta Kiyohara, Ryota Nishimura and Norihide Kitaoka :
Multi-modal Geometry Tutoring System Using Speech and Touchscreen Figure Tracing,
2018 IEEE 7th Global Conference on Consumer Electronics, GCCE2018, 252-256, Nara, Oct. 2018.

(要約): 人に対して数学の幾何問題の解答を説明する際には，一般に指差しで図をなぞったりしながら口頭で解説をする．この指と音声のマルチモーダル入力を受け付けて，幾何問題の解答を画面上に表示する幾何問題教育システムを開発した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2018.8574714
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85060307292

(DOI: 10.1109/GCCE.2018.8574714, Elsevier: Scopus) Meiko Fukuda, Ryota Nishimura, Hiromitsu Nishizaki and Norihide Kitaoka :
Construction of a Corpus for Elderly Japanese Speech Recognition,
2018 IEEE 7th Global Conference on Consumer Electronics GCCE2018, 259-262, Nara, Oct. 2018.

(要約): 情報弱者となる可能性の高い高齢者にとって，音声インタフェースは重要な役割を果たす可能性がある．高齢者にとって性能の高い音声認識器を作るためには高齢者の音声データを収集することが不可欠である．そこで100名以上の平均年齢80歳を超える高齢者の音声を収集してデータベース化した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2018.8574795
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85060293760

(DOI: 10.1109/GCCE.2018.8574795, Elsevier: Scopus) Ryota Nishimura, Miho Higaki and Norihide Kitaoka :
Mapping Acoustic Vector Space and Document Vector Space by RNN-LSTM,
2018 IEEE 7th Global Conference on Consumer Electronics, GCCE2018, 698-699, Nara, Oct. 2018.

(要約): 音楽の音響データと歌詞のデータをニューラルネットワークによって対応付ける．音響データをクロマベクトル系列にしてLSTMでベクトルに変換する．その変換先が歌詞ベクトル(Word2vecによる歌詞中の単語のベクトル化したものの平均)になるように学習し，対応付け可能であることを示した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2018.8574867
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85060288222

(DOI: 10.1109/GCCE.2018.8574867, Elsevier: Scopus) Kajinami Kazuaki, Ryota Nishimura and Norihide Kitaoka :
Construction of dialog database for development of spoken dialog breakdown detection methods,
ICAICTA-2018, 91-95, Aug. 2018.

(要約): 対話システムにおいて，システムが対話破綻を招く発話をすることを自ら発見すれば対話破綻を回避したりすることができる．音声対話において対話破綻検出器を構築するために，音声対話データベースを構築した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ICAICTA.2018.8541273
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85059958707

(DOI: 10.1109/ICAICTA.2018.8541273, Elsevier: Scopus) Norihide Kitaoka, Nakagawa Takuma, Ryota Nishimura, Ishiguro Yoshio, Kojima Shin'ichi and Ohsuga Shin :
A multimodal control system for autonomous vehicles using speech, gesture, and gaze recognition,
DSP in vehicles 2018, 2018.

(要約): 音声，ジェスチャ，視線認識を用いた自動運転車のためのマルチモーダルコントロールシステムであり，実際にシステムを構築し，自動運転車に搭載した．また，システムについては，実験用にタクシーに搭載し，タクシー運転手を自動運転車システムに見立てて，被験者実験を行い，自動運転車制御に必要なマルチモーダル理解についての知見を得た．

Kengo Ohta, Rikito Marumoto, Ryota Nishimura and Norihide Kitaoka :
Selecting Type of Response for Chat-like Spoken Dialogue Systems Based on Acoustic Features of User Utterances,
Proceedings of APSIPA Annual Summit and Conference 2017, No.December, 1-5, Kuala Lumpur, Dec. 2017.

(要約): 本稿では，ユーザ発話から得られた音響特徴を使用して，相槌応答，話題の変更，または話題の拡張などの音声対話システムにおける応答のタイプを選択する．これらの特徴には，MFCCとLSPによるスペクトル情報，F0で表されるピッチ情報，ラウドネスなどが含まれる．高齢者と面接者の対話コーパスを構築し，評価実験の結果，音声セグメント識別タスクで49.3%の精度を得られた．さらに，各素性のデルタ係数を利用することでさらに結果が改善された．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/APSIPA.2017.8282230
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85050499738

(DOI: 10.1109/APSIPA.2017.8282230, Elsevier: Scopus) Ryota Nishimura, Takahiro Uchiya, Takahiro Hirano and Masaru Sakurai :
Proposal of Reminiscence Therapy System using Spoken Dialog to Suppress Dementia,
2017 IEEE 6th Global Conference on Consumer Electronics, GCCE 2017, 418-419, Nagoya, Oct. 2017.

(要約): 近年，認知症患者の数が増加している．介護者の負担も増えている．しかし，認知症の確立された治療法は存在しない．認知症の進行を抑制することは，認知症治療の重要な目標である．回想法は，認知症の進行を抑制する1つの手段である．回想法では，介護者が認知症患者と話をすることが必要であるが，何回も繰り返し会話を行う必要があり，介護者の負担は大きい．そこで，本研究では，MMDAgentを用いた回想支援システムを提案する．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2017.8229394
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85045726578

(DOI: 10.1109/GCCE.2017.8229394, Elsevier: Scopus) Takuma Nakagawa, Ryota Nishimura, Yurie Iribe, Yoshio Ishiguro, Shin Ohsuga and Norihide Kitaoka :
A Human Machine Interface Framework for Autonomous Vehicle Control,
2017 IEEE 6th Global Conference on Consumer Electronics, GCCE 2017, 413-415, Nagoya, Oct. 2017.

(要約): 本研究では，自動運転車とのコミュニケーションのために，音声，ジェスチャー，および視線認識を使用した直感的なマルチモーダルインターフェースシステムを開発する．有限状態トランスデューサを用いて，インタフェースシステムのマルチモーダル理解コンポーネントと対話制御コンポーネントを別々に設計した．実装に関しては，従来の対話システムは，入力としてのユーザ動作と出力としてのシステム動作とを有する有限状態変換器によって制御されているが，我々のマルチモーダル理解部と対話制御コンポーネントは，2つの別々のトランスデューサの重ね合わせとして見ることができる．カスケード変換器は，1つの変換器で構成することができる．我々のシステムは自律型自動車シミュレータでシミュレータ上の車を操作することができる．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2017.8229312
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85045760877

(DOI: 10.1109/GCCE.2017.8229312, Elsevier: Scopus) Takahiro Uchiya, Satoshi Otake, Ryota Nishimura, Daisuke Yamamoto and Ichi Takumi :
Extraction of User Preferences based on Voice Interaction,
2017 IEEE 6th Global Conference on Consumer Electronics, GCCE 2017, 416-417, Nagoya, Oct. 2017.

(要約): 名古屋工業大学の研究グループは，音声対話ツールキットとして「MMDAgent」を開発している．システム開発者は，MMDAgentを使用して，さまざまな音声対話コンテンツを作成できる．開発者が音声対話のコンテンツを作成する際には，ユーザーのニーズを考慮することが重要であるので，ユーザの嗜好情報を引き出す手法が必要である．本稿では，音声対話からユーザの嗜好情報を抽出する手法を提案する．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2017.8229370
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-85045757721

(DOI: 10.1109/GCCE.2017.8229370, Elsevier: Scopus) Takeshi Morita, Yu Sugawara, Ryota Nishimura and Takahira Yamaguchi :
Implementing customer reception service in robot cafe using stream reasoning and ROS based on PRINTEPS,
CEUR Workshop Proceedings, Vol.1960, 1-4, Kobe, Oct. 2016.

(要約): 我々は，実践知能アプリケーション開発プラットフォームであるPRINTEPSを開発した．本稿では，PRINTEPSに基づいたストリーム推論とロボットオペレーティングシステム(ROS)を用い，知識処理とイメージセンシングを統合することで，ロボットカフェにおける顧客受付サービスのPRINTEPSの応用を紹介する．このプラットフォームに基づいて，我々は，適用可能なルールセットを変更することによって，ロボットカフェ内のロボットの挙動を修正できることを実証する．

Ryota Nishimura, Yutaka Takase and Yukiko Nakano :
Development environment of a spoken dialogue system based on PRINTEPS,
2016 IEEE 5th Global Conference on Consumer Electronics, 272-273, Kyoto, Oct. 2016.

(要約): 本稿では，PRINTEPSアーキテクチャに基づく音声対話システムについて述べる．この音声対話システムは，5つのモジュール(音声認識，言語理解，対話管理，応答生成，音声合成)で構成されている． PRINTEPSでは，音声対話システムを呼び出すとき，システム開発者は小規模の対話目標を指定する．システムは，ユーザから必要な情報を得るために，ユーザとの対話を実行する．対話目標に対応する対話処理ルールは予め用意されている． PRINTEPSベースのシステム開発の利点は，システム開発者が音声対話システムを知らなくても音声対話システムを構築できることである．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2016.7800412
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2016.7800412

(DOI: 10.1109/GCCE.2016.7800412) Ryuhei Kani, Takahiro Uchiya, Daisuke Yamamoto, Ichi Takumi and Ryota Nishimura :
Proposal of the communication mechanism among voice-interactive digital signage systems,
2016 IEEE 5th Global Conference on Consumer Electronics, 1-2, Kyoto, Oct. 2016.

(要約): 2011年より，筆者らは名古屋工業大学のユーザーに有用な大学情報を提供するために，スタンドアロンの音声対話型デジタルサイネージシステムを開発し，実際に設置・運用した．このシステムには， "Mei"という名前の3次元キャラクターとの音声対話を実現するソフトウェアツールキットであるMMDAgentが含まれる．欠点として，ネットワーク通信機能がないために，このシステムの能力が限られる．本研究では，いくつかのデジタルサイネージシステム間のネットワーク通信機能を新たに実装した．この機能により，情報共有や他の手段による複数の看板システムの共同作業が可能になる．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2016.7800468
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2016.7800468

(DOI: 10.1109/GCCE.2016.7800468) Yuto Ishida, Takahiro Uchiya, Kouhei Yamamoto, Daisuke Yamamoto, Ryota Nishimura and Ichi Takumi :
Related Word Recommendation Mechanism for Speech Dialogue System,
2016 19th International Conference on Network-Based Information Systems (NBiS), 464-468, Ostrava, Czech Republic, Sep. 2016.

(要約): 近年，音声対話システムが著しく発展している．我々の大学では， "MMDAgent"音声対話システムツールキットをオープンソースソフトウェアとして開発し公開している． MMDAgentは，音声認識と音声合成に "Julius"と "HTS"を使用する．そのエージェントは，これらを3D CGレンダリングモジュールと組み合わせて構成する． MMDAgentアプリケーションの一例として，「スマートメイちゃん」が開発され，スマートフォンに移植されている．「スマートメイちゃん」は，音声対話システムとして非常に高性能であるとはいえ，ユーザーの視点から考えると未解決の難しさが残っている．初心者ユーザは何を話すのか分からない．魅力的な会話を誘導するために，「スマートメイちゃん」に関連する単語推薦機構を開発する．それによって，初心者のユーザーには，良い会話ができるトピックが提示される．我々は．会話のための推薦語を用いたシステムの有効性を検証した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/NBiS.2016.53
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/NBiS.2016.53

(DOI: 10.1109/NBiS.2016.53) Takeshi Morita, Yu Sugawara, Ryota Nishimura and Takahira Yamaguchi :
Integrating Symbols and Signals Based on Stream Reasoning and ROS,
Knowledge Management and Acquisition for Intelligent Systems, Vol.9806, 251-260, Phuket, Thailand, Aug. 2016.

(要約): 実践的知能アプリケーション開発プラットフォームであるPRINTEPS(PRactical INTElligent aPplicationS)を開発した．本稿では，ストリーム推論とROS(Robot Operating System)を用いたイベント検出のためのPRINTEPSの応用と，知識処理による画像センシングの統合について述べる．このプラットフォームにおいて，我々はロボットカフェ内のロボットの動作をデモンストレーションし，ルールセットを変更することによって簡単にロボットカフェを実現・適用できることを示す．
(キーワード): ROS / Stream Reasoning / PRINTEPS / Ontology

Takahiro Uchiya, Ryosuke Nakano, Daisuke Yamamoto, Ryota Nishimura and Ichi Takumi :
Extension with Intelligent Agents for the Spoken Dialogue System for Smartphones,
2015 IEEE 4th Global Conference on Consumer Electronics (GCCE), 281-282, Osaka, Oct. 2015.

(要約): 我々は，音声対話システム開発ツールキットであるMMDAgentを開発・公開している．このシステムで開発できる音声対話システムをスマートフォンに対応させ，スマートフォン上で音声対話シナリオを構築する際に，複雑なシナリオを構築することは難しいので，本研究ではこの問題を解決するために，スマートフォン用音声対話システムをソフトウェアエージェントによって拡張することを提案する．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2015.7398666
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2015.7398666

(DOI: 10.1109/GCCE.2015.7398666) Yuichi Matsushita, Takahiro Uchiya, Ryota Nishimura, Daisuke Yamamoto and Ichi Takumi :
Experiment and Evaluation of Crowdsourcing Model for Creation of Voice Interaction Scenario,
2015 IEEE 4th Global Conference on Consumer Electronics (GCCE), 304-305, Osaka, Oct. 2015.

(要約): 本研究では，我々が公開している音声対話システムツールキットであるMMDAgentを使用して音声対話システムを構築する場合の，音声対話シナリオの構築方法を提案します．本研究では，クラウドソーシングを用いて，音声対話を構築・収集するために，音声対話システムをインターネットを介して配布する方法や，対話シナリオを編集するためのwebアプリケーションのテスト動作の結果を示す．提案システムを用いることにより，音声対話コンテンツ作成環境を簡単に構築できる．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2015.7398647
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2015.7398647

(DOI: 10.1109/GCCE.2015.7398647) Yuichi Matsushita, Takahiro Uchiya, Ryota Nishimura, Daisuke Yamamoto and Ichi Takumi :
Crowdsourcing Environment to Create Voice Interaction Scenario of Spoken Dialogue System,
2015 18th International Conference on Network-Based Information Systems (NBiS), 499-504, Taipei, Sep. 2015.

(要約): 本研究では，我々が公開している音声対話システムツールキットであるMMDAgentを使用して音声対話システムを構築する場合の，音声対話シナリオの構築方法を提案します．本研究では，クラウドソーシングを用いて，音声対話を構築・収集するために，音声対話システムをインターネットを介して配布する方法や，対話シナリオを編集するためのwebアプリケーションのテスト動作の結果を示す．提案システムを用いることにより，音声対話コンテンツ作成環境を簡単に構築できる．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/NBiS.2015.74
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/NBiS.2015.74

(DOI: 10.1109/NBiS.2015.74) Ryota Nishimura, Takahiro Uchiya, Daisuke Yamamoto and Ichi Takumi :
Development of a dialogue scenario editor on a web browser for a spoken dialogue system,
the second international conference on Human-agent interaction (HAI '14), 129-132, Tsukuba, Oct. 2014.

(要約): 我々は，音声対話システムの対話シナリオを作成する際の環境の改善を図るために，音声対話シナリオエディタを開発した．我々が開発・公開している音声対話システム構築ツールキットであるMMDAgentは，様々なプラットフォーム・OS上で動作するが，これに合わせて，シナリオエディタも様々な環境で動作させる必要がある．そこで，我々は，音声対話シナリオエディタをウェブブラウザ上に実装した．このシステムを用いて被験者実験を行ったところ，対話シナリオ編集時の可読性が向上し，シナリオ編集のしやすさも向上した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1145/2658861.2658904
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1145/2658861.2658904

(DOI: 10.1145/2658861.2658904) Daisuke Yamamoto, Keiichiro Oura, Ryota Nishimura, Takahiro Uchiya, Akinobu Lee, Ichi Takumi and Tokuda Keiichi :
Voice interaction system with 3D-CG virtual agent for stand-alone smartphones,
the second international conference on Human-agent interaction (HAI '14), 323-330, Tsukuba, Oct. 2014.

(要約): 本稿では，スタンドアロンのスマートフォンに3D-CGバーチャルエージェントを用いた音声対話システムを提案する．提案システムは既存のモバイル用音声対話システムとは異なり，スタンドアロンのスマートフォンで音声認識や音声合成を行うことができるため，遅延なく自然に会話することができる．さらに，提案システムは，対話スクリプト，Javaベースのプラグイン，およびAndroid APIによってカスタマイズすることができる．したがって，音声対話システム開発者は提案されたシステムに基づいて簡単にスマートフォン用の元の音声対話システムを作成することができる．我々は，提案システムのサブセットをオープンソースソフトウェアとして利用可能にした．このシステムは，スマートフォンを使用した人間とエージェントの対話の研究に貢献することが期待される．
(出版サイトへのリンク): ● Publication site (DOI): 10.1145/2658861.2658874
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1145/2658861.2658874

(DOI: 10.1145/2658861.2658874) Ryota Nishimura, Koji Sugioka, Daisuke Yamamoto, Takahiro Uchiya and Ichi Takumi :
A VoIP-based voice interaction system for a virtual telephone operator using video calls,
2014 IEEE 3rd Global Conference on Consumer Electronics (GCCE), 529-532, Tokyo, Oct. 2014.

(要約): 我々は，電話オペレータシステム音声対話システムを提案する． Microsoft LyncをVoIPクライアントとして使用して，ビデオ通話を行う．音声対話システムは，3Dキャラクタを表示し，ビデオ通話を通じてユーザと対話するためにシステムで使用される．この研究では，電話オペレータのインタラクティブなシナリオが大学の従業員データベースから自動的に生成される．このシステムを使用した被験者からの実験結果は，良好なシステム性能を示した．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2014.7031317
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2014.7031317

(DOI: 10.1109/GCCE.2014.7031317) Yuichi Matsushita, Takahiro Uchiya, Ryota Nishimura, Daisuke Yamamoto and Ichi Takumi :
Construction of crowdsourcing environment for creation of voice interaction scenario,
2014 IEEE 3rd Global Conference on Consumer Electronics (GCCE), 689-690, Tokyo, Oct. 2014.

(要約): 本研究では，我々が公開している音声対話システムツールキットであるMMDAgentを使用して音声対話システムを構築する場合の，音声対話シナリオの構築方法を提案します．本研究では，クラウドソーシングを用いて，音声対話を構築・収集するために，音声対話システムをインターネットを介して配布する方法や，対話シナリオを編集するためのwebアプリケーションのテスト動作の結果を示す．提案システムを用いることにより，音声対話コンテンツ作成環境を簡単に構築できる．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/GCCE.2014.7031156
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/GCCE.2014.7031156

(DOI: 10.1109/GCCE.2014.7031156) Takahiro Uchiya, Daisuke Yamamoto, Ryota Nishimura, Ichi Takumi and Tetsuo Kinoshita :
Proposal of voice control-based interactive design method of agent system,
2014 IEEE 13th International Conference on Cognitive Informatics & Cognitive Computing (ICCI*CC), 496-500, London, Aug. 2014.

(要約): エージェントシステムは近年のエージェント技術を用いてデザイン・実装されている．しかし，これらのデザインや実装はまだ困難である．エージェントシステムのデザイン・開発をスムーズに行うために，我々は，音声コントロールベースの対話デザイン手法を提案し，これをエージェントリポジトリベースのマルチエージェントフレームワークに適用します．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ICCI-CC.2014.6921505
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/ICCI-CC.2014.6921505

(DOI: 10.1109/ICCI-CC.2014.6921505) Yuki Todo, Ryota Nishimura, Kazumasa Yamamoto and Seiichi Nakagawa :
Development and evaluation of spoken dialog systems with one or two agents through two domains,
Text, Speech, and Dialogue, Vol.8082 LNAI, 185-192, Berlin Heidelberg, Sep. 2013.

(要約): 現存する音声対話システムの殆どは，ユーザとシステムが一対一の対話を扱っている．一方，我々は，多人数対話に注目し，複数のエージェント対1ユーザの対話を対象とする．我々は3者対話システムを構築し，二者対話との比較を行った．話題は，「うどんとラーメンのどちらが好きか」と「北海道と沖縄のどちらに旅行に行きたいか」である．実験の結果，三者対話システムがより活発に対話でき，ユーザがより雑談的に対話できることがわかった．
(キーワード): 音声対話システム / 多人数対話 / 二人のエージェント / 雑談
(出版サイトへのリンク): ● Publication site (DOI): 10.1007/978-3-642-40585-3_24
(文献検索サイトへのリンク): ● Summary page in Scopus @ Elsevier: 2-s2.0-84884966427

(DOI: 10.1007/978-3-642-40585-3_24, Elsevier: Scopus) Yuki Todo, Ryota Nishimura, Kazumasa Yamamoto and Seiichi Nakagawa :
Development and evaluation of spoken dialog systems with one or two agents,
14th Annual Conference of the International Speech Communication Association (INTERSPEECH-2013), 1896-1900-, Lyon, Aug. 2013.

(要約): 現存する音声対話システムのほとんどは，ユーザとシステムが一対一の対話である．我々は，多人数対話に興味があり，本研究では，エージェント側を一人または二人にすることで，最大3人対話を行うことができる音声対話システムを開発した．このシステムを用いて，被験者実験を行い，三者対話によって対話感が向上した．

Ryota Nishimura, Yuki Todo, Kazumasa Yamamoto and Seiichi Nakagawa :
Chat-like Spoken Dialog System for a Multi-party Dialog Incorporating Two Agents and a User,
The 1st International Conference on Human-Agent Interaction (iHAI 2013), Vol.II-p13, 1-8, Sapporo, Aug. 2013.

(要約): 現存する音声対話システムは，一対一対話のものがほとんどであるが，我々は，ユーザ一人に対してシステムが二人存在する，三者対話を行う音声対話システムを開発した．このシステムは，ユーザとシステムの二者対話を行うシステムを簡単に拡張したものである．被験者実験の結果，三者対話システムはより良い対話感をユーザに与え，より雑談らしく対話がおこなえるという評価を得た．

Ryota Nishimura and Seiichi Nakagawa :
Response timing generation and response type selection for a spontaneous spoken dialog system,
2009 IEEE Workshop on Automatic Speech Recognition Understanding, 462-467, Merano, Italy, Dec. 2009.

(要約): もし音声対話システムが人間と同じように自然な応答を返すことができれば，対話をより自然に行うことができる．本研究では，我々は，雑談中の人間の対話行動を模倣する音声対話システムを開発した．このシステムでは，応答の種類として相槌，復唱，共同補完などを行うことができる．また応答タイミングは，オーバーラップやバージインなどを行うことが可能である．被験者実験を行った結果，本システムを用いることで，被験者は音声対話システムに対して親しみを感じていることが示された．
(出版サイトへのリンク): ● Publication site (DOI): 10.1109/ASRU.2009.5372898
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.1109/ASRU.2009.5372898

(DOI: 10.1109/ASRU.2009.5372898) Toshihiko Itoh, Norihide Kitaoka and Ryota Nishimura :
Subjective experiments on influence of response timing in spoken dialogues,
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2009, 1835-1838, Brighton, Sep. 2009.

(要約): これまでの研究からの対話リズムに関する分析結果の妥当性を検証するため，応答タイミングや他の対話に関する分析結果をもとに対話を作成し，対話の自然性，対話の自然性，合成音声，および発声の理解の容易さを含を検証するために被験者実験を行った．実験の結果，発話には自然な応答タイミングが存在し，発話内容に応じて適切な応答タイミングが存在していることが示された．

Ryota Nishimura, Norihide Kitaoka and Seiichi Nakagawa :
Analysis of relationship between impression of human-to-human conversations and prosodic change and its modeling,
9th Annual Conference of the International Speech Communication Association (INTERSPEECH-2008), 534-537, Brisbane, Sep. 2008.

(要約): もし音声対話システムが人間同士の対話のように自然に応答を返すことができれば，対話はよりスムースになる．人間が対話中に行う韻律制御を音声対話システムに実現させるために，我々は人間同士の対話中に起こる韻律変化と，その対話の印象との関係を分析した．また，この分析結果を元に，韻律制御モデルを構築し，音声対話システムに実装した．

Ryota Nishimura, Norihide Kitaoka and Seiichi Nakagawa :
A spoken dialog system for chat-like conversations considering response timing,
Text, Speech, and Dialogue, 599-606, Sep. 2007.

(要約): 対話システムが人間のように自然にユーザに応答できればインタラクションはより円滑になる．本研究では人間の雑談中の振る舞いを模擬する音声対話システムを開発することを目的とする．決定木を用いて雑談のような応答内容とタイミングを生成する対話システムを開発した．「共同補完」「相槌」などができる．ピッチやパワーの軌跡，認識仮説，応答準備状況を素性とした決定木が毎時刻応答タイミングを生成する．

Ryota Nishimura, Norihide Kitaoka and Seiichi Nakagawa :
Prosody change and response timing analysis in spontaneously spoken dialogs and their modeling in a spoken dialog system,
8th Annual Conference of the International Speech Communication Association (INTERSPEECH-2007), 2565-2568, Antwerp, Belgium, Aug. 2007.

(要約): 対話システムが人間のように自然な応答ができれば，対話はよりスムーズになる．人間の音声のの韻律的な振る舞いを模倣することは，コンピュータと人間との自然な会話の実現おいて重要である．本論文では，協調的で友好的な音声対話システムを開発するために，人間同士の対話においてF0の同期傾向や「盛り上がり」，「親しみ」などの主観的指標について分析した．また，これらの特徴をモデル化し，相槌の応答タイミングを生成するモデルを構築し音声対話システムに実装した．

伊達龍斗, 西村良太, 太田健吾, 北岡教英 :
深層学習による口唇情報を用いた音声認識の多様なノイズタイプにおける評価,
日本音響学会研究発表会講演論文集, No.1-Q-34, 1-4, 2024年9月.

(要約): 近年, 音声認識技術の発達により，深層学習モデルを使用した音声認識の精度が向上し，これらを用いたシステムが普及してきている．しかし，実環境では音声信号に雑音が入ることが多く，認識精度が大きく低下する．そのため，実用的なシステムを開発する際には対雑音性をどのようにして高めるのかが課題となる．対雑音性を高める手段としてはマルチモーダル音声認識がある．人間の場合，聴覚や視覚，触覚といった感覚を通じて情報を伝達しており，これらの手段のことをモダリティと呼ぶ．これらのモダリティを使い分けたり同時に使うことにより情報を伝達している状態をマルチモーダルな状態と呼ぶ[1]．雑音環境下では，音声情報のみの場合は雑音の影響を受けやすく，認識精度が低下する可能性があるが，口唇情報などの視覚情報は雑音の影響を受けないため，これを併用することで冗長性により誤認識の訂正や補完が可能となり，より頑健な音声認識が可能となる．本研究では，NTCD-TIMIT データセット[2] を使用して実験を行った．評価にはphone error rate (PER) を使用し，様々なノイズ条件での認識率を比較した．また，口唇情報を使用した際に，音声のみを使用した場合と比較して，どの音素で認識率が改善されたかについても評価を行った．

金井良賢, 若林佑幸, 西村良太, 北岡教英 :
wav2vec 2.0 による言語特徴を考慮した音声対話システムへの入力発話の終了時間推定,
日本音響学会研究発表会講演論文集, No.2-Q-50, 1-2, 2024年9月.

(要約): 音声対話システムで人同士が行うような自然な会話を実現するためには，相手の発話終了からシステムが応答するまでの時間を短くする必要がある．そのため，発話終了時にシステムがユーザから発話権を取得するのか，ユーザがそのまま話し続けるのかを判断する話者交替予測が広く研究されており[1, 2, 3, 4]，スムーズなシステムの応答が実現しつつある．しかし，人同士の会話は，あえて大きな間を空けて応答したり，オーバーラップを駆使して食い気味に応答したりと，応答するタイミングを見計らいながら行われる．そのため，より人間らしい対話を実現するには，事前に相手の発話が終了するタイミングを予測し，応答を制御する必要があると考える．そこで，我々は従来手法のように発話終了時に発話権が取得可能かを推定するのではなく，音声対話システムに入力された発話がいつ終了するかを事前に推定する手法を提案している[5]．本研究では，音声認識用に Fine-tuning (FT) を行ったwav2vec 2.0 を用いて音響特徴だけでなく，言語特徴を考慮して実験を行い，発話終了までの時間予測精度の向上を達成した．

杉山雅和, 西村良太, 太田健吾, 北岡教英 :
音響的特徴に基づくターンテイキング予測,
日本音響学会研究発表会講演論文集, No.2-Q-48, 1-4, 2024年9月.

(要約): より高速な判定のため，音響的特徴のみを用いたターンテイキング予測モデルを提案した．音響的特徴のみを用いることで音声認識待ちを省略し，発話終了から判定開始までの時間を短縮した．事前学習モデルの変更やマルチタスク学習等いくつかのモデル構成で実験を行ったが精度はいずれも75%ほどであった．今後はモデルへ入力する音声長やモデル構成を見直しより高速なターンテイキング予測を行うとともにその精度向上も目指したい．

早道広峻, 松本和幸, 西村良太, 吉田稔 :
雑談機能の追加による対話ロボットを用いた健康維持支援システムの改良,
第38回人工知能学会全国大会予稿集, 1-4, 2024年5月.

(要約): 対話型ロボットを用いて対話内容を解析し，生活習慣改善を提案するWebアプリケーションを活用し，生活習慣の改善を支援するシステムの開発を行っている．このシステムを用いて実際に生活習慣を収集・分析し，機能やUIの課題を分析してシステムの評価を行った．分析結果をもとに，より効果的なシステムへの改善を目指す．本稿では主に，チャット対話機能の追加とユーザー応答分析の改善について説明する．チャットによる対話を通じてユーザーにシステムへの興味を喚起し，システムの継続利用を促し，生活習慣の改善への動機付けを図るのが狙いである．また，GPT-3.5を利用したユーザー回答の分析により，ユーザー回答のYes/No判定の精度が向上することを確認した．
(キーワード): communication robot / health management system / chat dialogue / 音声認識 (speech recognition)

高鍋俊樹, 松本和幸, 木内敬太, 康鑫, 西村良太, 篠山学 :
感情分析のためのカウンセリングマルチモーダルデータセットの構築および評価,
情報処理学会全国大会講演論文集, 4-83-4-84, 2024年3月.

(要約): コロナ禍をきっかけとして，オンラインカウンセリングが急激に普及した．オンラインカウンセリングは，細かな表情や声色の変化の認識が難しいことが問題点として挙げられる．カウンセラーの判断を助け，業務効率化のために，クライアントの感情の自動分析が有効である．人間は相手の感情を読み取るとき，声色，表情，発話内容など複数の要素から総合的に判断を行っている．AIによる感情推定も同様に，複数の異なるモダリティを組み合わせて用いるマルチモーダル感情推定により，高精度な感情分析が可能になると考えられる．マルチモーダル感情推定には，学習用データとして，感情のラベルが付与されたマルチモーダルデータセットが必要となる．本研究では，オンラインカウンセリング中のクライアントの感情分析のためのマルチモーダルデータセットを構築し，その評価を行う．本データセットには，カウンセラーによる労務者を対象としたオンラインカウンセリングにおける労務者の様子を収録した動画と，第三者により付与された客観感情ラベルが含まれている．
(キーワード): マルチモーダル感情分析 / カウンセリング面談 / フライスのカッパ係数 / ラッセルの円環モデル / オンラインカウンセリング

福永善理, 西村良太, 太田健吾, 北岡教英 :
深層学習を用いた自然な音声対話システムのための相槌表層選択モデルの構築,
日本音響学会研究発表会講演論文集, No.2-P-4, 949-952, 2024年3月.

(要約): 本論文では, BERT を用いて相槌の発生箇所から4 発話前までのテキストを入力とし, 11 種類の相槌から適切な相槌を選択する深層学習モデルを提案した. 提案手法では, テストデータに対する見かけの精度が約30%という低い精度であったが, 実際にモデルを利用した際には, 自然な相槌を打つことができていた. 複数の相槌を正解とした場合，モデルの精度はF 値で81.2%であった. 発話に対する相槌として自然なものは複数存在するため, 正解ラベルも複数用意して学習をすることで精度を向上させることが可能である. 今後はマルチラベル分類手法に切り替えて相槌選択モデルの改良を行う予定である.

江本城太郎, 西村良太, 太田健吾, 北岡教英 :
雑音・無音棄却型リアルタイムVADレス音声認識モデルの開発,
日本音響学会研究発表会講演論文集, No.2-P-6, 957-960, 2024年3月.

(要約): 本研究では，雑音や無音が含まれた音声をそのまま入力することのできる音声認識システムの開発を深層学習モデルであるWav2Vec 2.0 を用いて行った．学習データの音声にノイズを重畳し，対応する区間にタグ付けを行うことで雑音・無音区間の判定が可能となるようにモデルを学習させた．提案モデルが発話区間外の雑音・無音区間を判定できているか検証するために複数の雑音・無音長で認識実験を行ったところ，無音区間の判定では約100 %，雑音区間の判定では約90 %の棄却率を達成することができた．また, 学習時にタグを付与したモデルとタグを付与しなかったモデルでCER を用いて音声認識精度の比較を行った結果, 相対で約19 %のCER 改善が見られ, 置換誤りと削除誤りの2つで精度が改善していることが確認できた. 本研究では, 公開されているWav2Vec 2.0 の事前学習モデルからXLSR-53 を使用したが, 他にも事前学習に用いられた音声データ数が異なるものや, モデルのパラメータ数の異なるモデルが複数公開されている. これらのモデルを比較して, 発話区間外の認識が可能なモデルの調査を行いたいと考えている.

今本麟太朗, 西村良太, 太田健吾, 北岡教英 :
相槌生成と話者交替のモデルを組み込んだリアルタイム音声対話システムの構築と評価,
日本音響学会研究発表会講演論文集, No.2-P-6, 957-960, 2024年3月.

(要約): 近年, 音声アシスタントの普及により音声対話システムが身近な存在となっている. しかし, これらの音声対話システムはユーザの発話中には相槌を打たず, ユーザの発話終了からしばらく間が空いてから応答を返す. 一方人間同士の対話では, 聞き手は話し手の発話中に相槌を打ち, 発話が終わると長い間を空けずに応答を返す. このような人間同士の対話をシステムとユーザの対話で実現するためには, 適切なタイミングで相槌・応答を返す必要がある. 本研究では適切なタイミングで相槌・応答を返す音声対話システムを構築するための手法として, 音響特徴量のみを用いて高速に適切な相槌・応答のタイミングを予測できる深層学習モデルを用いた. 被験者実験を通してシステムの相槌・応答のタイミングについて評価を行った. その際に, 音声認識結果と音響特徴量を用いるベースラインシステムと提案システムとで被験者に比較評価を行ってもらった.

福田芽衣子, 西村良太, 入部百合絵, 山本一公, 北岡教英 :
EARS:日本人超高齢者音声コーパスの構築,
日本音響学会研究発表会講演論文集, No.1-2-4, 763-766, 2024年3月.

(要約): 超高齢者音声を対象にした音声認識精度向上の目的で，現在日本人超高齢者音声コーパス(EARS) を構築している. 本コーパスはS-JNAS の超高齢者版と位置付けられる.EARS は現段階で話者数123 名の読み上げ音声をデータベース化し，これを一般公開している. 総録音時間は13．4時間と少量ではあるものの，ESPnet 2を用いた音声認識実験で，超高齢者音声に対して文字誤り率8.3 %と言う結果が得られた. これはEARS を学習に用いない場合に比べて文字誤り率3.5%の低下がみられた.

金井良賢, 若林佑幸, 西村良太, 北岡教英 :
円滑な音声対話システムのための発話終了時間の事前推定,
日本音響学会研究発表会講演論文集, No.2-P-7, 961-964, 2024年3月.

(要約): 本研究では，システムが円滑な話者交替を行うために，相手の発話終了時間を事前に推定する手法を提案した．実験の結果，MFCC やwav2vec 2.0 を用いることで相手の発話終了時刻を推測できることが確認できた．また，入力する音声の時間を長くすることで，発話終了時間の予測精度が向上する可能性が示唆された．今後の展望として，文脈情報や会話の内容が発話終了時間予測に有効であると考えられるため，言語特徴量を特徴として加え実験を行いたい．また，入力音声長によって精度が変化することは確認できたが，どのような傾向があるのか詳しく判明するほどの有意性は得られなかったので，パラメータの設定を今よりも細かく分けて実験を行いたい．

古藤快都, 西村良太, 太田健吾, 北岡教英 :
単言語話者による多言語音声合成モデルの構築と評価,
日本音響学会研究発表会講演論文集, No.2-Q-37, 1267-1270, 2023年9月. 本田剛, 鳥井浩平, 西村良太, 吉田稔, 松本和幸 :
深層学習モデル TransUNet を用いた歯科パノラマ X 線画像のセグメンテーション,
第22回情報科学技術フォーラム (FIT2023), 571-572, 2023年9月.

(要約): 歯科パノラマ X 線画像は歯の診療に使われる画像である．歯科パノラマの照合には専門的な知識が必要であり，歯科医師の負担軽減を目的として歯の自動診断システムの研究が行われてきた．その中で，深層学習技術を用いて歯の識別を行う状態分類モデルが開発されている．本研究では状態分類モデルの入力として必要な歯の輪郭情報を作成するため，深層学習技術を用いて歯科パノラマ X 線画像のセグメンテーションを行う．実験では，歯科クリニックで撮影，ラベル付けされたデータを取り扱う．セグメンテーションモデルには，近年医療セグメンテーションタスクで成功を収めているTransUNet モデルを用いて実験を行った．
(キーワード): パノラマX線画像 / セグメンテーション / 深層学習 (deep learning) / TransUNet

長江亮太朗, 鳥井浩平, 西村良太, 松本和幸, 吉田稔 :
深層セグメンテーションモデルによる歯科インプラントの自動分類手法,
第22回情報科学技術フォーラム (FIT2023), 567-568, 2023年9月.

(要約): 歯科インプラントとは，失った歯を補うための医療機器である．インプラントは，メーカーや種類が様々あり，それぞれで治療法が異なるため，歯科医師は治療時にインプラントの種類を把握しておく必要がある．本研究では，歯科医師の負担軽減を目的として，患者の歯科デンタル X 線画像から深層学習を用いたセグメンテーションモデルによってインプラントの領域を切り取り，画像分類モデルを用いてインプラントの分類を行う．切り抜きの精度は，IoU と Dice 係数でそれぞれ，0.923，0.857 となった．U-Net によってインプラントの領域を切り抜いた画像に対する分類の評価は，正解率，適合率，再現率，F 値がそれぞれ，0.851，0.852，0.884，0.840 となった．
(キーワード): デンタルX線画像 / 画像認識 / 深層学習 (deep learning)

熊倉健太, 鳥井浩平, 西村良太, 松本和幸, 吉田稔 :
歯科パノラマX線画像における歯の状態診断及び汎化性能の検証,
第22回情報科学技術フォーラム (FIT2023), 563-564, 2023年9月.

(要約): 近年, 医療ビッグデータの深層学習技術への活用が盛んに行われており, 医療ビッグデータから診療情報や画像, カルテ情報等を用いて診断結果の提示や診断援助等ができるようになってきた. 本研究では, 歯科医師の負担軽減と診断援助を目的として, 深層ニューラルネットワークアーキテクチャを利用した歯科パノラマ X 線画像における歯の状態診断を行う. 実験では, 共同研究先の歯科クリニックで撮影, ラベル付けされたデータを取り扱う. 歯は複数の状態を持つため, 分類モデルはマルチラベル分類手法を用いて実装する. 結果として, う蝕や根尖病巣の識別が困難であった. また, 未知の撮影機材由来のデータでは精度の低下が見受けられた. そのため, ドメイン汎化手法を用いて, さらなる検証を行った.
(キーワード): パノラマX線画像 / 画像認識 / 深層学習 (deep learning)

杉山雅和, 太田健吾, 西村良太, 北岡教英 :
割り込み発話にも対応可能なリアルタイム話者交替システム,
日本音響学会研究発表会講演論文集, No.2-3P-1, 847-850, 2023年3月.

(要約): 近年の音声認識技術の発達により, 音声対話システムは正確に会話が行えるようになってきた．しかし, Siri やGoogle assistant といった既存の対話システムの多くが一問一答対話を行うシステムであり, システム発話中のユーザ発話は無視されてしまうため, あまり自然な会話は行えない．この問題を解決するために, システムはユーザからの割り込み発話に対応する必要がある．既存の割り込み発話に対応した音声対話システムでは, ユーザからの割り込み発話に対しシステム発話を停止し, 全て話者交替を行う手法が多く採用されている．しかし, ユーザからの発話には相槌などの話者交替の必要がない発話も含まれる．そこで, 本研究ではユーザ発話に対しシステムが話者交替すべきか判定する深層学習モデルを提案する．提案モデルでは, ユーザ発話の先頭300ms の音声のみから, その発話が相槌, 笑い声かそれ以外かを判定する．これにより, ユーザ発話終了を待たず話者交替判定を行うことが可能となる．

堀井こはる, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
自発的発話認識のためのBERTによる非流暢文生成に基づく言語モデリング,
日本音響学会研究発表会講演論文集, No.1-3-2, 661-664, 2023年3月.

(要約): 研究では，双方向の文脈を考慮できる Transformer エンコーダモデルであるBERT (Bidirectional Encoder Representations from Transformers) [12] を，書き言葉へのフィラーや言い淀みの挿入に用いた．大量のテキストデータで学習された事前学習済みのBERT モデルを解決したいタスクでfinetuning することでモデルをタスクに適応させることができる．BERT が解決できるタスクの一つに，空欄のある文章の空欄を埋める単語を予測して穴埋めするタスクがある．通常の書き言葉テキストを非流暢ラベルの欠けた非流暢文として扱い，任意の場所を空欄として，それを非流暢ラベルで穴埋めすることで非流暢文を生成することができる．本研究では，ラベル付けされた自発的発話の書き起こしを用いて，マスク言語モデリング (Masked Language Modeling :MLM)タスクでBERT のfinetuning を行った．穴埋めタスクは，ユーザが手動でマスキングしたトークンをBERT が推論する推論用のタスクだが，MLM は，BERT が自ら文をマスキングし，マスキングされたトークンを予測して双方向表現を学習する自己教師学習タスクである．MLM を用いることで文脈を考慮することができ，文中の適切な位置に非流暢ラベルを挿入できることを期待する．

伊達龍斗, 太田健吾, 西村良太, 北岡教英 :
深層学習による口唇情報を用いた雑音下での音声認識精度の改善,
日本音響学会研究発表会講演論文集, No.1-3P-3, 777-780, 2023年3月.

(要約): 近年，音声認識技術の発達により，深層学習モデルを使用した音声認識の精度が向上し，これらを用いたシステムが普及してきている．しかし，実環境では音声信号に雑音が入ることが多く，認識精度が大きく低下する．そのため，実用的なシステムを開発する際には対雑音性をどのようにして高めるのかが課題となる．対雑音性を高める手段としてマルチモーダル音声認識がある．人間の場合，聴覚や視覚，触覚といった感覚を通じて情報を伝達しており，これらの手段のことをモダリティと呼ぶ．これらのモダリティを使い分けたり同時に使うことにより情報を伝達している状態をマルチモーダルな状態と呼ぶ[1]．単一のモダリティでは認識を誤る可能性がある場合であっても，マルチモーダルであればその冗長性により誤認識の訂正や補完が可能となる．本研究では，音声と口唇情報を使用してマルチモーダル音声認識を行った．音声と口唇情報ではそれぞれ誤認識が起こりやすい音素が異なるので，両方を合わせて使用することで認識精度の向上が期待できる．

篠山学, 木内敬太, 康鑫, 西村良太, 松本和幸 :
インタビュー対話における問い返し文の生成に関する検討,
言語処理学会第29回年次大会発表論文集, 405-407, 2023年3月.

(要約): 遠隔勤務をしているとき，遠隔労働者が自分自身のストレスに気づけないことも多い．精神面の健康状態が深刻になる前に自分自身で気づくことができれば，健康を維持することにつながる．本研究では，遠隔労働者が健康状態をセルフチェックするためのバーチャルエージェント対話システムの構築を目的としている．本稿では，対話時に必要となる「問い返し」の生成手法について考察する．

松本和幸, 木内敬太, 康鑫, 西村良太, 篠山学 :
クライアントのストレスとカウンセリング場面のマルチモーダル感情推定の関連性,
JSKE 第18回日本感性工学会春季大会講演論文集, 2023年3月.

(要約): 本研究では，近年増加傾向にあるリモートワーカーのストレス度合いを，面接時の映像・音声データなどのマルチモーダルデータから検出する技術の開発を目指す．本論文では，予備実験で得られたインタビューデータを用いて，顔・音声・言語情報から推定される感情とインタビューによるストレス評価との関係を分析する．機械学習アルゴリズムに基づく各モダルの感情推定結果を入力として，ストレス評価結果の予測，エラー評価，感情推定結果を用いたストレス評価の妥当性確認を行うモデルを学習する．また，感情推定結果の時系列変化パターンをクラスタリングすることで，各感情の種類とストレス評価との関連性の有無を分析する．
(キーワード): 自動ストレス検出 / マルチモーダル感情推定 / 遠隔勤務者

早道広峻, 松本和幸, 吉田稔, 西村良太, 北研二 :
音声対話ロボットを用いた健康維持支援システムの開発,
HAI シンポジウム2023 講演論文集, 2023年3月.

(要約): 生活習慣病は医療費全体の3 割，死亡者の6 割を占めている．よい生活習慣を送ることが健康を守るうえで重要である．また，近年音声で入力できるサービスや機器が増えてきている．音声認識を使えば，より手軽に計算機を扱えるようになる．本研究では，対話ロボットとの対話内容を分析して生活習慣などを提示するWeb アプリケーションを用いて，生活習慣の改善を助けるシステムを開発する．開発したシステムを用いて実際に生活習慣を収集し，生活習慣の分析とシステムの評価を行った．
(キーワード): 健康維持支援システム / 音声対話ロボット / 生活習慣

石原玲央, 大豆本圭, 堀克仁, 角陸文哉, 佐々木雄太郎, 冨田諒太郎, 上野恵輝, 津田恵, 楠原義人, 布川朋也, 山本恭代, 山口邦久, 高橋正幸, 金山博臣, 西村良太 :
Deep-learningを用いた尿管癌についての検討,
第266会徳島医学会学術集会(令和4年度冬期), No.A-25, 266, 2023年2月.

(要約): 【目的】近年，画像診断技術が進化しているが，尿管癌描出や深達度についての診断精度は低い．特に尿管癌深達度診断技術は，薬物療法前に重要であり早期の開発が求められている．そこで今回我々はDeep Learning(深層学習)によるAI(人工知能)による画像学習を利用してCT画像から尿管癌の深達度を予測するシステムの構築を行うためのパイロットスタディを行ったので報告する．【方法】2009年から2020年に徳島大学病院で尿管癌に対して腎尿管全摘除術を施行された157例のうち下部尿管癌30例のCT画像をAI に学習させ画像分類を行い，学習の適合率を評価した．摘出標本のマクロ画像での癌の位置とCTの位置を照らし合わせて，癌領域を決定し，各CTスライスを「癌を含む」と「癌を含まない」に分類した．【結果】AIによるCT画像の下部尿管癌の判定正解率は，学習回数が100回の時点での学習済みデータを用いてテストした場合は 99.94%，未学習のデータでテストした場合は99.15%となった．今回の学習では過学習は認められなかった．【結論】AIによるCT画像の下部尿管癌の評価を行った．今回の設定でCT画像から癌の有無の判定の学習が可能であると考えられた．今後はAIによってCT画像から尿管癌の場所の特定や深達度予測の評価を行い，実臨床で応用可能な評価モデルの確立を目指す．

大須賀晋, 田中五大, 鍋倉彩那, 中野涼太, 渡邊凌太, 石川友香, 石川晃之, 中村晃一, 藤井裕也, 堀内颯太, 東中竜一郎, 西村良太, 太田健吾, 北岡教英 :
EMOtive A.I. ``Saya'',
人工知能学会研究会資料言語・音声理解と対話処理研究会, Vol.96, 33, 2022年12月.

(要約): 2015年に発表され「不気味の谷を超えた存在」と話題になった3DCGキャラクタ"Saya"をベースに，ヒトが親しみを感じる対話エージェントを実用化し，未来の街やモビリティがヒトに寄り添った世界となることを目指している．EMOtive A.I.は，最新の画像認識・音声認識・音声合成・対話AIや，心理学的知見に基づく行動及び描画制御，CGアーティストによるキャラクタ表現が融合した自律的な対話システムであり，ユーザの想いを言葉にして引き出すことを一つの目標としている．2022年3月の謎解きクリエイター松丸亮吾氏へのAIインタビュー，ワンダーフェスティバル2022夏メインステージでの海洋堂センム氏とのリアルタイム対話デモにつづき，11月に開催された渋谷区のイベントSIW2022にて，西武渋谷店で任意の一般ユーザーと対話したデモシステムを展示する．
(出版サイトへのリンク): ● Publication site (DOI): 10.11517/jsaislud.96.0_33
(文献検索サイトへのリンク): ● Search Scopus @ Elsevier (DOI): 10.11517/jsaislud.96.0_33

(DOI: 10.11517/jsaislud.96.0_33) 鳥井章宏, 西村良太, 北岡教英 :
音声対話システムにおける対話破綻検出器の構築,
令和4年度電気・電子・情報関係学会四国支部連合大会講演論文集, 145, 2022年9月.

(要約): 対話システムの普及が進み, ユーザは手軽にシステムとの対話を楽しむことが可能となったが, ユーザの発話に対してシステムが不適切な応答をしてしまい, 対話が破綻してしまうケースがしばしば見られる. 近年, この問題を解決するために言語的な情報から対話破綻の検出を目指す手法を中心に研究が進められており, 特にチャットベースの対話システムを対象とした研究が盛んに行われている. 一方で, 音声ベースの対話システムの研究例は非常に少ないため, 更なる進展が望まれる. 本稿では, ニューラルネットで構成される検出器モデルを構築し, 音声対話特有の情報である音響特徴量から対話破綻を推定することを目指す.

福村考洋, 西村良太, 北岡教英 :
BERTによる雑談対話話題拡張,
令和4年度電気・電子・情報関係学会四国支部連合大会講演論文集, 146, 2022年9月.

(要約): 対話システムは人とシステムが会話する際に応答文が多く必要であるが，多くの応答文を用意することは多くの人手が必要になりコストが大きい．本研究ではインターネットに存在するテキストデータと固有表現抽出器，BERT[1] を用いることにより自動で応答文の話題を拡張手法を提案する．

堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
End-to-End 非流暢整形音声認識システムの対話音声による評価,
日本音響学会講論集, Vol.2-8-5, 1155-1156, 2022年9月.

(要約): 自動音声認識 (Automatic Speech Recognition: ASR) は現在広く普及しており，その研究も盛んに行われ，著しい精度の向上を続けている．特に，入力から出力への写像を統合的に学習する，End-to-End (E2E) 型のモデルが最近の ASR モデルの主流である [1]．私たちの普段話す音声は，「えー」「あのー」等のフィラーや，言い淀みを含んでおり，音声認識の際，誤認識の原因の一つとなっている [2]．また，これらは文字に起こしたデータを利用する場合に不要な情報である．このような非流暢的音響特徴を処理するために，我々は，日本語の自発的な発話において，書き起こしのフィラーや言い淀み部分を非流暢ラベルに置き換え，それを記号 (フィラー「#」，言い淀み「@」) とし，文字のように一つの認識対象として ASR モデルに E2E で学習させることで，非流暢な音声から，非流暢部分を整形した認識結果を得る「End-to-End 非流暢整形音声認識システム」を構築した．学会講演・模擬講演音声で評価実験を行い，認識精度の改善を示した [3, 4]．本稿では，より自発性の高い別ドメインの発話音声における，このシステムの有効性を実証するために，対話音声による評価実験を行う．

森大輝, 太田健吾, 西村良太, 北岡教英 :
ドメイン外音響情報で補強した Encoder-Decoder 音声認識モデルの設計,
日本音響学会講論集, Vol.2-Q-26, 1229-1232, 2022年9月.

(要約): 音声認識モデル内部の言語情報を, 外部言語モデルを用いて補強することで認識精度を改善する手法は様々検討されている一方で, 音声認識モデルの音響情報を補強する研究はあまり行われていない．そこで我々はDRA の考え方を応用し, 音声認識モデル内部の音響情報をドメイン外音響情報で補強しようと考えた．提案手法では, ドメイン外音声認識モデルの出力確率から, ドメイン外言語モデルの出力確率を減算することで抽出したドメイン外音響情報を, ターゲットドメイン音声認識モデルに加算する．我々の実験では, 音声認識モデルとして, Trans- former モデルおよび RNN モデルを使用し, 提案法を検証した．日本語学術講演音声認識モデルと日本語模擬講演音声認識モデルを用いて, それぞれのドメインに対する CER およびクロスドメイン CER を算出し, ベースラインおよび Shallow Fusion との比較を行なった．

福田芽衣子, 杉山雅和, 西村良太, Yurie Iribe, Kazumasa Yamamoto, 北岡教英 :
超高齢者コーパスとS-JNAS を用いた高齢者音声の音響的特徴の分析,
日本音響学会講論集, Vol.3-Q-32, 1395-1398, 2022年9月.

(要約): 手指や視力が不自由な高齢者にとって音声認識は，スマートフォンなどの操作に便利なモダリティであるが，高齢になるほど音声認識精度が低下することが報告されている [1, 19].そこで我々は，特に 80 歳以上の話者を多く擁する高齢者音声の大規模コーパス(EARS:Elderly Adults Read Speech) を構築し，音響モデル作成に利用することで認識精度の向上を図ってきた [2].高齢者音声は青年・中年のそれと比べ多様な音響的特徴を有するが [5, 6, 7]，超高齢者についての報告は多くない.そこで本稿では超高齢者コーパスである EARS ならびに高齢者音声コーパス S-JNAS 話者の 60-98 歳を対象として，基本周波数(Fo)，フォルマント周波数，喉頭雑音，MFCC, 母音中心化の年齢による推移を調査した.

田渕尚道, 松本和幸, 吉田稔, 西村良太, 北研二 :
SNS の投稿内容に基づく生活習慣病発症リスクの分析,
言語処理学会第28回年次大会発表論文集, 1946-1950, 2022年3月.

(要約): 国内における死亡原因は，がん・循環器疾患・糖尿病などで全体の約 6 割を占めている．これらの病気はいずれも食事・運動・睡眠などの生活習慣と深い関りがあり，生活習慣病と呼ばれている．生活習慣病には自覚症状がほとんどないため，病気の悪化に気づきにくいという特徴がある．本研究では，より簡易的に生活習慣病を予防するシステムの構築を目指し，ソーシャル・ネットワーキング・サービス(SNS)を用いて，ユーザの投稿内容から食事・運動・体調・精神状態に関するツイートの分析を行った．調査の結果，本研究の成果がユーザの投稿内容から生活習慣病発症の危険因子を検出するシステムの構築につながることが分かった．
(キーワード): ソーシャルネットワーク / 生活習慣病 (lifestyle-related disease) / SNS / BERT / 潜在的ディリクレ配分法

森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
タスク外音響情報を付加した End-to-End 音声認識モデルの設計,
日本音響学会講演論文集, Vol.2-3Q-2, 1141-1144, 2022年3月.

(要約): 従来の音声認識器では DNN-HMM 音声認識モデルが使用されていたが，音響，辞書および言語モデルなどの様々なモジュールで構成されている非常に複雑なシステムであった.一方で End-to-End 音声認識は複雑な処理を単一のニューラルネットワークを用いて表現可能であるため，従来の音声認識システムを大幅に簡素化することが可能となった．特に Encoder- Decoder モデルは音声認識や機械翻訳を含む自然言語処理タスクにおいて，認識精度を著しく改善している. Encoder-Decoder 音声認識モデルは, 十分な量の学習データがあれば, 高精度なモデルを作成することが可能だが, 大量のテキストデータで学習した言語モデルを併用することで, 豊富な言語情報を活用でき, さらに高い性能を得ることができる．音声認識モデルと言語モデルの統合方法として, Shallow Fusion[1] と呼ばれる手法がある．他にも, Deep Fusion や Cold Fusion も提案されている．このように, 音声認識モデルと言語モデルの両方を利用する様々なアプローチが存在する．近年, Shallow Fusion を確率的に改善した Density Ratio Approach[2] と呼ばれる手法が提案されており, この手法は音声認識モデル内部で学習される言語情報である ``暗黙の言語情報'' を除去した時の出力確率にターゲットドメイン言語モデルの出力確率を加算することにより, 音声認識モデルの言語情報を差し替えることが可能である．Density Ratio Approach に対して様々な研究が行われており, 既に英語, スペイン語, イタリア語, 日本語において有効であることが証明されている．[3, 4, 5] 音声認識モデルの認識精度を言語モデルによる文脈情報の増強で改善する手法が様々検討されている一方で, 音声認識モデルの音響情報を増強する研究はあまり行われていない．そこで我々は Density Ratio Approach の考え方を応用し, ドメイン外の音響情報を付加するための手法を提案する．この手法では, ドメイン外音声認識モデルの出力確率から, ドメイン外言語モデルの出力確率を減算することで抽出したタスク外音響情報をターゲットドメイン音声認識モデルに加算する．我々の実験では, 音声認識モデルとして, Trans- former モデルを使用した．日本語学術講演音声認識モデルと日本語模擬講演音声認識モデルを用いて, それぞれのドメインに対する CER を算出した．いずれの実験においても, Shallow Fusion および Baseline の認識精度を改善することはできなかった．

堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
非流暢ラベルを用いた言い淀み整形End-to-End音声認識,
日本音響学会講論集, Vol.1-3-5, 889-892, 2022年3月.

(要約): End-to-End (E2E) 型のモデルの導入により，自動音声認識 (Automatic Speech Recognition:ASR) の精度は著しい向上を続けている [1] が，話し言葉を対象とする音声認識では，フィラーをはじめとする非流暢的音響特徴が誤認識の主要な原因の一つとなっている．この問題に対し，言い淀みや語断片，フィラー等をラベル化し，隠れマルコフモデル (Hidden Markov Model : HMM) や N-gram 言語モデルで直接モデル化する方法 [2] や，隠れイベントとして音響モデルや言語モデルと統合的にモデル化する方法 [3]，Garbage model を使った方法 [4] など，HMM ベースの方法が提案されている．これらは HMM の構造の中で，広範囲の音響を捉える必要があるため，モデルの設計が困難である．また言い淀みやフィラーを音響的特徴によって識別し，認識の前に除去する方法 [5][6] もあるが，これらのアプローチでは音響的特徴による検出精度が音声認識の精度に影響を与える可能性がある． E2E ASR の研究もいくつか行われている．Lou ら [7] は，非流暢発話から認識器が流暢な翻訳を直接生成することを試みており，彼らは Connectionist Tempo- ral Classification (CTC)，長・短期記憶 (Long Short- Term Memory : LSTM)，または Transformer ベースの ASR モデルが明示的な非流暢部分の検出なしに流暢な書き起こしを生成できると期待した．[8] では， RNN-Transducer モデルにおいて，言い淀みを明示的にラベル付けし，言い淀みとして認識している．本研究では，日本語の自発的な発話において，書き起こしの言い淀みやフィラー部分を非流暢ラベルに置き換え，それを記号 (本研究では言い淀み「@」，フィラー「#」) とし，文字のように一つの認識対象として Joint CTC-Attention [9] Transformer ASR モデルに E2E で学習させることで，非流暢な音声から，言い淀みを整形した認識結果を得る．

森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
タスク外音響情報を付加したEnd-to-End音声認識モデルの設計,
日本音響学会講論集, Vol.2-3Q-2, 1141-1144, 2022年3月.

(要約): 音声認識モデルの認識精度を言語モデルによる文脈情報の増強で改善する手法が様々検討されている一方で, 音声認識モデルの音響情報を増強する研究はあまり行われていない．そこで我々は Density Ratio Approach の考え方を応用し, ドメイン外の音響情報を付加するための手法を提案する．この手法では, ドメイン外音声認識モデルの出力確率から, ドメイン外言語モデルの出力確率を減算することで抽出したタスク外音響情報をターゲットドメイン音声認識モデルに加算する．我々の実験では, 音声認識モデルとして, Trans- former モデルを使用した．日本語学術講演音声認識モデルと日本語模擬講演音声認識モデルを用いて, それぞれのドメインに対する CER を算出した．いずれの実験においても, Shallow Fusion および Baseline の認識精度を改善することはできなかった．

西村良太 :
自然な対話を可能とする音声対話システムの実現に向けた研究,
IEEE札幌支部合同学術講演会, 2021年11月. 堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 北岡教英 :
言い淀みを考慮したEnd-to-End音声認識,
第19回情報学ワークショップ(WiNF2021), Vol.S-5-2, 2021年11月. 森大輝, 太田健吾, 西村良太, 北岡教英 :
Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法,
第19回情報学ワークショップ(WiNF2021), Vol.S-5-3, 2021年11月. 宮下翼, 吉田稔, 松本和幸, 西村良太, 北研二 :
闘病ブログコーパスからの生活習慣の抽出,
令和3年度電気・電子・情報関係学会四国支部連合大会講演論文集, 187, 2021年9月.

(要約): 闘病ブログは，患者の生活に関する行動情報(病状・食事・運動)について書かれているものがあり，疾患への理解や納得を得られるものも見られ，同病者の励みとなっている．闘病ブログコーパスとは，闘病ブログを収集し，記事のタグ付けを行ったものである．本研究では年々増加傾向にある2 型糖尿病患者による闘病ブログコーパスから，闘病活動に関わる生活習慣の分析を行う．この分析結果より，病状悪化の危険因子や病状改善の手がかりとなる要素を，非医療従事者が自然言語処理および機械学習手法を用いて発見し，闘病者や糖尿病予備軍の人々に助言できるシステムの構築を目指す．
(キーワード): 闘病ブログ / 生活習慣分析 / 生活習慣病 (lifestyle-related disease) / 2型糖尿病 / テキストマイニング (text mining)

北岡教英, 西村良太, 太田健吾, 石川晃之, 石川友香, 中野涼太, 田中五大, 鍋倉彩那, 佐藤辰耶, 渡邊凌太, 大須賀晋 :
3D CGエージェントSayaとの対話における応答制御,
日本音響学会研究発表会講演論文集, Vol.3-3-14, 1277-1280, 2021年9月. 西村良太, 森貴大, 北岡教英 :
ROSを利用したリアルタイム制御が可能な音声対話システムの構築,
日本音響学会研究発表会講演論文集, Vol.2-3Q-4, 1123-1126, 2021年9月.

(要約): 近年，音声対話システムがパソコンやスマートフォンなどに標準搭載されるようになり，その存在は大変身近なものとなってきている．しかし，これらの音声対話システムにおいては，実際の人間同士の会話で見られる相槌やオーバーラップなどの応答は未だ実現されていない. ユーザ発話に対してシステムから割り込んで応答を行うような対話を実現させるためには，リアルタイムの応答生成・応答タイミング決定を行うことが可能な音声対話システムを構築する必要がある．つまり，現在普及しているシステムでは，システムの設計から根本的に見直す必要があり，あいづちやオーバーラップを伴う対話の実現は困難である．本研究で構築した音声対話システムは，構成モジュールが独立し，並列に動作する．さらにそれらを密にリアルタイムに連携制御するために，モジュール間の通信にはROS のアーキテクチャを導入した．また，対話内容の表示や音声解析結果のグラフィカルな表示などに対応したダッシュボードも構築した．

福田芽衣子, 西村良太, 西崎博光, 入部百合絵, 山本一公, 北岡教英 :
超高齢者音声コーパスEARSにおける超高齢者の音響的特徴,
日本音響学会研究発表会講演論文集, Vol.2-3P-11, 1105-1108, 2021年9月.

(要約): 近年，介護の人手不足を背景とした高齢者とコミュニケーションができる介護ロボットのニーズが高まっている．また音声認識は特に手指や視力が不自由な高齢者にとって，スマートフォンなどの操作に便利なモダリティであり，高齢者音声の認識精度の一層の向上が求められている．しかし，高齢者の音声認識精度は青年・中年期のものと比べてword error rate (WER) が低下することが報告されている [1, 2, 3]．これらの背景から，我々は高齢者音声の音響モデル作成に利用するために，特に 80 歳以上の話者を多く擁する高齢者音声の大規模コーパス(EARS:Elderly Adults Read Speech) を構築中である [4]．高齢者音声は青年・中年のそれと比べ多様な変化がみられるが [5, 6, 7]，日本語話者の超高齢者についての報告は多くない．そこで本稿では超高齢者コーパスである EARS ならびに高齢者音声コーパス S-JNAS 話者(60-98 歳)の音響的特徴として，話速および母音継続長を測定した．また，EARS を利用した高齢者音声認識(HMM-DNN および Transformer ベースの End-to-end)の精度向上の簡便な方法として，EARS 音声に加工を施さずにそのまま複数回繰り返して音響モデル作成に使用した結果を報告する．

森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法,
日本音響学会研究発表会講演論文集, Vol.1-3-1, 843-846, 2021年9月. 堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 北岡教英 :
言い淀みを考慮した自由発話のEnd-to-End音声認識,
日本音響学会研究発表会講演論文集, Vol.1-3-3, 851-854, 2021年9月. Zolzaya Byambadorj, 西村良太, Ayush Altangerel, Ohta Kengo, 北岡教英 :
Cross-lingual, multi-speaker text-to-speech synthesis for low resource languages,
日本音響学会研究発表会講演論文集, Vol.1-3-7, 2021年9月. NARANGEREL PUREVDORJ, 西村良太, Ayush Altangerel, Ohta Kengo, 北岡教英 :
How language similarity affects the Mongolian ASR using cross-lingual transfer learning,
日本音響学会研究発表会講演論文集, Vol.2-3-7, 2021年9月. 森大輝, 太田健吾, 西村良太, 小川厚徳, 北岡教英 :
End-to-end音声認識モデルにおける暗黙的言語情報の置換法,
情報処理学会研究報告, Vol.2021-SLP-137, No.17, 1-6, 2021年6月.

(要約): 近年，End-to-end 音声認識が従来の DNN-HMM 音声認識と比べ，高速かつ簡潔であることから注目されている．さらに大量のテキストデータによって学習された言語モデルを併用することで，認識精度が向上すると報告されている．本稿では，音声認識モデルと言語モデルの一般的な統合方法とされる Shallow Fusion を応用した新しい言語モデルの統合方法である Language Model Replacement を提案する．提案法では，事前学習済み音声認識モデルと事前学習済み言語モデルを用いる．提案法ではベイズ則に基づき，音声認識モデルに暗黙的に含まれる言語情報を差し替えることが可能となっている．我々の実験では，学術講演音声データを使用して学習された音声認識モデル内部の言語情報を，模擬講演テキストデータで学習した言語モデルによって差し替えた．模擬講演ドメインにおける提案法の CER は Shallow Fusion での認識精度と比較して，1.3 ポイント上回った．

堀井こはる, 福田芽衣子, 太田健吾, 西村良太, 北岡教英 :
言い淀みラベル付けによる非流暢発話のEnd-to-End音声認識,
情報処理学会研究報告, Vol.2021-SLP-137, No.17, 1-7, 2021年6月.

(要約): 従来のASRシステムでは流暢な発話音声においては高い精度を発揮するが,高齢者音声等の非流暢発話では低くなってしまう.本研究ではEnd-to-End音声認識において,言い淀みをラベル付けして認識対象とすることによって,非流暢発話の精度がどう変化するか実験を行った.その結果,文誤り率はすべての評価データで改善し,モデルがラベルの意味を学習できていることが期待できる有効な結果を得られた.

PUREVDORJ NARANGEREL, Ryota Nishimura, Ayush Altangerel, 太田健吾 and Norihide Kitaoka :
Building low-resource speech recognizer: Transfer learning and data augmentation,
日本音響学会研究発表会講演論文集, Vol.3-2-9, 895-898, Mar. 2021.

(要約): S2S(Sequence-to-Sequence)モデルは，現在，エンドツーエンドの音声処理，特に自動音声認識(ASR)アプリケーションで広く使用されています．しかし，最近では，自己注意を用いて時間的な文脈情報をモデル化するハイブリッドな注意/CTCアーキテクチャが，S2Sベースのシステムよりも大幅に低いワードエラーレート(WER)を達成しました[4]．アテンション・ベースのエンコーダ/デコーダ・アーキテクチャは，エンド・ツー・エンドのASRシステムでは最高の性能を発揮していますが，これらのアプローチは，注釈付きの大規模な音声コーパスを持たない言語で使用されるローリソースASR [3]には容易に適応できません．本論文の主な目的は，ローリソースのモンゴル語ASRシステムを開発することです．我々が使用した学習データセットには，217人の話者による23時間のモンゴル語連続音声が含まれており，これは従来のASRシステムを学習するために通常必要とされるデータよりもはるかに少ない量です．ローリソースASRアプローチは，一般的に，低コストで実装できるデータ補強(DA)に依存しています．本研究では，外国語コーパスを用いてローリソースのターゲット言語トレーニングを補完するいくつかの多言語転移学習法も評価しています．複数のDAおよび多言語学習アプローチをテストし，ASRの文字および単語の誤り率(CER/WER)を用いてパフォーマンスを測定し，その効果を比較しました．

BYAMBADORJ ZOLZAYA, Ryota Nishimura, Ayush Altangerel, 太田健吾 and Norihide Kitaoka :
Text to speech system for low resource languages by cross-lingual transfer learning and data augmentation,
日本音響学会研究発表会講演論文集, Vol.3-2-10, 899-902, Mar. 2021.

(要約): 本論文では，対象となるデータが少ない場合に使用できるように，スペクトログラム予測ネットワークとニューラルボコーダの両方を含む様々なTTSシステムを提案した．伝達学習のみ，あるいはデータ補強のみの方法でモデルを学習し，それぞれの方法がTTSモデルの出力の自然さにどのような影響を与えるかを検証した．しかし，両方の手法を用いてTTSモデルを学習することで性能が向上し，低リソースモデルと，より多くのオリジナルのターゲット音声データを用いて学習したベースラインのM-MNモデルとの差を縮めることができました．また，パラレルWaveGANボコーダの学習にも同じ増強データを用いた．その結果，提案手法は，ターゲット言語の全コーパスデータを用いて学習したボコーダとほぼ同等の音声品質を達成した．

太田健吾, 西村良太, 北岡教英 :
アクセント句を考慮した日本語 End-to-End 音声合成サーバの構築,
日本音響学会研究発表会講演論文集, Vol.1-2-7, 797-798, 2021年3月.

(要約): 対話ロボットや情報案内システムにおいて，自然な音声合成は重要な機能の一つである．高品質な合成音声を生成するためには，豊富な計算資源を前提とした最先端の End-to-End 型音声合成器を利用できることが望ましいが，ロボットや IoT 機器，スマートフォンといった計算資源の限られたデバイス上でそのような音声合成器を駆動することは現実的ではない．こうした問題に対し，Google Cloud の Text-to-Speech API*1 や，Amazon Polly API*2といったクラウドベースの音声合成 API を利用する方法も考えられるが，Web にアクセスできない環境でロボットやシステムを動作させる場合には不向きである．そこで本研究では，LAN 内で動作する高品質な日本語音声合成サーバを提案する．本サーバは GPU マシン上で動作し，ソケット通信によって入力テキストを受け取り，End-to-End 型音声合成器を用いて自然な合成音声を生成し，クライアントに送り返す．合成音声の波形情報だけでなく，合成音声中の各音素の時刻情報も併せて送信されるため，CG アバター [1] やヒューマノイドロボットのリップシンクに用いることも可能である．また，本サーバでは，入力テキストの音素列に加えて，g2p によって抽出されたアクセント句の情報も音声合成器の Text2Mel に明示的に入力する．これにより，音素列のみを入力とする標準的な End-to-End 音声合成器よりも自然なイントネーションの合成音声を生成することができる．本稿で述べた音声合成サーバは，オープンソースソフトとして一般公開される予定である*3．

北岡教英, 西村良太, 太田健吾, 原直 :
フォトリアルCGエージェントとのマルチモーダル対話システムの構築,
日本音響学会研究発表会講演論文集, Vol.1-2-6, 793-796, 2021年3月.

(要約): 将来の人間-機械協奏社会を考えたとき，機械と人間がいかに自然で容易にコミュニケーションできるかが重要な課題となる．機械側のインタフェースが限りなく人間に近い姿をし，人間に近い対話をすることは，こうした課題の解決法の一つの方法であると考える．そこで我々は，本物の人間と区別がつかないレベルの 3D CGで描かれ，映像内でリアルに動作する「Saya」に注目し，Saya をエージェントとして音声・マルチモーダル対話を行えるシステムの構築を行っている．本稿では，Saya および構築した対話システムの全体像を紹介するとともに，そこで用いられている音声認識・音声合成・画像認識・インタラクション制御技術の概要を説明する．

福田芽衣子, Iribe Yurie, 西崎博光, Yamamoto Kazumasa, 西村良太, 北岡教英 :
超高齢者音声コーパスEARSの構築と音声認識への利用の予備検討,
情報処理学会研究報告, Vol.2020-SLP-1, No.6, 1-6, 2020年10月.

(要約): 高齢者の音声は一般成人と異なる複数の特徴を持つため，その認識精度は現在のところ不十分と言わざるを得ない．その精度向上には大量の高齢者音声データが必要であり，大規模な高齢者音声コーパスとして，話者の平均年齢67.6歳のS-JNASが汎用されている．しかしげ内の日本の平均寿命との間に大きな年齢差が生じていることから，我々はと超高齢者を対象とした音声コーパス(EARS: Elderly Adults Read Speech)の構築を開始した．コーパスのデザインはS-JNASを参考にし，現在までに121名(平均年齢:83.4歳)の音声を収集・データベース化した．本報告ではその仕様について述べるとともに，本コーパスを用いた高齢者音声の音響モデルの予備的検討についても報告する．

原和樹, 鳥井浩平, 松本和幸, 吉田稔, 西村良太, 鶴木次郎, 小林健一郎, 北研二 :
Mask R-CNNを用いたパントモ画像からの歯牙検出及びセグメンテーション,
令和2年度電気・電子・情報関係学会四国支部連合大会, No.15-9, 2020年9月.

(要約): 歯科診断における日本の診断項目数は海外と比べてかなり多く，歯科医師が 1 から歯式を書くことは手間がかかるため，歯科医師の診断負担軽減が必要である．診断，歯の健康状態の把握，治療計画の立案にはまずパントモ画像の解釈が不可欠であることから，パントモ画像の処理は自動化の重要な課題である．本研究では自動でパントモ画像から歯牙検出・セグメンテーションを行う．本稿では，その方法について述べる．
(キーワード): 医用画像 (medical image) / 深層学習 (deep learning)

福田翼, 西村良太, 吉田稔, 松本和幸, 北研二 :
深層学習を用いたコミックの分析に関する研究,
令和2年度電気・電子・情報関係学会四国支部連合大会講演論文集, Vol.15-7, 1, 2020年9月.

(要約): 日本のサブカルチャーである漫画の楽しみ方が近年変化している．市場の売り上げ推移を見ると紙の書籍ではなく電子端末で閲覧する電子書籍が普及しつつあることがわかる．しかしスマートフォンを始めとする画面の小さい端末では携帯性が高く扱いやすい反面，通常文庫判∼A5 判である漫画をページ単位で表示するには小さすぎる．コマの抽出及び並び替えが可能であるなら読者にとって最適な読書環境を提供できる可能性がある．そこで，本研究ではこの問題を解決するべくコマ領域の検出について検証する．

山崎大河, 西村良太, 北岡教英 :
感情表現が可能なEnd-to-End日本語音声合成システムの構築,
日本音響学会研究発表会講演論文集, Vol.2-P2-12, 859-862, 2020年9月.

(要約): 本研究では,深層学習に基づいた手法で感情表現が可能な日本語音声合成システムを構築する. Tacotron2 を参考にし, 人間の音声に近い表現力のある音声合成器を構築することを目的とする. 声優統計コーパスの藤東知夏氏の音声 (通常・喜び・怒りの感情で読まれた音声が各10分) を最終的な学習データとする. しかし, このデータセットだけではTacotron2 の学習データとしては少ないので, 大規模コーパス (LJ Speech) でモデルを学習しておき, このモデルに追加学習をすることで問題解決を行った. また, 入力テキストに対して一文字ごとに感情のラベルを付与することで感情表現を行う. この方法により構築されたモデルでは一つのテキスト全体に対して一つの感情を表現できるだけではなく, テキストの途中で感情を変えることができる.

ZOLZAYA BYAMBADORJ, 西村良太, Ayush Altangerel, 北岡教英 :
スペルチェッカー付きSEQ2SEQモデルを用いた翻訳語の正規化,
言語処理学会発表論文集, Vol.E5-3, 1133-1136, 2020年3月.

(要約): モンゴル語には二つの書き方があります．-古典モンゴル語(ウイグルモンゴル語)とキリル文字モンゴルではこの2つの文字体系が使われています．モンゴル人民共和国は1940年にロシアのキリル文字を修正したものを使い始めました．モンゴルのキリル文字は35文字です．以前はキリル文字を使っていましたが，最近ではFacebookやTwitterなどのソーシャルメディアでもラテン文字を使って文章を書く人が多くなってきました．ソーシャルメディア上でローマ字を使って音訳したテキストを書く場合，ルールはありません．そのため，一つの単語でも様々な形で書くことができます．ソーシャルメディアのテキスト処理は，NLPの重要なテーマの一つです．そのため，ここ数年，ソーシャルメディアに焦点を当てた研究が盛んに行われています．しかし，モンゴル語については，この分野の研究が不足しており，本研究はモンゴル語のテキスト正規化の最初の研究となります．テキスト正規化とは，音声・言語処理アプリケーションの前処理段階のことです．最初の正規化は，数字，日付，頭字語，略語などの非標準形の単語を，形式的なテキストの標準形に変換することでした．しかし，その後，この内容はソーシャルメディア上の非公式なテキストを形式的なテキストに変換するために拡張されました．ノイズの多いテキスト正規化の研究作業では，ソーステキストもターゲットテキストも同じ言語である．私たちの場合は少し異なり，ソーシャルメディア上のノイジーな音訳文をフォーマルなスタイルに変換することを目的としています．つまり，ソーステキストとターゲットテキストのスクリプトは，それぞれローマ字とキリル文字の異なるものです．

森雷太, 西村良太, 北岡教英 :
自由発話に対応した照応解析を備えた音声対話システム,
日本音響学会研究発表会講演論文集, Vol.3-P-13, 1023-1026, 2020年3月.

(要約): 本研究では，主題や目的語が省略された自由発話を対話履歴を用いて補完する対話システムを提案した．自由発話を補完する方法として，中心化理論，係り受け解析と格フレームを用いた目的語の補完を提案した．また，自由発話の話し言葉の文をSequence- to-Sequence モデルによって書き言葉の文へ変換する入力文整形を導入した．話し言葉から書き言葉の変換は，約40%の正解率であったものの，一部の文では欠落した格助詞が補完されており，ゼロ代名詞の先行詞を求める上で有効であると考えられる．また，実装した対話システムが適切な返答を返すのかを検証するために出力結果の比較を行い，発話の補完が対話システムにおいて有効であることを示した．

小橋優矢, 西村良太, 北岡教英 :
書き言葉から話し言葉へのテキスト変換を用いた話し言葉音声認識用言語モデルの評価,
日本音響学会研究発表会講演論文集, Vol.2-Q-14, 951-954, 2020年3月.

(要約): Sequence-to-Sequence モデルを用いて書き言葉のテキストコーパスを話し言葉のテキストコーパスへ変換し，話し言葉部認識用言語モデルの学習を行った．書き言葉のテキストから話し言葉テキストへの変換精度はあまり高いものであるとは言えなかったが，学習した言語モデルは話し言葉の統計的特徴をよくとらえており，話し言葉音声認識用の言語モデルとして有用なものであった．また，この言語モデルがどのような話し言葉の特徴に対して有効であるのかを調査した．結果としてフィラーワードの挿入や話し言葉特有の語尾に対して非常に有効であり，助詞の省略などの口語表現に対してもある程度の効果があることが示された．

福田芽衣子, 西崎博光, 入部百合絵, 西村良太, 北岡教英 :
高齢者音声コーパス構築と音声認識への年齢・方言の影響の分析,
日本音響学会研究発表会講演論文集, Vol.2-Q-13, 947-950, 2020年3月.

(要約): 本研究では高齢者音声認識の音響モデル作成に既存の音声コーパス(JNAS，S-JNAS およびCSJ)と本コーパスの高齢者音声を用いた．本コーパスの音声データ量が少量であるにも関わらず，若干認識精度が向上した．また，年齢に伴うWER の低下傾向が示された．各地域の方言が音響モデルの追加学習時に，認識精度に影響を与えることが示された．今後の課題としては，コーパスの規模を拡大することで音響モデルの更なる向上と，各地域の方言の音声認識への影響について検討すること，また今回得られなかった音響モデルの有効な追加学習方法について検討したい．

陳家浩, 西村良太, 北岡教英 :
Uni-directional LSTMとLocal Attention を用いたストリーミング音声認識,
日本音響学会研究発表会講演論文集, Vol.2-Q-12, 943-946, 2020年3月.

(要約): 本稿では, 単方向LSTM とlocal attention を用いたストリーミング可能なEnd-to-End 音声認識モデルを提案した. local attention を導入することによって認識精度の改善が確認できた. また, CTC 出力において, local attention は高サブサンプリングレートでの改善効果が大きいことが確認された. これはストリーミングモデルに対しては重要な特性だと考えられる.今後の課題として, 注意機構の特性を活かして, 言語モデルを拡張することによってドメイン外の認識精度を改善することを考えている.

五藤智晃, 西村良太, 北研二 :
深層学習モデルによる音響ベクトル系列から文書ベクトル系列へのメディア横断マッピング,
情報処理学会全国大会講演論文集, No.4Q-05, 2-181-2-182, 2020年3月.

(要約): 本研究では，音響特徴量と文書ベクトルとの対応付けを可能とするモデルの構築を行った．提案手法では，時系列データの学習にRNN-LSTMを用いてクロスメディアでのマッピングを可能としている．構築したモデルを用いて評価実験を行ったところクローズドテストではうまくマッピングされることが確認された．今後はオープンテストでの調査を行い，汎化性能の検討を行う．

清原侃太, 西村良太, 北岡教英 :
音声と指差しの統合理解によるマルチモーダル幾何問題解答システムの構築,
情報処理学会全国大会講演論文集, No.5F-03, 4-5-4-6, 2020年3月.

(要約): 本稿では，音声と指差しの2 つのモダリティを入力として扱い，それぞれのモダリティを統合理解することで，幾何問題を解答することができるシステムを構築した．評価実験により，以前の研究結果と比較して，GUI に関しては高評価であったが，特に音声認識のユーザビリティに関しては低評価となってしまった．しかし，入力文法を制限しないことで，ユーザが自由な解答を行えるため，音声と指差しの関係性についての調査を行うことに適したシステムといえる．今後の課題として，誤認識を補正するような仕組みを実装し入力理解能力を高めることで，より自然な入力に対応できるようにすることである．また，音声と指差しの関係性についての調査を行うための実験を行うことも考えている．

小松明久, 西村良太, 北岡教英 :
CNNとCLSTMを用いた環境音認識,
日本音響学会研究発表会講演論文集, Vol.2-Q-17, 925-928, 2019年9月.

(要約): 本論文では，機械学習モデルであるCNN，CLSTM，LSTM モデルを用いて入力音声中に含まれる多重音響イベントの検出を行うタスクを試みた．その結果，audioSet のデータセットを用いてF 値で約56 の認識精度を得た．さらに，LSTM モデルとCLSTM モデルでの比較実験を行った結果，CLSTM モデルのほうが，安定して良い精度となった．

山本泰暉, 西村良太, 三崎正之 :
Convolutional LSTM を用いた省メモリMagic Word 検出,
日本音響学会研究発表会講演論文集, Vol.2-3-4, 819-822, 2019年9月.

(要約): 本研究では, CLSTM を用いて省メモリMagicWord 検出手法を提案した. LSTM のみを用いたモデルと比較して, 特にCLSTM にLSTM, もしくはNIN を組み合わせた構造が高い性能を達成した. 特にclstm lstm nin 2 は, ベースラインの性能を76.4%改善した. またデータ拡張前[8] と拡張後の比較を行う事で, 一部のCLSTM 構造が少データで高い性能が得られる事が分かった. 今後は, CLSTM の実装改善, 及びclstm lstm の構造改善に加え, 自由にMagicWord を設定できるモデルを検討していく.

福田芽衣子, 西村良太, 西崎博光, 入部百合絵, 北岡教英 :
高齢者音声認識のための音声コーパス構築と方言への適応の効果,
日本音響学会研究発表会講演論文集, Vol.1-P-17, 875-878, 2019年9月.

(要約): 我々はS-JNAS より更に高齢な年齢層の音声コーパス構築を計画し，現在までに全国4か所，平均年齢79.2 歳，221 名の音声をデータベース化した．Kaldi のCSJ レシピに基づき，JNAS，S-JANS あるいはCSJ で音響モデルを作成し，更に本コーパス音声データで適応化をする高齢者音声認識実験を行ったところ，3 者の内，CSJ 音響モデルが最も良い認識精度が得られた．これに各地域別の音声で再適応化すると地域別の音響モデルが高い精度である傾向がみられた．

陳家浩, 西村良太, 北岡教英 :
CTCとAttention を用いたEnd-to-end ストリーミング音声認識,
日本音響学会研究発表会講演論文集, Vol.1-P-16, 871-874, 2019年9月.

(要約): 本研究では, 日本語のストリーミング音声認識のために, 局所アテンションを用いたCTC モデルの拡張手法を提案した. ダウンサンプリングにおいて, 従来のフレームスタッキングと比較して, maxpooling はCTC 単語認識に対してより良い性能を達成した. また, 局所アテンションを使用すると, 低フレームレートでの性能が向上することが分かり, 低リソースストリーミング音声認識に役立つ. 最後に, 信頼ペナルティでWER を更に低下することが出来た.今後の課題として, 空白シンボルと繰り返しシンボルの影響を排除するために, RNN-LM を拡張したいと考えている.

小橋優矢, 西村良太, 北岡教英 :
Sequence-to-Sequence modelを用いた話し言葉音声認識用言語モデルのための書き言葉から話し言葉へのテキスト変換,
日本音響学会研究発表会講演論文集, Vol.1-3-8, 807-810, 2019年9月.

(要約): 本研究では，Sequence-to-Sequence モデルを用いて書き言葉テキストを話し言葉テキストへ変換することを提案した．これを正確かつ効率的に行う事ができれば，話し言葉音声認識の精度を向上させるための大規模な話し言葉テキストコーパスを作成することが可能になる．我々は，まず高齢者対話書き起こしコーパスと名大会話コーパスを用いて，それに対応した書き言葉の文を人手で作成し，書き言葉と話し言葉の対訳データセットを作成した．これを用いて変換モデルを構築，BCCWJ コーパスの一部を話し言葉に変換した．書き言葉から話し言葉への変換の精度は良いとは言えなかったが，一部の文において非常に上手く変換を行うことができた．また，書き言葉の文を話し言葉に正確に変換できていなかったとしても，変換前の文を用いて学習した言語モデルより変換後の文を用いて学習した言語モデルの方が話し言葉に対して良いパープレキシティを得られる事が示された．よって，書き言葉テキストを話し言葉テキストに変換することによって作成された話し言葉テキストコーパスで学習した言語モデルは，話し言葉音声認識に有効であると考えられる．今後，学習データを増やすためにテストデータの変換成功例を学習データに加え，長文を正確に変換するためにAttention メカニズムを導入した Seq2Seq モデルを用いることにより，より正確で大規模な話し言葉のテキストコーパスを作成する予定である．

清原侃太, 西村良太, 北岡教英 :
幾何問題における音声と指差しを用いた学習支援システムの構築と評価,
日本音響学会研究発表会講演論文集, Vol.2-P-17, 989-992, 2019年3月.

(要約): 本稿では，音声と指差しを用いたマルチモーダルインタラクションによって，幾何学問題を解答できるシステムを構築した.音声と指差し，それぞれのモダリティを統合理解し，その結果を用いて，入力の意図を理解させた.これにより，問題図形内に新たな補助線を引いたり，等しい角度の描画やそれらを数式として表現することができる.また，評価実験により，提案システムの有効性を示すことができた.
(キーワード): マルチモーダルインタラクション / 幾何問題

梶並和明, 西村良太, 入部百合絵, 北岡教英 :
音声対話破綻検出手法の開発に向けた音声対話データ収録システム,
日本音響学会研究発表会講演論文集, Vol.2-P-2, 949-952, 2019年3月.

(要約): 音声対話破綻検出手法の開発に向けた音声対話データベースを構築するために音声対話実験を行い，音声データの収録を行った.過剰に対話破綻を引き起こさないためにも Wizard of Oz法を用いた音声対話システムを構築し，音声収録を行った.WoZ 法を用いた手法でも音声対話のみに引き起こされる対話破綻を確認することができた.
(キーワード): 対話破綻検出 / 音声対話

梅原靖之, 西村良太, 北岡教英 :
様々な対話戦略を統合した音声対話システムの構築法,
日本音響学会研究発表会講演論文集, Vol.2-P-1, 945-948, 2019年3月.

(要約): 複数の対話システムを内包した対話システムを提案した. 考案した対話システムには, 生成された応答文候補から, より自然な応答文を選択する応答文選択の方法を導入した. 応答文選択に, 単語のベクトル表現を入出力として学習させたモデルを用いて, 候補文をスコア付けする方法を提案した. 現状では, 精度の高い結果を得ることはできなかった.
(キーワード): 音声対話システム / 応答選択 / 対話戦略

太田健吾, 西村良太, 北岡教英 :
LSTM によるマルチタスク学習を用いた雑談音声対話システムの応答種別選択,
日本音響学会研究発表会講演論文集, Vol.2-P-3, 953-956, 2019年3月.

(要約): 雑談対話システムの対話の継続率を改善するために，LSTM による Encoder-Decoder モデルを用いた枠組みによってシステムの応答種別を選択する手法を提案した．高齢者とインタビュアーの 1 対 1 の対話音声データを用いて提案手法の評価実験を行ったところ，応答発話の単語列の予測器と応答種別の予測器でマルチタスク学習を行うことにより，応答種別のみを単純に予測する場合と比べて高い精度を達成できた．
(キーワード): 応答種別選択 / 音声対話システム / LSTM / マルチタスク学習

清原侃太, 西村良太, 北岡教英 :
指差しと口述説明を理解する幾何学問題学習支援システム,
第17回情報科学技術フォーラム (FIT2018), Vol.J-011, 1-2, 2018年9月. 下笠元暉, 西崎博光, 福田芽衣子, 西村良太, 北岡教英 :
超高齢者の自然発話音声のための音声認識モデルの検討,
日本音響学会講演論文集, Vol.1-R-10, 977-978, 2018年9月.

(要約): 本稿では，超高齢者の自然発話音声のための音声認識モデルの検討を行う．認識実験の結果，評価セットの音声とドメインが一致するコーパスから音響モデルを学習するのがよいことが明らかとなった．

小橋優矢, 西村良太, 北岡教英 :
Twitter中の使用単語の変化に基づく未知語の発見とそれに基づく音声認識用言語モデルの適応,
日本音響学会講演論文集, Vol.1-R-24, 1017-1020, 2018年9月.

(要約): 本稿では，Twitterを用いて新しく使用されるようになった音声認識システムにとって正しく認識されないと考えられる未知語の発見手法の提案と，発見した未知語に対応した言語モデルを作成し，音声認識システムに適用する手法の提案を行う．Twitter から取得したツイートを，新しいツイートと過去のツイートとで比較することにより，ユーザー間の使用単語の変化が取得でき，そこから新しく使用されるようになった未知語の取得が可能となる．提案手法を用いて作成した言語モデルでは，ベースラインと比較して補正パープレキシティの改善が得られ，取得した未知語が含まれる評価セットにおいてパープレキシティ及び補正パープレキシティの改善が得られた．音声認識実験では，作成した言語モデルを適用した音声認識システムで未知語が含まれる文を認識した場合，音声認識システム全てにおいて，ベースライン音声認識システムより良い単語誤り率と未知語誤り率を得られた．ベースラインシステムと比較して相対的に約 91%の未知語誤り率の改善が得られた．これによって，未知語誤り率の改善が全体的な単語誤り率の改善へと繋がる結果となった．

山本泰暉, 西村良太, 三崎正之, 北岡教英 :
LSTM Neural Networkを用いた連続発話中のMagic Word検出手法,
日本音響学会講演論文集, Vol.1-R-21, 1009-1012, 2018年9月.

(要約): 本論文では, LSTM を用いた Magic Word 検出手法を提案する. BPTT 法により, Convolutional LSTM 及び, Network in network を用いた提案モデルの学習・評価を行う. ベースライン手法と比較して, 提案モデル conv16 clstm16 は非常に良い性能を発揮した. 結果より, CLSTM 構造が Magic Word 検出において有意であることが示された. また, 時空間を結びつけた特徴を捉える事が Magic Word 検出において有効である事が得られた.

西村良太, 檜垣美帆, 北岡教英 :
RNNに基づく音響ベクトル時系列の文書ベクトルへのマッピング,
電子情報通信学会技術研究報告, No.SP2018-2, 1-6, 2018年6月.

(要約): 音楽の音響データと歌詞のデータをニューラルネットワークによって対応付ける．音響データをクロマベクトル系列にしてLSTMでベクトルに変換する．その変換先が歌詞ベクトル(Word2vecによる歌詞中の単語のベクトル化したものの平均)になるように学習し，対応付け可能であることを示した．

梶並和明, 西村良太, 北岡教英 :
音声対話破綻検出手法の開発に向けた対話データベースの構築,
日本音響学会講演論文集, Vol.2-Q-14, 177-180, 2018年3月.

(要約): 音声対話破綻検出手法の開発に向けた音声対話データベースを構築するために音声対話実験を行い，音声データの収集を行った．ユーザと音声対話システムが音声対話を行うことで対話文脈から対話破綻が引き起こされる場合，音声認識による誤認識のために対話破綻を引き起こす場合などさまざまな要因によって対話破綻が起こるという結果となった．音声の誤認識による対話破綻は言語情報に基づく対話破綻検出では検出することは難しく，音声対話であることに起因する破綻の要因を知ることができた．

西村良太, 陳伯翰, 北岡教英 :
音声認識における言語モデルへの未知語登録法の検討,
日本音響学会講演論文集, Vol.1-Q-23, 127-130, 2018年3月.

(要約): 音声認識では事前に認識辞書に登録した単語は認識できるがそれ以外の未知語は一般に認識できない．しかし音声認識のタスクでは認識辞書にない単語を認識しなければならない場合が多数ある．そこで，言語モデルの学習時に未知語を登録するための「未知語トークン」を織り交ぜたデータベースを用い，認識時に未知語トークンを認識したい単語に置き換える簡単で有効な未知語登録手法を提案した．

太田健吾, 西村良太, 北岡教英 :
単語順を考慮したLSTM-RNN に基づく雑談音声対話システムの応答種別選択,
日本音響学会講演論文集, Vol.2-8-7, 45-48, 2018年3月.

(要約): 雑談音声対話システムを構築することを考えた場合，相手の発話などから，次にどのような発話をすればよいか発話種別選択が必要になる．相手の発話の音響的特徴に基づいて，LSTMを用いて，相槌や発話健康体などの発話種別の選択を可能とする方法を提案した．

中川拓磨, 西村良太, 入部百合絵, 石黒祥生, 大須賀晋, 北岡教英 :
自動運転車の操作におけるマルチモーダルインタラクション,
日本音響学会講演論文集, 1-4, 2018年3月.

(要約): 将来の自動運転車において，タクシー運転手に指示するかのように操作できるインタフェースを考えた．音声対話に指差しや視線の情報を統合して，交差点を曲がったり停車する場所を指定するなど様々な操作を自然な方法で実現できるようにした．

瀬戸栄地, 西村良太, 北岡教英 :
単語の分散表現に基づく事例ベース雑談音声対話システムのユーザ適応,
日本音響学会講演論文集, Vol.2-8-8, 49-52, 2018年3月.

(要約): 事例ベースの音声対話システムにおいて，限られた事例を，ユーザ固有の適切な事例に自動変換することにより，音声対話システムをユーザに適応する．ユーザのプロフィール情報からWeb検索によって得られた関連語を事例の単語と置き換える方法でユーザ適応を可能にした．

太田健吾, 西村良太, 北岡教英 :
発話の分散表現に基づく雑談音声対話システムの応答種別選択,
電子情報通信学会技術研究報告, No.SP2017-55, 1-5, 2017年12月.

(要約): 雑談音声対話システムを構築することを考えた場合，相手の発話などから，次にどのような発話をすればよいか発話種別選択が必要になる．相手の発話の言語情報を，単語の分散表現で表現することで，相槌や発話健康体などの発話種別の選択を可能とする方法を提案した．

瀬戸栄地, 西村良太, 北岡教英 :
回想法を指向した事例ベース雑談音声対話システムにおける単語の分散表現を用いたユーザへの事例適応,
電子情報通信学会技術研究報告, Vol.117, 23-28, 2017年10月.

(要約): 認知症の予防・改善のために自然な雑談対話(回想法)を行う音声対話システムを開発する必要がある．事例ベースの対話システムにおいて，ユーザのプロフィール情報を用いた対話事例のユーザ適応法を提案する．情報検索により取得したユーザと関連が深い単語と対話事例の単語間の cos 類似度を word2vec によって計算し，閾値以上の単語を置換することで，ユーザの話題に沿った事例を事前に生成する．本研究では，生成された事例の自然さを人手で評価することで，手法の有効性を示した．また，word2vec による分散表現の加減算を用いることで，類似度のみの場合に生成されていた不自然な事例の一部を自然な事例にすることができた．

平野雄大, 打矢隆弘, 内匠逸, 西村良太, 桜井優 :
音声対話により認知症を抑制する回想法システムの提案,
情報処理学会全国大会講演論文集, No.4ZB-03, 571-572, 2017年3月.

(要約): 近年，認知症患者は増加し続けており，介護者の負担は増大しつづけている．しかし，認知症の治療法は未だ確立されておらず，いかに進行を抑制するかということが認知症治療の課題となっている．認知症の進行を抑制する手段の一つに回想法がある．回想法とは患者と介護者が対話を行う治療法である．しかし，回想法は認知症患者と何度も対話を行う必要があり，介護者の負担が大きいという問題点がある．そこで本研究では音声対話システムであるMMDAgent[1] を用い，介護者の代わりに回想法を行うシステムを提案する．

西村良太, 眞鍋麟太郎, 中野有紀子 :
ROSアーキテクチャに基づき情報統合・共有を行う音声対話システムの開発,
人工知能学会研究会資料, Vol.B5, No.03, 79-84, 2017年3月.

(要約): 本稿では，ROSアーキテクチャにて動作する，音声対話システムについて述べた．音声対話システムに必要な 5 つのモジュール(音声認識，言語理解，対話管理，応答生成，音声合成)を構築し，さらに情報統合を目的とした Information State モジュールを導入した． ROSアーキテクチャを導入したことにより，通信路確保，データ形式の統一を円滑に図ることができたため，提案システムのような複数モジュールを活用した音声対話システムが実現できた．現在は，喫茶店実践，教育実践などの実践アプリケーションを構築中であり，複数モジュールが連携して動作する中で，音声対話システムも活用され，本稿で提案した Information State がデータ共有の中心モジュールとして活用されている．

森田武史, 西村良太, 山口高平 :
ROSに基づく総合知能アプリケーション開発プラットフォームPRINTEPSとその応用,
人工知能学会知識ベースシステム研究会, Vol.108, 30-35, 2016年6月.

(要約): 本稿では，ROSに基づく総合知能アプリケーション開発プラットフォームPRINTEPSのアーキテクチャ， PRINTEPSにおけるワークフローエディタ，ケーススタディとしてロボット喫茶店における入店時挨拶について述べる．ワークフローエディタは，「http://printeps.org」にて，公開している．

森田武史, 西村良太, 山口高平 :
ROSに基づく総合知能アプリケーション開発プラットフォームPRINTEPSのアーキテクチャ,
人工知能学会全国大会, Vol.4C4-6, 1-4, 2016年6月.

(要約): 本稿では，ROS に基づく総合知能アプリケーション開発プラットフォーム PRINTEPS のアーキテクチャ，PRINTEPS におけるワークフローエディタ，PRINTEPS の評価指標について述べる．ワークフローエディタは，「http://printeps.org」にて，公開している．

西村良太, 高瀬裕, 中野有紀子 :
PRINTEPSにおける音声対話システム開発環境,
人工知能学会全国大会, Vol.4C4-2, 1-4, 2016年6月.

(要約): 本稿では，PRINTEPSアーキテクチャにて動作する，音声対話システムの開発について述べた．音声対話システムに必要な 5 つのモジュール(音声認識，言語理解，対話管理，応答生成，音声合成)を構築し，これらを組み合わせて，音声対話システムを構成している．PRINTEPSからは，対話から得たい情報(対話したい内容:対話ゴール)を指定して音声対話システムを呼び出すことで，音声対話システムはユーザと音声対話をし，必要な情報を取得することができる．各対話ゴールに対応する細かい対話処理ルールなどは，予め用意し，PRINTEPSによる実践知能アプリケーション開発者は，音声対話に関する知識なしに，音声対話システムを構築・利用することが可能である．

眞鍋麟太郎, 高瀬裕, 西村良太, 中野有紀子 :
PRINTEPSにおけるロボット喫茶店の注文時ユーザモデリングの実現,
人工知能学会全国大会論文集, Vol.4C4-4, 1-4, 2016年6月.

(要約): 本稿では，喫茶店という状況に焦点を当て，ユーザモデルに基づきコミュニケーションを変更する社会的ロボットを実装するために，ロボットが認識すべきユーザ情報について考察する．また，接客対話の収集と分析を行い，ロボットが社会的シグナルである視線や着席行動を認識できれば，社会的関係や，親密度を推定することが可能であることが示された．そして，現在実装中のプロトタイプシステムについて記述し，システムの問題点について述べる．

森田武史, 西村良太, 山口高平 :
ストリーム推論と ROS に基づく総合知能アプリケーション開発ツール PRINTEPS,
電子情報通信学会技術研究報告, Vol.115, No.375, 55-60, 2015年12月.

(要約): 本稿では，ストリーム推論と ROS に基づく総合知能アプリケーション開発ツール PRINTEPS(PRactical INTElligent aPplicationS)を提案する．本研究では，PRINTEPS のケーススタディとして，Pepper を接客用ロボットとして用いた喫茶店業務実践を取り上げる．特に，ストリーム推論と ROS を用いた来客検知および喫茶店サービスオントロジーとルールに基づく入店時挨拶について紹介する．

可児龍平, 打矢隆弘, 山本大介, 内匠逸, 西村良太 :
音声対話デジタルサイネージ間の通信機構の開発,
平成27年度電気・電子・情報関係学会東海支部連合大会講演論文集, Vol.D3-5, 1, 2015年9月.

(要約): 音声対話デジタルサイネージ間の通信機構を提案した．これにより，今までは情報を受け取るだけであった利用者が情報を発信したり，メイちゃんの継続的利用などによる利用者支援が可能になる．

小林隆宏, 内匠逸, 船瀬新王, 打矢隆弘, 西村良太 :
MMDAgent による対話型電話交換システムの音声認識率改善小林,
平成27年度電気・電子・情報関係学会東海支部連合大会講演論文集, Vol.D3-4, 1, 2015年9月.

(要約): MMDAgentを用いた電話交換手システムにおける音声の誤認識に対する改善案として，DTMF 音の認識機能の追加に加えて文脈に応じた辞書ファイル切り替えを提案した．

可児龍平, 打矢隆弘, 西村良太, 山本大介, 内匠逸 :
音声対話デジタルサイネージ間の通信機構の試作,
マルチメディア,分散,協調とモバイル(DICOMO2015)シンポジウム講演論文集, Vol.6F-1, 1295-1300, 2015年7月.

(要約): 本学では，デジタルサイネージでの情報取得において，3D キャラクタとのリアルタイムでの音声対話が可能な音声ツールキットとして MMDAgent が利用されている．MMDAgent は独立したシステムとして設計されているため，従来では複数端末間における連携を行うことが不可能である．本研究では，この問題点を解決するため，複数サイネージ間での協調動作を支援する通信機構を提案する．

仲野良佑, 打矢隆弘, 西村良太, 山本大介, 内匠逸 :
エージェントを用いたスマートフォン向け音声対話システム拡張機構の開発と評価,
情報処理学会研究報告, Vol.2015-ICS-179, No.2, 1-8, 2015年3月.

(要約): 3D キャラクタとのリアルタイムでの音声対話が可能な音声対話システムとしてMMDAgent が提案されている．この動作環境を拡大し，利便性を向上させるためにMMDAgent を Android スマートフォン上へ移植したスマートメイちゃんが提案されている．これらのツールキットにおいて採用されているシナリオ定義手法では，複雑な対話シナリオの作成や，端末間通信による連携を必要とするシナリオの構築が困難である．本研究では，これらの問題点を解決するため，スマートメイちゃんをソフトウェアエージェントにより拡張する機構を提案，実装し，有効性を確認するための評価実験を行った．エージェントを用いてスマートメイちゃんの拡張を行うことで，複雑な応答文や条件分岐を持つシナリオの開発がより容易となり，また，ネットワークと連携する必要があるシナリオの開発も，エージェント間通信の延長線上と捉えることで格段に容易となる．評価実験の結果，提案機構によって問題点を解決できたことを確認したが，実用的な機構とするためにはいくつかの課題点も存在することが確認された．

大竹聡史, 打矢隆弘, 山本大介, 西村良太, 内匠逸 :
音声対話に基づくハイブリッド型ユーザ嗜好抽出手法,
平成26年度電気・電子・情報関係学会東海支部連合大会講演論文集, Vol.2014, L1-6, 2014年9月.

(要約): 音声対話システムを用いた嗜好抽出技術について提案した．

松下祐一, 打矢隆弘, 西村良太, 山本大介, 内匠逸 :
クラウド型音声対話シナリオ作成環境の構築,
平成26年度電気・電子・情報関係学会東海支部連合大会講演論文集, Vol.2014, K1-5, 2014年9月.

(要約): 大人数での対話シナリオの作成を行うための機構として，クラウド型対話シナリオ作成環境の構築を提案した．

藤堂祐樹, 西村良太, 山本一公, 中川聖一 :
音声対話システムの応答文における合成音声と肉声の印象比較,
日本音響学会秋季研究発表会, Vol.2-8-9, 79-83, 2013年9月.

(要約): 本報告では，対話システムにおける応答文の合成音声と人間の録音音声について，ユーザに与える印象・満足度について調査を行った．被験者実験の結果，録音音声はエージェントのグラフィックの質と多少の差異があったとしても，エージェントへの親しみや，話しやすさの印象を被験者に与えることが示された．

打矢隆弘, 山本大介, 西村良太, 内匠逸, 大浦圭一郎, 李晃伸, 徳田恵一 :
映像音声ストリーミング技術を用いた音声対話エージェントの開発と実証実験,
平成25年度電気関係学会東海支部連合大会講演論文集, Vol.2013, S1-3, 2013年9月.

(要約): 本研究では，映像音声ストリーミング技術を用いて，利用場所を問わずに 3D キャラクタと音声対話を行うことが可能な，ビデオ通話型音声対話エージェント「モバイルメイちゃん」を提案した．また各種の実証実験により，提案システムの有効性を確認した．

山本大介, 大浦圭一郎, 西村良太, 打矢隆弘, 内匠逸, 李晃伸, 徳田恵一 :
スマートフォンのためのスタンドアローン型モバイル音声対話エージェントの取り組み,
平成25年度電気関係学会東海支部連合大会講演論文集, Vol.2013, S1-4, 2013年9月.

(要約): 本研究では，スマートフォン単体で動作可能な音声対話3D エージェントシステムを開発した．従来のスマートフォン向け音声対話システムとは違って，遅延の少ないより自然な音声対話が可能になった．今後の課題は，よりネットワークと連携した音声対話システムの構築の仕組みを検討していく

西村良太, 山本大介, 打矢隆弘, 内匠逸 :
音声対話エージェントのための Webブラウザを用いたシナリオエディタの開発,
マルチメディア, 分散協調とモバイルシンポジウム 2013 論文集, Vol.2013, 1796-1799, 2013年7月.

(要約): 本論文では，音声対話エージェントのシナリオ構築環境を改善するべく，シナリオエディタの開発を行う．このシナリオエディタを用いることで，対話シナリオを見やすくし，編集しやすくして，より簡単に扱うことができるようにするのが目的である．開発したシナリオエディタには，大きく 3 つの特徴がある．1 つ目の特徴は，様々なプラットフォームでの動作が可能ということである．MMDAgent 自体も， PC(windows，mac，Linux)や，スマートフォン(android)など様々なプラットフォームに移植されており，シナリオエディタについても，同様の環境での需要が考えられる．これらの環境で広く動作させる為，web ブラウザベースでの開発を行なっている．

山本大介, 西村良太, 打矢隆弘, 内匠逸 :
スマートメイちゃん:スマートフォンの機能を有するモバイル音声対話エージェント,
マルチメディア, 分散協調とモバイルシンポジウム 2013 論文集, Vol.2013, No.2B-6, 300-304, 2013年7月.

(要約): 本稿では，音声対話システム構築ツールキット MMDAgent を拡張し，GPS や NFC・GUI 等の Android スマートフォンの機能を効果的に活用するための仕組みを提案する．具体的には，全ての Android OSの機能を利用するためには Java 言語で開発する必要があるが，MMDAgent は C++言語での開発が想定されており，異なる言語間での連携は容易ではないという問題があった．そこで，Java と C++の連携を実現するブリッジモジュールを開発し，容易にMMDAgent の各モジュールと Android の機能とを連携可能な Java プラグイン開発プラットフォームを提案した．また，本プラットフォームに基づく様々な Java プラグインの開発も行った．

山本大介, 大浦圭一郎, 西村良太, 打矢隆弘, 内匠逸, 李晃伸, 徳田恵一 :
スマートフォン単体で動作する音声対話3Dエージェント「スマートメイちゃん」の開発,
情報処理学会インタラクション, No.3EXB-27, 675-680, 2013年3月.

(要約): 本研究では，スマートフォン単体で動作する音声対話3Dエージェントシステムを開発した．従来のスマートフォン向け音声対話システムとは違って，提案システムでは，スマートフォン内で音声認識や音声合成などの処理を完結することができるため，ネットワークに起因する遅延のない自然な音声対話が実現可能になった．さらに，スマートフォンに適した音声インタフェースを試作し，提案手法の評価を行った．

藤堂祐樹, 西村良太, 山本一公, 中川聖一 :
複数の対話エージェントを用いた音声対話システムの分析と評価,
情報処理学会研究報告, Vol.2013-SLP-9, No.18, 1-7, 2013年2月.

(要約): 現在のほとんどの音声対話システムは，ユーザとシステムの1対1の対話を扱っているが，我々はシステム側のエージェントを2人にした三者対話システムの開発を行ってきた．対話ドメインは従来の「うどんとラーメンのどちらが好きか」の他に「北海道旅行と沖縄旅行のどちらに行きたいか」を追加し，それぞれ同じドメインの二者対話システムと三者対話システムをユーザに使用し，評価実験を行った．被験者実験の結果，三者対話システムは，対話の弾み具合の向上や，対話の雑談らしさの印象を被験者に与えるという結果が指示された．

打矢隆弘, 山本大介, 柴川元宏, 吉田真基, 西村良太, 内匠逸, 松尾啓志 :
オープンキャンパスにおけるモバイル端末向け音声対話システムの活用,
大学ICT推進協議会年次大会2012, No.H3-4, 1-8, 2012年12月.

(要約): 本研究ではオープンキャンパスにおいて高校生に学科案内やキャンパス案内を行う音声対話システムを開発した．このシステムはスマートフォンとVoIPを用いて利用場所を問わずに音声対話が利用可能であり，オープンキャンパス参加中の建物案内や大学周辺の地理案内に最適である．また，利用者は大学に関する情報を音声で気軽に入手することができる．本稿では，今年度のオープンキャンパスでの利用実績とユーザビリティの評価実験結果について報告する．

打矢隆弘, 山本大介, 柴川元宏, 吉田真基, 西村良太, 内匠逸 :
ビデオ通話型音声対話サービス「モバイルメイちゃん」の開発,
合同エージェントワークショップ&シンポジウム2012(JAWS2012)予稿集, 1-7, 2012年10月.

(要約): 本研究では，スマートフォンと VoIP を用いて利用場所を問わずに音声対話を行うことが可能な，ビデオ通話型音声対話サービス「モバイルメイちゃん」を提案した．また各種の実験により，提案サービスの有効性を実証した．

藤堂祐樹, 西村良太, 山本一公, 中川聖一 :
単一対話エージェントと複数対話エージェントを用いた音声対話システムの分析と評価,
情報処理学会研究報告, Vol.2012-SLP-90, No.19, 1-8, 2012年2月.

(要約): 現在のほとんどの音声対話システムは，ユーザとシステムの 1 対 1 の対話を扱っているが，本報告ではシステム側のエージェントを 2 つにした三者対話システムの開発を行った．また二者対話システムと三者対話システムをそれぞれユーザに使用してもらい，システムがユーザに与える影響・満足度についての分析を行った．対話ドメインは「うどんとラーメンのどちらが好きか」とし，二者対話システムのエージェントにはユーザにうどんとラーメン両方を薦めさせた．三者対話システムのエージェントには，それぞれうどん好き，ラーメン好きという個性を与え，それぞれ自分の好きな物をユーザに薦める対話形式とした．被験者実験の結果，三者対話システムは，エージェントへの親しみや対話の雑談らしさの印象を被験者に与えることが示された．

西村良太, 駒谷和範 :
データベース検索音声対話システムにおける対話状態の推定,
情報処理学会研究報告, Vol.2012-SLP-90, No.20, 1-7, 2012年2月.

(要約): データベース検索を行う音声対話システムにおいて，ユーザの意図を反映し，音声認識誤りに対処して応答生成を行うための対話状態を推定するモデルについて述べる．データベース検索タスクにおいて，対話の状態が「検索条件の指定」「情報の提示要求」の二つを遷移するとモデル化する．この 2 つの状態を対話中から得られる素性に基づき，ロジスティック回帰により予測する．レストランデータベース検索を行う音声対話システムを構築し，7 名の被験者から対話データを収集し，モデルの学習実験を行った．ベースラインシステムでの対話状態の決定精度が 87.1%であるのに対して，学習されたモデルでは，オープンテストで 97.4%であった．また，モデルに用いた素性のうち，どの素性が対話状態の推定に寄与しているかの確認も行った．

西村良太, 中川聖一 :
複数の対話エージェントを扱う音声対話システムの構築と評価,
情報処理学会研究報告, Vol.2010-SLP-84, No.6, 1-6, 2010年12月.

(要約): 現在の音声対話システムは，一人のユーザに対して一つのエージェントが対応する 1 対 1 の対話を扱っているが，本論文ではシステム側のエージェントを複数にすることで多人数対話を実現するシステムを構築する．今回は，2 つのエージェントを扱った，三者対話システムの開発を行った．本システムは，我々がこれまでに構築した 1 対 1 対話の音声対話システムを拡張しており，ユーザに対する応答のタイミングや，応答の種類(あいづちなど)の制御を決定木を用いて行っている．また，ユーザからの非流暢な発話に対しても頑健に応答することが可能になっている．エージェントは， 2D のキャラクタを，それぞれ 2 台のディスプレイに 1 つずつ表示し，出力音声も別々のスピーカから出力されるようになっている．被験者実験の結果，被験者は三者対話による内容の幅の広がりや，対話の自然性を感じていることが示された．

西村良太, 中川聖一 :
複数の対話エージェントを扱う音声対話システムの開発,
情報処理学会研究報告, Vol.2010-SLP-80, No.7, 1-6, 2010年2月.

(要約): 現在の音声対話システムは，一人のユーザに対して一つのエージェントが対応する 1 対 1 の対話を扱っているが，本論文ではシステム側のエージェントを複数にすることで多人数対話を実現するシステムを構築する．今回は，2 つのエージェントを扱った，三者対話システムの開発を行う．本システムは，我々がこれまでに構築した 1 対 1 対話の音声対話システムを拡張しており，ユーザに対する応答のタイミングや，応答の種類(あいづちなど)の制御を決定木を用いて行っている．また，ユーザからの非流暢な発話に対しても頑健に応答する事が可能になっている．エージェントは，2D のキャラクタを，それぞれ 2 台のディスプレイに 1 つずつ表示し，出力音声も別々のスピーカから出力されるようになっている．

西村良太, 中川聖一 :
応答タイミングを考慮した音声対話システムとその評価,
情報処理学会研究報告, Vol.2009-SLP-77, No.22, 1-6, 2009年7月.

(要約): 人間と機械が対話を行う際に，機械が人間同士の会話と同じように，自然な応答を返すことが出来れば，より円滑な対話を行うことが期待できる．本研究では，人間同士の雑談対話中にて生じる対話現象を模倣する音声対話システムを構築した．本システムでは，応答として，あいづち，復唱，共同補完などを扱っており，決定木を用いて応答種類と応答タイミングを決定している．また，本システムはユーザからのオーバーラップ応答(バージイン)や，非流暢な発話に対しても頑健に応答することが可能になっている．被験者実験の結果から，オーバーラップを含む通常応答やあいづちに対して高い自然性が示され，被験者の多くがあいづちに対して親しみを感じており，また，バージインは便利であると評価された．

伊藤敏彦, 北岡教英, 西村良太 :
音声対話における発話タイミングの影響,
電子情報通信学会技術研究報告, Vol.108, No.283, 7-12, 2008年11月.

(要約): 先行研究で行った対話リズムに関する分析結果の妥当性を確認するために，発話タイミング，分析結果に基づいた音声対話を作成し，対話の自然性や合成音の違和感発言の聞き取るなどを調べる知覚実験を行った．知覚実験1で合成音声による4段の短い目的指向対話を，知覚実験2では実音と合成音の1 分長の長めの雑談対話を用って実験を行った．その結果，発言では自然な発話が存在すること，発話内容に即した発話タイミングに自然性を感じるなど，対話リズムに関連する分析結果の妥当性を示すことができた．

伊藤敏彦, 北岡教英, 西村良太 :
音声対話における発話タイミングの影響に関する知覚実験,
情報処理学会研究報告, Vol.2008-SLP-72, No.18, 99-104, 2008年7月.

(要約): 先行研究で行った対話リズムに関する分析結果の妥当性を確認するために，発話タイミング，分析結果に基づいた音声対話を作成し，対話の自然性や合成音の違和感発言の聞き取るなどを調べる知覚実験を行った．知覚実験1で合成音声による4段の短い目的指向対話を，知覚実験2では実音と合成音の1 分長の長めの雑談対話を用って実験を行った．その結果，発言では自然な発話が存在すること，発話内容に即した発話タイミングに自然性を感じるなど，対話リズムに関連する分析結果の妥当性を示すことができた．

西村良太, 北岡教英, 中川聖一 :
人間同士の対話の印象と韻律変化との関係の分析とそのモデル化,
日本音響学会講演論文集, Vol.2-10-15, 1-4, 2008年3月.

(要約): 人間と機械が対話を行う際に，機械が人間同士の会話と同じように，相手に同調を示すことができれば，より円滑な対話を行うことが期待できる．そのためには，実際の人間同士の対話の印象がどのような要因で決められるのかを把握し，その情報を用いて相手に良い印象を与えていくようにする必要がある．本研究では，韻律情報に着目し，人間同士の対話の印象と韻律変化との間にどのような関係性があるのかを分析した．そして，音声対話システムへの実装を目指した円滑に対話を行うための韻律制御モデルの構築を試みた．

西村良太, 北岡教英, 中川聖一 :
音声対話システムにおける対話中の韻律変化のモデル化と適用,
日本音響学会講演論文集, Vol.1-9-3, 1-2, 2007年3月.

(要約): 人間と機械が対話を行う際に，機械が人間同士の会話と同じように，話者交代，割り込み，あいづちなどを自然に返すことが出来れば，より円滑な対話を行うことが期待できる．そのためには応答を返すタイミングや，出力音声の韻律情報を，実際の人間同士の対話のように制御する必要がある．本研究では，協調的な音声対話システムを実現するために，人間同士の対話における応答タイミングや韻律的な同調と，対話としての盛り上がり・意見の相違などとの関連を分析し，そのモデル化を試みた．また，そのモデルを音声対話システムに実装した．

西村良太, 北岡教英, 中川聖一 :
対話における韻律変化・タイミングのモデル化と音声対話システムへの適用,
人工知能学会言語・音声理解と対話処理研究会, No.48, 37-42, 2006年11月.

(要約): 本研究では，協調的な音声対話システムを実現するために，人間同士の対話における韻律的な同調と対話としての盛り上がりとの関連を分析し，そのモデル化を試みた．また，そのモデルを音声対話システムに搭載した．音声対話システムは，リアルタイムにあいづち，話者交替などの応答タイミングを検出し種々の雑談現象を扱い応答することが出来る雑談に向けた対話システムであり，タイミングの検出と応答の種類の決定には決定木を用い，応答を出力する際の韻律情報は，モデルを用いて制御している．

西村良太, 北岡教英, 中川聖一 :
応答タイミングを考慮した雑談音声対話システム,
人工知能学会言語・音声理解と対話処理研究会, No.46, 21-26, 2006年3月.

(要約): 本研究では，リアルタイムにあいづち，話者交替などの応答タイミングを検出し種々の雑談現象を扱い応答することが出来る雑談に向けた対話システムの構築を行った．タイミングの検出と応答の種類の決定には決定木を用いており，その決定木の素性としては，言語情報と韻律情報を用いている．ポーズを検出せずに逐次的に処理をして応答を返すことから，オーバーラップした応答なども返すことが可能であり，実際の雑談に現れる様々な現象を実現できる．

研究会・報告書: 研究者総覧に該当データはありませんでした。

特許: 中野有紀子, 西村良太, 眞鍋麟太郎 : ROSアーキテクチャに基づいて情報を統合・共有する分散システム, 特願2017-124154 (2017年6月), 特開2019-008158 (2019年1月), 特許第JP2019008158号 (2019年1月).
作品: 研究者総覧に該当データはありませんでした。
補助金・競争的資金: 高齢者を対象とした永続的に利用できるマルチモーダル対話システム基盤技術の構築 (研究課題/領域番号: 23H00493 )
人間の感覚と整合する音声特徴空間の構築 (研究課題/領域番号: 22K19793 )
スムーズな対話のための対話テンポのリアルタイム制御に基づく音声対話システム (研究課題/領域番号: 19K04311 )
高齢者を対象とした音声認識・対話システム基盤技術の構築 (研究課題/領域番号: 19H01125 )
研究者番号（50635878）による検索

その他: 研究者総覧に該当データはありませんでした。

研究者総覧で最新データを確認する

2025年4月17日更新

専門分野・研究分野: 情報学 (Informatics)
所属学会・所属協会: IEEE Global Conference on Consumer Electronics [2017年〜2024年], Organized Session Chair [2015年〜2024年], Treasurer [2018年], Technical Program Committee Vice Chair [2016年], Technical Program Committee Vice Chair [2021年], Conference Chair [2023年])
1st International Workshop on Platforms and Applications for Social problem Solving and Collective Reasoning
The International Conference on Network-Based Information Systems [2017年])
情報処理学会
一般社団法人人工知能学会
日本音響学会
電子情報通信学会
日本音声学会
IEEE [2017年〜2020年], 四国支部役員会計 [2021年1月〜2022年12月])
IEEE LifeTech
The IEEE Region 10 Symposium
IEEE Consumer Electronics Society West Japan Joint Chapter
International Conference on Natural Language Processing and Artificial Intelligence
日本歯科放射線学会
Asia Pacific Signal and Information Processing Association
International Speech Communication Association
委員歴・役員歴: IEEE Global Conference on Consumer Electronics (GCCE) (Conference Chair [2017年], Conference Chair [2020年], Technical Program Committee Chair [2018年〜2024年], Organized Session Chair (OS-SLP) [2017年〜2024年], Organized Session Chair (OS-AIR) [2015年〜2024年], Treasurer [2018年], Technical Program Committee Vice Chair [2016年], Technical Program Committee Vice Chair [2021年], Conference Chair [2023年])
1st International Workshop on Platforms and Applications for Social problem Solving and Collective Reasoning (PASSCR2016) (Program Committee Member [2016年10月〜10月])
The International Conference on Network-Based Information Systems (NBiS) (TPC member (Multimedia, Web and Internet Applications) [2017年])
情報処理学会 (会員 [2005年4月〜2020年4月], 論文査読委員 [2022年6月〜2025年5月], 四国支部役員 [2021年1月〜2022年12月], 音声言語情報処理研究運営委員会運営委員 [2022年4月〜2024年3月])
一般社団法人人工知能学会 (会員 [2005年4月〜2020年4月])
日本音響学会 (会員 [2006年4月〜2020年4月])
電子情報通信学会 (正会員 [2008年4月〜2024年3月], 音声研究専門委員会専門委員 [2022年6月〜2024年6月], 英文論文誌D編集委員会英文論文誌編集委員 [2023年6月〜2027年6月])
日本音声学会 ( [2009年4月〜2020年4月])
IEEE (会員 [2014年〜2020年], 会員(Senior Member) [2017年〜2020年], 四国支部役員会計 [2021年1月〜2022年12月])
IEEE LifeTech (Global Conference on Life sciences and Technologies) (Publication Chair [2019年〜2020年], Conference Chair [2021年1月〜2022年12月])
The IEEE Region 10 Symposium (IEEE TENSYMP-2018) (Reviewer [2018年])
IEEE Consumer Electronics Society West Japan Joint Chapter (Chair [2019年1月〜2020年12月], Treasurer [2021年1月〜2022年12月], Chair [2023年1月〜2024年12月])
International Conference on Natural Language Processing and Artificial Intelligence (NLPAI) (Technical Program Committee [2020年3月〜2024年3月])
日本歯科放射線学会 (正会員 [2023年8月])
Asia Pacific Signal and Information Processing Association (APSIPA) (Full Member [2018年4月〜2024年3月])
International Speech Communication Association (Full Member [2018年4月〜2024年3月])
受賞: 2004年12月, 優秀発表賞 (豊橋技術科学大学)
2007年2月, 最優秀特別研究発表賞 (豊橋技術科学大学)
2013年11月, 名古屋工業大学職員褒賞優秀賞 (名古屋工業大学)
2019年10月, Best paper award (IEEE)
2022年, 2022 62nd ACC TOKYO CREATIVITY AWARDS (ACCゴールド) (一般社団法人ACC)
2023年9月, FIT奨励賞 (電子情報通信学会)
2024年3月, 2023年度優秀教員 (理工学部)
2024年4月, 第111回日本泌尿器科学会総会Best Poster Award (日本泌尿器科学会)
活動: 徳島県 (自動文字起こし・AI要約技術活用事業に係る企画提案評価委員会，委員 [2020年2月〜3月])

リサーチマップで最新データを確認するＪグローバルで最新データを確認する

2025年4月20日更新

2025年4月26日更新

Ｊグローバル

Jグローバル最終確認日: 2025/4/26 01:35
氏名（漢字）: 西村良太
氏名（フリガナ）: ニシムラリョウタ
氏名（英字）: NISHIMURA Ryota
所属機関: 豊橋技術科学大学准教授

リサーチマップ

researchmap最終確認日: 2025/4/20 02:24
氏名（漢字）: 西村良太
氏名（フリガナ）: ニシムラリョウタ
氏名（英字）: NISHIMURA Ryota
プロフィール: 2007年豊橋技術科学大学大学院修士課程情報工学専攻修了．2010年同大学院博士後期課程電子・情報工学専攻修了．2011年名古屋大学大学院技術補佐員．2012年名古屋工業大学特任助教．2014年慶應義塾大学特任助教，2017年徳島大学特任研究員，2018年同講師，現在に至る．主として音声対話システムに関する研究に従事．IEEE(Senior Member)，ISCA，APSIPA，電子情報通信学会，情報処理学会，日本音響学会，人工知能学会，日本音声学会各会員．博士（工学）
登録日時: 2009/5/25 10:04
更新日時: 2025/4/17 13:02
アバター画像URI: https://researchmap.jp/sayonari/avatar.png
ハンドル: リサーチマップAPIで取得できませんでした。
eメール: リサーチマップAPIで取得できませんでした。
eメール（その他）: リサーチマップAPIで取得できませんでした。
携帯メール: リサーチマップAPIで取得できませんでした。
性別: リサーチマップAPIで取得できませんでした。
没年月日: リサーチマップAPIで取得できませんでした。
所属ID: 0436501003
所属: 豊橋技術科学大学
部署: 大学院工学研究科情報・知能工学系
職名: 准教授
学位: 博士（工学）
学位授与機関: 豊橋技術科学大学
URL: リサーチマップAPIで取得できませんでした。
科研費研究者番号: リサーチマップAPIで取得できませんでした。
Google Analytics ID: リサーチマップAPIで取得できませんでした。
ORCID ID: リサーチマップAPIで取得できませんでした。
その他の所属ID: リサーチマップAPIで取得できませんでした。
その他の所属名: リサーチマップAPIで取得できませんでした。
その他の所属部署: リサーチマップAPIで取得できませんでした。
その他の所属職名: リサーチマップAPIで取得できませんでした。
最近のエントリー: リサーチマップAPIで取得できませんでした。
Read会員ID: リサーチマップAPIで取得できませんでした。
経歴
受賞
Misc
論文
講演・口頭発表等
書籍等出版物
研究キーワード
研究分野
所属学協会
担当経験のある科目
その他: リサーチマップAPIで取得できませんでした。
Works: リサーチマップAPIで取得できませんでした。
特許: リサーチマップAPIで取得できませんでした。
学歴
委員歴
社会貢献活動: リサーチマップAPIで取得できませんでした。

ＫＡＫＥＮで最新データを確認する

2025年4月26日更新

研究者番号: 50635878

所属（現在）: 2025/4/1 : 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授

所属（過去の研究課題 情報に基づく）*注記: 2019/4/1 – 2024/4/1 : 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師

審査区分/研究分野

研究代表者

小区分20020:ロボティクスおよび知能機械システム関連

研究代表者以外

中区分61:人間情報学およびその関連分野

キーワード

研究代表者

音声対話システム / タイミング / テンポ / 音声言語情報処理 / 深層学習 / 音声認識 / リアルタイム制御 / ROS / 対話テンポ / 自然な対話

研究代表者以外

高齢者音声認識 / 雑談対話 / 質問誘導対話 / 認知症傾向検出 / 高齢者音声 / 対話 / 雑談 / 認知症傾向スクリーニング / 音声対話 / 高齢者 / 音声認識 / 認知力診断 / マルチモーダル対話システム / マルチモーダル対話 / マルチモーダル / 話者空間 / 音声合成 / x-vector / 音声特徴空間 / 話者埋め込み / 音声 / 特徴量 / 距離

研究課題研究成果共同研究者

「研究課題をさがす」で表示
テキスト（CSV）で出力

テキスト（CSV）で出力

注目研究はありません。

研究者を探す

西村 良太

Ｊグローバル

リサーチマップ

研究代表者

研究代表者以外

研究代表者

研究代表者以外

西村良太